semua orang ingin mengerjakan penugasan kredit jangka panjang tetapi ini adalah pertanyaan yang jauh lebih mendesak + praktis IMO: Bagaimana Anda menggabungkan beberapa hadiah secara optimal menjadi satu gradien? Bagaimana ini tergantung pada kebisingan hadiah? Pekerjaan yang sangat keren :)
Gokul Swamy
Gokul Swamy15 jam lalu
Butuh beberapa tahun pemikiran yang mendalam, tetapi saya sangat bersemangat untuk akhirnya membagikan PROSPER: algoritme berbasis regresi yang indah untuk RL dari *hadiah rubrik* yang dengan kuat menangani *umpan balik yang tidak konsisten* yang diberikan oleh juri LLM. Mari kita kembali ke hitam (baik)! 🧵 (1/n)
Jelas bahwa Anda dapat meningkatkan kesetiaan hadiah dengan menghabiskan lebih banyak komputasi untuk penilaian. Paradigma saat ini untuk ini adalah mengajukan banyak pertanyaan ya/tidak kepada hakim, mengonversi menjadi 0/1, dan kemudian... rata-rata? ambang batas? Ini membuang banyak bit yang kami habiskan untuk komputasi
Untuk mendapatkan jawaban, kita harus memutuskan apa itu "optimal" — hakim yang diharapkan Minmax? Hakim rata-rata? kemungkinan maksimum setidaknya K/N 1? "Hadiah" sangat bagus ketika itu asli domain (poin, dolar) tetapi untuk RL dalam praktiknya seringkali sesuatu yang hanya kita buat untuk mendaki bukit
Ini keren, tetapi sangat sarat teori permainan, dan saya tidak yakin itu cerita yang paling relevan untuk pengaturan rubrik (di mana intransitivitas tidak benar-benar menjadi perhatian). Tapi itu adalah pertanyaan yang layak untuk dieksplorasi lebih lanjut
cara saya berpikir tentang pengaturan multi-rubrik yang "bersih" adalah bahwa kami berasumsi ada N fungsi hadiah biner untuk suatu tugas, semuanya masuk akal dapat dipenuhi oleh solusi yang sempurna, tetapi pengamatan hadiah kami sedikit berisik "memaksimalkan kemungkinan solusi yang sempurna" mungkin?
1,68K