DApp Store | Pusat Web3 untuk Event & Game

semua orang ingin mengerjakan penugasan kredit jangka panjang tetapi ini adalah pertanyaan yang jauh lebih mendesak + praktis IMO: Bagaimana Anda menggabungkan beberapa hadiah secara optimal menjadi satu gradien? Bagaimana ini tergantung pada kebisingan hadiah? Pekerjaan yang sangat keren :)

Jelas bahwa Anda dapat meningkatkan kesetiaan hadiah dengan menghabiskan lebih banyak komputasi untuk penilaian. Paradigma saat ini untuk ini adalah mengajukan banyak pertanyaan ya/tidak kepada hakim, mengonversi menjadi 0/1, dan kemudian... rata-rata? ambang batas? Ini membuang banyak bit yang kami habiskan untuk komputasi

Untuk mendapatkan jawaban, kita harus memutuskan apa itu "optimal" — hakim yang diharapkan Minmax? Hakim rata-rata? kemungkinan maksimum setidaknya K/N 1? "Hadiah" sangat bagus ketika itu asli domain (poin, dolar) tetapi untuk RL dalam praktiknya seringkali sesuatu yang hanya kita buat untuk mendaki bukit

Ini keren, tetapi sangat sarat teori permainan, dan saya tidak yakin itu cerita yang paling relevan untuk pengaturan rubrik (di mana intransitivitas tidak benar-benar menjadi perhatian). Tapi itu adalah pertanyaan yang layak untuk dieksplorasi lebih lanjut

cara saya berpikir tentang pengaturan multi-rubrik yang "bersih" adalah bahwa kami berasumsi ada N fungsi hadiah biner untuk suatu tugas, semuanya masuk akal dapat dipenuhi oleh solusi yang sempurna, tetapi pengamatan hadiah kami sedikit berisik "memaksimalkan kemungkinan solusi yang sempurna" mungkin?