Усі хочуть працювати над довгостроковим розподілом кредитів, але це, на мою думку, набагато більш нагальне + практичне питання: Як оптимально агрегувати кілька винагород в один градієнт? Як це залежить від шуму винагороди? Дуже крута робота :)
Gokul Swamy
Gokul Swamy14 годин тому
Знадобилося кілька років глибоких роздумів, але я надзвичайно радий нарешті поділитися PROSPER: прекрасним, регресійним алгоритмом для RL від *рубричних винагород*, який надійно справляється з *непослідовним зворотним зв'язком*, який дають судді LLM. Повернемося до чорного(ну)! 🧵 (1/n)
Очевидно, що ви можете підвищити якість винагороди, витрачаючи більше ресурсів на оцінювання. Поточна парадигма полягає в тому, щоб судді ставити багато запитань з відповіддю «так/ні», конвертувати їх у 0/1, а потім... Середній середній показник? Поріг? Це викидає багато деталей, на які ми витратили обчислення
Щоб отримати відповідь, нам потрібно вирішити, що таке «оптимальний» — очікуваний суддя Minmax? Середній суддя? Максимальна ймовірність принаймні K/N 1? «Винагорода» чудова, коли вона нативна для домену (бали, гроші), але для реальних життів на практиці це часто просто компенсація для підйому на пагорб
Це круто, але дуже наповнено теорією ігор, і я не впевнений, що це найактуальніша історія для сетингу рубрики (де нетранзитивність не є головною проблемою). Але це питання, яке заслуговує на глибше вивчення
Я думаю про «чисту» багаторубричну систему так: ми припускаємо, що існує N бінарних функцій винагороди для завдання, усі вони правдоподібно задовольняються ідеальним рішенням, але наші спостереження за винагородою трохи шумні «максимізувати ймовірність ідеального рішення», можливо?
1,53K