Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Усі хочуть працювати над довгостроковим розподілом кредитів, але це, на мою думку, набагато більш нагальне + практичне питання:
Як оптимально агрегувати кілька винагород в один градієнт? Як це залежить від шуму винагороди?
Дуже крута робота :)

14 годин тому
Знадобилося кілька років глибоких роздумів, але я надзвичайно радий нарешті поділитися PROSPER: прекрасним, регресійним алгоритмом для RL від *рубричних винагород*, який надійно справляється з *непослідовним зворотним зв'язком*, який дають судді LLM. Повернемося до чорного(ну)! 🧵 (1/n)

Очевидно, що ви можете підвищити якість винагороди, витрачаючи більше ресурсів на оцінювання. Поточна парадигма полягає в тому, щоб судді ставити багато запитань з відповіддю «так/ні», конвертувати їх у 0/1, а потім... Середній середній показник? Поріг?
Це викидає багато деталей, на які ми витратили обчислення
Щоб отримати відповідь, нам потрібно вирішити, що таке «оптимальний» — очікуваний суддя Minmax? Середній суддя? Максимальна ймовірність принаймні K/N 1?
«Винагорода» чудова, коли вона нативна для домену (бали, гроші), але для реальних життів на практиці це часто просто компенсація для підйому на пагорб
Це круто, але дуже наповнено теорією ігор, і я не впевнений, що це найактуальніша історія для сетингу рубрики (де нетранзитивність не є головною проблемою). Але це питання, яке заслуговує на глибше вивчення

Я думаю про «чисту» багаторубричну систему так: ми припускаємо, що існує N бінарних функцій винагороди для завдання, усі вони правдоподібно задовольняються ідеальним рішенням, але наші спостереження за винагородою трохи шумні
«максимізувати ймовірність ідеального рішення», можливо?
1,53K
Найкращі
Рейтинг
Вибране
