Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
все хотят работать над долгосрочным назначением кредитов, но это гораздо более актуальный и практический вопрос, на мой взгляд:
как оптимально агрегировать несколько вознаграждений в один градиент? как это зависит от шума вознаграждения?
очень классная работа :)

15 часов назад
Потребовалось несколько лет глубоких размышлений, но я очень рад наконец поделиться PROSPER: красивым алгоритмом на основе регрессии для RL от *rubric rewards*, который надежно справляется с *непоследовательной обратной связью*, которую предоставляют судьи LLM. Давайте вернемся к Black(well)! 🧵(1/n)

очевидно, что вы можете увеличить точность вознаграждений, потратив больше вычислительных ресурсов на оценку. текущая парадигма для этого заключается в том, чтобы задавать судье кучу вопросов с ответами да/нет, преобразовывать в 0/1, а затем... усреднять? устанавливать порог?
это отбрасывает много битов, на которые мы потратили вычислительные ресурсы.
чтобы получить ответ, нам нужно решить, что такое "оптимально" — минимизация максимального ожидаемого судьи? средний судья? максимальная вероятность хотя бы K/N единиц?
"вознаграждение" отлично, когда оно соответствует области (баллы, доллары), но на практике в RL это часто что-то, что мы просто придумываем для подъема по холму.
это круто, но очень насыщено теорией игр, и я не уверен, что это самая актуальная история для данной рубрики (где интративность не является настоящей проблемой). но это вопрос, который заслуживает более глубокого изучения.

То, как я думаю о "чистом" многорубриковом подходе, заключается в том, что мы предполагаем, что есть N бинарных функций вознаграждения для задачи, все из которых plausibly удовлетворимы идеальным решением, но наши наблюдения за вознаграждением немного шумные.
"Максимизировать вероятность идеального решения" может быть?
1,68K
Топ
Рейтинг
Избранное
