热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
每个人都想在长期信用分配上工作,但在我看来,这是一个更为直接和实用的问题:
如何将多个奖励最佳地聚合成一个梯度?这如何依赖于奖励噪声?
非常酷的工作 :)

16 小时前
经过几年的深思熟虑,我非常兴奋地终于分享 PROSPER:一个基于回归的美丽算法,用于从 *rubric rewards* 中进行 RL,能够稳健地处理 LLM 评审提供的 *inconsistent feedback*。让我们回到 Black(well)! 🧵(1/n)

显然,通过在评分上花费更多的计算资源,可以提高奖励的准确性。目前的范式是向评审提出一系列是/否问题,将其转换为0/1,然后……取平均?设定阈值?
这丢弃了我们花费计算资源处理的许多位。
要得到答案,我们必须决定什么是“最优”——最小最大期望判断?平均判断?至少 K/N 个 1 的最大可能性?
当“奖励”是领域本地的(积分、美元)时,它是很好的,但在实际的强化学习中,它往往是我们为了爬山而随便编造的东西。
这很酷,但充满了博弈论,我不确定这是否是适合该主题的最相关故事(在这里,不可传递性并不是主要问题)。但这是一个值得进一步探讨的问题。

我对“干净”的多维度设置的理解是,我们假设有 N 个二元奖励函数用于某个任务,所有函数都可以被一个完美的解决方案合理满足,但我们的奖励观察结果略有噪声。
“最大化完美解决方案的可能性”也许可以?
1.69K
热门
排行
收藏
