每个人都想在长期信用分配上工作,但在我看来,这是一个更为直接和实用的问题: 如何将多个奖励最佳地聚合成一个梯度?这如何依赖于奖励噪声? 非常酷的工作 :)
Gokul Swamy
Gokul Swamy16 小时前
经过几年的深思熟虑,我非常兴奋地终于分享 PROSPER:一个基于回归的美丽算法,用于从 *rubric rewards* 中进行 RL,能够稳健地处理 LLM 评审提供的 *inconsistent feedback*。让我们回到 Black(well)! 🧵(1/n)
显然,通过在评分上花费更多的计算资源,可以提高奖励的准确性。目前的范式是向评审提出一系列是/否问题,将其转换为0/1,然后……取平均?设定阈值? 这丢弃了我们花费计算资源处理的许多位。
要得到答案,我们必须决定什么是“最优”——最小最大期望判断?平均判断?至少 K/N 个 1 的最大可能性? 当“奖励”是领域本地的(积分、美元)时,它是很好的,但在实际的强化学习中,它往往是我们为了爬山而随便编造的东西。
这很酷,但充满了博弈论,我不确定这是否是适合该主题的最相关故事(在这里,不可传递性并不是主要问题)。但这是一个值得进一步探讨的问题。
我对“干净”的多维度设置的理解是,我们假设有 N 个二元奖励函数用于某个任务,所有函数都可以被一个完美的解决方案合理满足,但我们的奖励观察结果略有噪声。 “最大化完美解决方案的可能性”也许可以?
1.69K