一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

每个人都想在长期信用分配上工作，但在我看来，这是一个更为直接和实用的问题：如何将多个奖励最佳地聚合成一个梯度？这如何依赖于奖励噪声？非常酷的工作 :)

显然，通过在评分上花费更多的计算资源，可以提高奖励的准确性。目前的范式是向评审提出一系列是/否问题，将其转换为0/1，然后……取平均？设定阈值？这丢弃了我们花费计算资源处理的许多位。

要得到答案，我们必须决定什么是“最优”——最小最大期望判断？平均判断？至少 K/N 个 1 的最大可能性？当“奖励”是领域本地的（积分、美元）时，它是很好的，但在实际的强化学习中，它往往是我们为了爬山而随便编造的东西。

这很酷，但充满了博弈论，我不确定这是否是适合该主题的最相关故事（在这里，不可传递性并不是主要问题）。但这是一个值得进一步探讨的问题。

我对“干净”的多维度设置的理解是，我们假设有 N 个二元奖励函数用于某个任务，所有函数都可以被一个完美的解决方案合理满足，但我们的奖励观察结果略有噪声。 “最大化完美解决方案的可能性”也许可以？

1.69K