一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

每個人都想在長期信用分配上工作，但在我看來，這是一個更為直接和實際的問題：你如何最佳地將多個獎勵聚合成一個單一的梯度？這如何依賴於獎勵噪聲？非常酷的工作 :)

顯然，您可以通過在評分上花費更多計算資源來提高獎勵的準確性。目前的範式是向法官提出一堆是/否問題，轉換為0/1，然後……平均？閾值？這丟棄了我們花費計算資源的許多位元。

要得到答案，我們必須決定什麼是「最佳」——最小最大期望判斷？平均判斷？至少 K/N 個 1 的最大可能性？「獎勵」在領域本地（點數、美元）時很棒，但在實際的強化學習中，這通常是我們為了爬山演算法而隨便編造的東西。

這很酷，但充滿了博弈論，我不確定這是否是最相關的故事，適合這個標題（在這裡，不可傳遞性並不是主要問題）。但這是一個值得深入探討的問題。

我對於「乾淨」的多標籤設置的想法是，我們假設有 N 個二元獎勵函數用於一個任務，所有函數都可以被完美解決方案合理滿足，但我們的獎勵觀察略有噪音。「最大化完美解決方案的可能性」也許可以？

1.7K