每個人都想在長期信用分配上工作,但在我看來,這是一個更為直接和實際的問題: 你如何最佳地將多個獎勵聚合成一個單一的梯度?這如何依賴於獎勵噪聲? 非常酷的工作 :)
Gokul Swamy
Gokul Swamy17 小時前
經過幾年的深思熟慮,我非常興奮地終於可以分享 PROSPER:一種基於回歸的美麗算法,用於從 *rubric rewards* 中進行強化學習,能夠穩健地處理 LLM 評審提供的 *不一致反饋*。讓我們回到 Black(well)! 🧵(1/n)
顯然,您可以通過在評分上花費更多計算資源來提高獎勵的準確性。目前的範式是向法官提出一堆是/否問題,轉換為0/1,然後……平均?閾值? 這丟棄了我們花費計算資源的許多位元。
要得到答案,我們必須決定什麼是「最佳」——最小最大期望判斷?平均判斷?至少 K/N 個 1 的最大可能性? 「獎勵」在領域本地(點數、美元)時很棒,但在實際的強化學習中,這通常是我們為了爬山演算法而隨便編造的東西。
這很酷,但充滿了博弈論,我不確定這是否是最相關的故事,適合這個標題(在這裡,不可傳遞性並不是主要問題)。但這是一個值得深入探討的問題。
我對於「乾淨」的多標籤設置的想法是,我們假設有 N 個二元獎勵函數用於一個任務,所有函數都可以被完美解決方案合理滿足,但我們的獎勵觀察略有噪音。 「最大化完美解決方案的可能性」也許可以?
1.7K