經過幾年的深思熟慮,我非常興奮地終於可以分享 PROSPER:一種基於回歸的美麗算法,用於從 *rubric rewards* 中進行強化學習,能夠穩健地處理 LLM 評審提供的 *不一致反饋*。讓我們回到 Black(well)! 🧵(1/n)