经过几年的深思熟虑,我非常兴奋地终于分享 PROSPER:一个基于回归的美丽算法,用于从 *rubric rewards* 中进行 RL,能够稳健地处理 LLM 评审提供的 *inconsistent feedback*。让我们回到 Black(well)! 🧵(1/n)