数年の深い検討を要しましたが、ついにPROSPERを紹介できることにとてもワクワクしています。これは、*ルーブリック報酬*から作られた美しい回帰ベースの強化学習アルゴリズムで、LLMの審査員が提供する*一貫性のないフィードバック*をしっかりと処理します。ブラック(ウェル)に戻ろう!🧵 (1/n)