Знадобилося кілька років глибоких роздумів, але я надзвичайно радий нарешті поділитися PROSPER: прекрасним, регресійним алгоритмом для RL від *рубричних винагород*, який надійно справляється з *непослідовним зворотним зв'язком*, який дають судді LLM. Повернемося до чорного(ну)! 🧵 (1/n)