Потребовалось несколько лет глубоких размышлений, но я очень рад наконец поделиться PROSPER: красивым алгоритмом на основе регрессии для RL от *rubric rewards*, который надежно справляется с *непоследовательной обратной связью*, которую предоставляют судьи LLM. Давайте вернемся к Black(well)! 🧵(1/n)