Trvalo to několik let hlubokého přemýšlení, ale jsem nadšený, že konečně mohu sdílet PROSPER: krásný, regresní algoritmus pro RL od *rubric rewards*, který spolehlivě zvládá *nekonzistentní zpětnou vazbu*, kterou poskytují porotci LLM. Pojďme zpátky k černé (no)! 🧵 (1/n)