Cela a pris quelques années de réflexion approfondie, mais je suis super excité de enfin partager PROSPER : un bel algorithme basé sur la régression pour RL à partir des *récompenses de grille* qui gère de manière robuste le *retour d'information incohérent* que fournissent les juges LLM. Retour à Black(well) ! 🧵(1/n)