Pasaron unos años de profunda reflexión, pero estoy muy emocionado de finalmente compartir PROSPER: un hermoso algoritmo basado en regresión para RL a partir de *recompensas de rúbrica* que maneja de manera robusta la *retroalimentación inconsistente* que proporcionan los jueces de LLM. ¡Volvamos a Black(well)! 🧵(1/n)