Me llevó unos años de reflexión profunda, pero estoy súper emocionado de compartir por fin PROSPER: un algoritmo precioso basado en regresión para RL de *recompensas de rúbricas* que gestiona de forma robusta el *feedback inconsistente* que proporcionan los jueces de LLM. ¡Volvamos a Black(bueno)! 🧵 (1/n)