Foram necessários alguns anos de reflexão profunda, mas estou super animado para finalmente compartilhar o PROSPER: um belo algoritmo baseado em regressão para RL a partir de *recompensas de rubrica* que lida robustamente com o *feedback inconsistente* que os jurados de LLM fornecem. Vamos voltar para o preto (bem)! 🧵 (1/n)