Demorou alguns anos de reflexão profunda, mas estou super empolgado para finalmente compartilhar o PROSPER: um belo algoritmo baseado em regressão para RL a partir de *recompensas de rubrica* que lida robustamente com o *feedback inconsistente* que os juízes LLM fornecem. Vamos voltar ao Black(well)! 🧵(1/n)