Tôi đã mất vài năm để suy nghĩ sâu sắc, nhưng tôi rất hào hứng khi cuối cùng có thể chia sẻ PROSPER: một thuật toán dựa trên hồi quy tuyệt đẹp cho RL từ *rubric rewards* mà xử lý một cách mạnh mẽ *phản hồi không nhất quán* mà các trọng tài LLM cung cấp. Hãy trở lại với Black(well)! 🧵(1/n)