Butuh beberapa tahun pemikiran yang mendalam, tetapi saya sangat bersemangat untuk akhirnya membagikan PROSPER: algoritme berbasis regresi yang indah untuk RL dari *hadiah rubrik* yang dengan kuat menangani *umpan balik yang tidak konsisten* yang diberikan oleh juri LLM. Mari kita kembali ke hitam (baik)! 🧵 (1/n)