Se vaati muutaman vuoden syvällistä pohdintaa, mutta olen todella innoissani saadessani vihdoin jakaa PROSPERin: kauniin, regressioon perustuvan algoritmin RL:lle *rubrikapalkintojen* perusteella, joka käsittelee vahvasti LLM-tuomareiden antaman *epäjohdonmukaisen palautteen*. Mennään takaisin mustaan (no)! 🧵 (1/n)