Toată lumea vrea să lucreze la atribuire de credite pe termen lung, dar aceasta este o întrebare mult mai imediată + practică, după părerea mea: Cum poți agrega optim mai multe recompense într-un singur gradient? Cum depinde asta de zgomotul de recompensă? Foarte tare :)
Gokul Swamy
Gokul SwamyCu 15 ore în urmă
A fost nevoie de câțiva ani de gândire profundă, dar sunt extrem de entuziasmat să împărtășesc în sfârșit PROSPER: un algoritm frumos, bazat pe regresiune, pentru RL, de la *recompense cu rubrică* care gestionează robust *feedback-ul inconsistent* pe care îl oferă judecătorii LLM. Hai să ne întoarcem la Negru (ei bine)! 🧵 (1/n)
Este evident că poți crește fidelitatea recompenselor cheltuind mai mult calcul pe notare. Paradigma actuală pentru asta este să pui unui judecător o mulțime de întrebări da/nu, să convertești la 0/1, și apoi... Medie? Prag? Asta aruncă la gunoi mulți biți pe care am petrecut calculând
Ca să primim un răspuns, trebuie să decidem ce este "optimul" — judecător de așteptare minmax? Judecător obișnuit? Probabilitatea maximă de a avea cel puțin K/N 1? "Recompensa" este grozavă când este nativă domeniu (puncte, dolari), dar pentru RL în practică este adesea ceva ce inventăm pentru hillclimbing
Este tare, dar foarte încărcat de teoria jocurilor, și nu sunt sigur că este cea mai relevantă poveste pentru universul rubricii (unde intransitivitatea nu este cu adevărat o preocupare). Dar este o întrebare care merită mai explorată
Modul în care văd eu o configurație "curată" multi-rubrică este că presupunem că există N funcții binare de recompensă pentru o sarcină, toate fiind plauzibil satisfăcibile de o soluție perfectă, dar observațiile noastre de recompensă sunt ușor zgomotoase "maximizează șansele unei soluții perfecte" poate?
1,68K