DApp Store | Hub Web3 pentru evenimente și jocuri

Toată lumea vrea să lucreze la atribuire de credite pe termen lung, dar aceasta este o întrebare mult mai imediată + practică, după părerea mea: Cum poți agrega optim mai multe recompense într-un singur gradient? Cum depinde asta de zgomotul de recompensă? Foarte tare :)

Este evident că poți crește fidelitatea recompenselor cheltuind mai mult calcul pe notare. Paradigma actuală pentru asta este să pui unui judecător o mulțime de întrebări da/nu, să convertești la 0/1, și apoi... Medie? Prag? Asta aruncă la gunoi mulți biți pe care am petrecut calculând

Ca să primim un răspuns, trebuie să decidem ce este "optimul" — judecător de așteptare minmax? Judecător obișnuit? Probabilitatea maximă de a avea cel puțin K/N 1? "Recompensa" este grozavă când este nativă domeniu (puncte, dolari), dar pentru RL în practică este adesea ceva ce inventăm pentru hillclimbing

Este tare, dar foarte încărcat de teoria jocurilor, și nu sunt sigur că este cea mai relevantă poveste pentru universul rubricii (unde intransitivitatea nu este cu adevărat o preocupare). Dar este o întrebare care merită mai explorată

Modul în care văd eu o configurație "curată" multi-rubrică este că presupunem că există N funcții binare de recompensă pentru o sarcină, toate fiind plauzibil satisfăcibile de o soluție perfectă, dar observațiile noastre de recompensă sunt ușor zgomotoase "maximizează șansele unei soluții perfecte" poate?