DApp Store | Web3 Hub voor evenementen en spelletjes

iedereen wil werken aan langetermijn krediettoewijzing, maar dit is een veel meer directe + praktische vraag IMO: hoe aggregeer je optimaal meerdere beloningen in een enkele gradient? hoe hangt dit af van beloningsruis? heel gaaf werk :)

het is duidelijk dat je de beloningsnauwkeurigheid kunt verhogen door meer rekenkracht te besteden aan het beoordelen. het huidige paradigma hiervoor is het stellen van een heleboel ja/nee vragen aan een rechter, om te zetten naar 0/1, en dan... gemiddeld? drempelen? dit gooit veel bits weg waar we rekenkracht aan hebben besteed.

Om een antwoord te krijgen, moeten we beslissen wat "optimaal" is — minmax verwachte rechter? gemiddelde rechter? maximale waarschijnlijkheid van ten minste K/N 1's? "beloning" is geweldig wanneer het domein-native is (punten, dollars), maar voor RL in de praktijk is het vaak iets dat we gewoon verzinnen voor hillclimbing.

dit is cool, maar het is erg vol met speltheorie, en ik ben niet zeker of het het meest relevante verhaal is voor de rubric-setting (waar intransitiviteit niet echt de zorg is). maar het is een vraag die meer verkenning verdient.

de manier waarop ik denk over een "schone" multi-rubric setup is dat we aannemen dat er N binaire beloningsfuncties voor een taak zijn, die allemaal plausibel bevredigd kunnen worden door een perfecte oplossing, maar onze beloningsobservaties zijn iets ruisachtig "maximaliseer de waarschijnlijkheid van een perfecte oplossing" misschien?