Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
iedereen wil werken aan langetermijn krediettoewijzing, maar dit is een veel meer directe + praktische vraag IMO:
hoe aggregeer je optimaal meerdere beloningen in een enkele gradient? hoe hangt dit af van beloningsruis?
heel gaaf werk :)

15 uur geleden
Het heeft een paar jaar van diep nadenken gekost, maar ik ben super enthousiast om eindelijk PROSPER te delen: een prachtige, regressie-gebaseerde algoritme voor RL van *rubriekbeloningen* dat robuust omgaat met de *inconsistente feedback* die LLM-rechters geven. Laten we teruggaan naar Black(well)! 🧵(1/n)

het is duidelijk dat je de beloningsnauwkeurigheid kunt verhogen door meer rekenkracht te besteden aan het beoordelen. het huidige paradigma hiervoor is het stellen van een heleboel ja/nee vragen aan een rechter, om te zetten naar 0/1, en dan... gemiddeld? drempelen?
dit gooit veel bits weg waar we rekenkracht aan hebben besteed.
Om een antwoord te krijgen, moeten we beslissen wat "optimaal" is — minmax verwachte rechter? gemiddelde rechter? maximale waarschijnlijkheid van ten minste K/N 1's?
"beloning" is geweldig wanneer het domein-native is (punten, dollars), maar voor RL in de praktijk is het vaak iets dat we gewoon verzinnen voor hillclimbing.
dit is cool, maar het is erg vol met speltheorie, en ik ben niet zeker of het het meest relevante verhaal is voor de rubric-setting (waar intransitiviteit niet echt de zorg is). maar het is een vraag die meer verkenning verdient.

de manier waarop ik denk over een "schone" multi-rubric setup is dat we aannemen dat er N binaire beloningsfuncties voor een taak zijn, die allemaal plausibel bevredigd kunnen worden door een perfecte oplossing, maar onze beloningsobservaties zijn iets ruisachtig
"maximaliseer de waarschijnlijkheid van een perfecte oplossing" misschien?
1,68K
Boven
Positie
Favorieten
