alle ønsker å jobbe med langsiktige kredittoppgaver, men dette er et mye mer umiddelbart + praktisk spørsmål etter min mening: Hvordan samler man optimalt flere belønninger til én og samme gradient? Hvordan avhenger dette av belønningsstøy? Veldig kult arbeid :)
Gokul Swamy
Gokul Swamy15 timer siden
Det tok noen år med dyp tenkning, men jeg er supergira på endelig å dele PROSPER: en vakker, regresjonsbasert algoritme for RL fra *rubrikkbelønninger* som robust håndterer *inkonsekvent tilbakemelding* som LLM-dommere gir. La oss gå tilbake til Black (vel)! 🧵 (1/n)
Det er tydelig at du kan øke belønningstroverdigheten ved å bruke mer compute på vurdering. Det nåværende paradigmet for dette er å stille en dommer en haug med ja/nei-spørsmål, konvertere til 0/1, og så... Gjennomsnitt? terskel? Dette kaster bort mange bits som vi brukte beregning på
For å få et svar må vi avgjøre hva som er «optimalt» — Minmax forventet dommer? Gjennomsnittlig dommer? maks sannsynlighet for minst K/N 1? «Belønning» er flott når det er domene-native (poeng, dollar), men for RL i praksis er det ofte noe vi bare tar igjen for bakkeklatring
Dette er kult, men veldig spillteoretisk, og jeg er ikke sikker på at det er den mest relevante historien for rubrikksettingen (hvor intransitivitet egentlig ikke er bekymringen). Men det er et spørsmål som fortjener mer utforskning
måten jeg tenker på et «rent» multi-rubrikkoppsett er at vi antar at det finnes N binære belønningsfunksjoner for en oppgave, alle er plausibelt tilfredsstillbare med en perfekt løsning, men våre belønningsobservasjoner er litt støyende «maksimere sannsynligheten for en perfekt løsning» kanskje?
1,69K