DApp Store | Web3 Hub for hendelser og spill

Populære emner

alle ønsker å jobbe med langsiktige kredittoppgaver, men dette er et mye mer umiddelbart + praktisk spørsmål etter min mening: Hvordan samler man optimalt flere belønninger til én og samme gradient? Hvordan avhenger dette av belønningsstøy? Veldig kult arbeid :)

Det er tydelig at du kan øke belønningstroverdigheten ved å bruke mer compute på vurdering. Det nåværende paradigmet for dette er å stille en dommer en haug med ja/nei-spørsmål, konvertere til 0/1, og så... Gjennomsnitt? terskel? Dette kaster bort mange bits som vi brukte beregning på

For å få et svar må vi avgjøre hva som er «optimalt» — Minmax forventet dommer? Gjennomsnittlig dommer? maks sannsynlighet for minst K/N 1? «Belønning» er flott når det er domene-native (poeng, dollar), men for RL i praksis er det ofte noe vi bare tar igjen for bakkeklatring

Dette er kult, men veldig spillteoretisk, og jeg er ikke sikker på at det er den mest relevante historien for rubrikksettingen (hvor intransitivitet egentlig ikke er bekymringen). Men det er et spørsmål som fortjener mer utforskning

måten jeg tenker på et «rent» multi-rubrikkoppsett er at vi antar at det finnes N binære belønningsfunksjoner for en oppgave, alle er plausibelt tilfredsstillbare med en perfekt løsning, men våre belønningsobservasjoner er litt støyende «maksimere sannsynligheten for en perfekt løsning» kanskje?

1,69K

Topp

Rangering

Favoritter