Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
todos querem trabalhar na atribuição de crédito a longo prazo, mas esta é uma questão muito mais imediata + prática na minha opinião:
como você agrega de forma otimizada múltiplas recompensas em um único gradiente? como isso depende do ruído da recompensa?
trabalho muito legal :)

Há 18 horas
Demorou alguns anos de reflexão profunda, mas estou super empolgado para finalmente compartilhar o PROSPER: um belo algoritmo baseado em regressão para RL a partir de *recompensas de rubrica* que lida robustamente com o *feedback inconsistente* que os juízes LLM fornecem. Vamos voltar ao Black(well)! 🧵(1/n)

é evidente que você pode aumentar a fidelidade da recompensa gastando mais poder computacional na avaliação. o paradigma atual para isso é fazer uma série de perguntas de sim/não a um juiz, convertendo em 0/1, e depois... fazendo uma média? aplicando um limiar?
isso descarta muitos bits nos quais gastamos poder computacional.
para obter uma resposta, temos que decidir o que é "otimal" — minmax esperado juiz? juiz médio? máxima probabilidade de pelo menos K/N 1’s?
"recompensa" é ótima quando é nativa do domínio (pontos, dólares), mas para RL na prática é muitas vezes algo que apenas inventamos para escalar colinas.
isto é fixe, mas está muito carregado de teoria dos jogos, e não tenho certeza se é a história mais relevante para o contexto da rubrica (onde a intransitividade não é realmente a preocupação). mas é uma questão que merece mais exploração

a forma como penso sobre uma configuração "limpa" de múltiplos rubricas é que assumimos que existem N funções de recompensa binárias para uma tarefa, todas plausivelmente satisfatórias por uma solução perfeita, mas as nossas observações de recompensa são ligeiramente ruidosas
"maximizar a probabilidade de uma solução perfeita" talvez?
1,72K
Top
Classificação
Favoritos
