todos querem trabalhar na atribuição de crédito a longo prazo, mas esta é uma questão muito mais imediata + prática na minha opinião: como você agrega de forma otimizada múltiplas recompensas em um único gradiente? como isso depende do ruído da recompensa? trabalho muito legal :)
Gokul Swamy
Gokul SwamyHá 18 horas
Demorou alguns anos de reflexão profunda, mas estou super empolgado para finalmente compartilhar o PROSPER: um belo algoritmo baseado em regressão para RL a partir de *recompensas de rubrica* que lida robustamente com o *feedback inconsistente* que os juízes LLM fornecem. Vamos voltar ao Black(well)! 🧵(1/n)
é evidente que você pode aumentar a fidelidade da recompensa gastando mais poder computacional na avaliação. o paradigma atual para isso é fazer uma série de perguntas de sim/não a um juiz, convertendo em 0/1, e depois... fazendo uma média? aplicando um limiar? isso descarta muitos bits nos quais gastamos poder computacional.
para obter uma resposta, temos que decidir o que é "otimal" — minmax esperado juiz? juiz médio? máxima probabilidade de pelo menos K/N 1’s? "recompensa" é ótima quando é nativa do domínio (pontos, dólares), mas para RL na prática é muitas vezes algo que apenas inventamos para escalar colinas.
isto é fixe, mas está muito carregado de teoria dos jogos, e não tenho certeza se é a história mais relevante para o contexto da rubrica (onde a intransitividade não é realmente a preocupação). mas é uma questão que merece mais exploração
a forma como penso sobre uma configuração "limpa" de múltiplos rubricas é que assumimos que existem N funções de recompensa binárias para uma tarefa, todas plausivelmente satisfatórias por uma solução perfeita, mas as nossas observações de recompensa são ligeiramente ruidosas "maximizar a probabilidade de uma solução perfeita" talvez?
1,72K