Todo mundo quer trabalhar em atribuição de créditos de longo prazo, mas essa é uma pergunta muito mais imediata + prática na minha opinião: Como agregar de forma ideal múltiplas recompensas em um único gradiente? Como isso depende do ruído da recompensa? Trabalho muito legal :)
Gokul Swamy
Gokul Swamy16 horas atrás
Foram necessários alguns anos de reflexão profunda, mas estou super animado para finalmente compartilhar o PROSPER: um belo algoritmo baseado em regressão para RL a partir de *recompensas de rubrica* que lida robustamente com o *feedback inconsistente* que os jurados de LLM fornecem. Vamos voltar para o preto (bem)! 🧵 (1/n)
Fica claro que você pode aumentar a fidelidade das recompensas gastando mais cálculo em correção. O paradigma atual para isso é fazer um monte de perguntas de sim/não ao juiz, converter para 0/1, e então... Média? Limiar? Isso descarta muitos bits que gastamos em computação
Para obter uma resposta, precisamos decidir qual é o "ótimo" — juiz esperado minim? Juiz comum? Probabilidade máxima de pelo menos K/N 1s? "recompensa" é ótima quando é nativa do domínio (pontos, dólares), mas para o RL na prática geralmente é algo que inventamos para subir montanhas
Isso é legal, mas muito carregado de teoria dos jogos, e não tenho certeza se é a história mais relevante para o cenário da rubrica (onde a intransitividade não é realmente a preocupação). Mas é uma questão que merece mais exploração
A forma como penso em uma configuração "limpa" multi-rubrica é que assumimos que existem N funções binárias de recompensa para uma tarefa, todas plausivelmente satisfatíveis por uma solução perfeita, mas nossas observações de recompensa são um pouco ruidosas "maximizar a probabilidade de uma solução perfeita" talvez?
1,69K