DApp Store | Hub da Web3 para eventos e jogos

Todo mundo quer trabalhar em atribuição de créditos de longo prazo, mas essa é uma pergunta muito mais imediata + prática na minha opinião: Como agregar de forma ideal múltiplas recompensas em um único gradiente? Como isso depende do ruído da recompensa? Trabalho muito legal :)

Fica claro que você pode aumentar a fidelidade das recompensas gastando mais cálculo em correção. O paradigma atual para isso é fazer um monte de perguntas de sim/não ao juiz, converter para 0/1, e então... Média? Limiar? Isso descarta muitos bits que gastamos em computação

Para obter uma resposta, precisamos decidir qual é o "ótimo" — juiz esperado minim? Juiz comum? Probabilidade máxima de pelo menos K/N 1s? "recompensa" é ótima quando é nativa do domínio (pontos, dólares), mas para o RL na prática geralmente é algo que inventamos para subir montanhas

Isso é legal, mas muito carregado de teoria dos jogos, e não tenho certeza se é a história mais relevante para o cenário da rubrica (onde a intransitividade não é realmente a preocupação). Mas é uma questão que merece mais exploração

A forma como penso em uma configuração "limpa" multi-rubrica é que assumimos que existem N funções binárias de recompensa para uma tarefa, todas plausivelmente satisfatíveis por uma solução perfeita, mas nossas observações de recompensa são um pouco ruidosas "maximizar a probabilidade de uma solução perfeita" talvez?