Loja DApp | Hub Web3 para eventos e jogos

todos querem trabalhar na atribuição de crédito a longo prazo, mas esta é uma questão muito mais imediata + prática na minha opinião: como você agrega de forma otimizada múltiplas recompensas em um único gradiente? como isso depende do ruído da recompensa? trabalho muito legal :)

é evidente que você pode aumentar a fidelidade da recompensa gastando mais poder computacional na avaliação. o paradigma atual para isso é fazer uma série de perguntas de sim/não a um juiz, convertendo em 0/1, e depois... fazendo uma média? aplicando um limiar? isso descarta muitos bits nos quais gastamos poder computacional.

para obter uma resposta, temos que decidir o que é "otimal" — minmax esperado juiz? juiz médio? máxima probabilidade de pelo menos K/N 1’s? "recompensa" é ótima quando é nativa do domínio (pontos, dólares), mas para RL na prática é muitas vezes algo que apenas inventamos para escalar colinas.

isto é fixe, mas está muito carregado de teoria dos jogos, e não tenho certeza se é a história mais relevante para o contexto da rubrica (onde a intransitividade não é realmente a preocupação). mas é uma questão que merece mais exploração

a forma como penso sobre uma configuração "limpa" de múltiplos rubricas é que assumimos que existem N funções de recompensa binárias para uma tarefa, todas plausivelmente satisfatórias por uma solução perfeita, mas as nossas observações de recompensa são ligeiramente ruidosas "maximizar a probabilidade de uma solução perfeita" talvez?