Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Todo mundo quer trabalhar em atribuição de créditos de longo prazo, mas essa é uma pergunta muito mais imediata + prática na minha opinião:
Como agregar de forma ideal múltiplas recompensas em um único gradiente? Como isso depende do ruído da recompensa?
Trabalho muito legal :)

16 horas atrás
Foram necessários alguns anos de reflexão profunda, mas estou super animado para finalmente compartilhar o PROSPER: um belo algoritmo baseado em regressão para RL a partir de *recompensas de rubrica* que lida robustamente com o *feedback inconsistente* que os jurados de LLM fornecem. Vamos voltar para o preto (bem)! 🧵 (1/n)

Fica claro que você pode aumentar a fidelidade das recompensas gastando mais cálculo em correção. O paradigma atual para isso é fazer um monte de perguntas de sim/não ao juiz, converter para 0/1, e então... Média? Limiar?
Isso descarta muitos bits que gastamos em computação
Para obter uma resposta, precisamos decidir qual é o "ótimo" — juiz esperado minim? Juiz comum? Probabilidade máxima de pelo menos K/N 1s?
"recompensa" é ótima quando é nativa do domínio (pontos, dólares), mas para o RL na prática geralmente é algo que inventamos para subir montanhas
Isso é legal, mas muito carregado de teoria dos jogos, e não tenho certeza se é a história mais relevante para o cenário da rubrica (onde a intransitividade não é realmente a preocupação). Mas é uma questão que merece mais exploração

A forma como penso em uma configuração "limpa" multi-rubrica é que assumimos que existem N funções binárias de recompensa para uma tarefa, todas plausivelmente satisfatíveis por uma solução perfeita, mas nossas observações de recompensa são um pouco ruidosas
"maximizar a probabilidade de uma solução perfeita" talvez?
1,69K
Melhores
Classificação
Favoritos
