DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Acho que provavelmente há ênfase demais na medição de tarefas longas do METR como sinal de progresso da IA... ... Mas não importa. Com uma ajudinha do GPT-5.2 Pro, calculei as correlações entre log(METR) e outros benchmarks chave, e basicamente todos se correlacionam muito

Mais uma vez, obrigado à @EpochAIResearch por tornar tantos benchmarks públicos de pontuação.

108

Melhores

Classificação

Favoritos