Acho que provavelmente há ênfase demais na medição de tarefas longas do METR como sinal de progresso da IA... ... Mas não importa. Com uma ajudinha do GPT-5.2 Pro, calculei as correlações entre log(METR) e outros benchmarks chave, e basicamente todos se correlacionam muito
Mais uma vez, obrigado à @EpochAIResearch por tornar tantos benchmarks públicos de pontuação.
108