Creo que probablemente hay demasiado énfasis en la medición de tareas largas del METR como señal del progreso de la IA... ... Pero no importa. Con un poco de ayuda de GPT-5.2 Pro, calculé las correlaciones entre log(METR) y otros benchmarks clave, y básicamente todos se correlacionan de forma muy alta
Gracias de nuevo a @EpochAIResearch por hacer públicos tantos resultados de benchmark.
73