Creo que probablemente hay demasiado énfasis en la medición de la tarea larga METR como un signo del progreso de la IA... ... pero no importa. Con un poco de ayuda de GPT-5.2 Pro, calculé las correlaciones entre log(METR) y otros indicadores clave, y básicamente todos correlacionan altamente.
Gracias de nuevo a @EpochAIResearch por hacer disponibles públicamente tantas puntuaciones de referencia.
96