Penso che ci sia probabilmente troppo enfasi sulla misurazione del compito lungo METR come segno di progresso dell'AI... ... ma non importa. Con un piccolo aiuto da GPT-5.2 Pro, ho calcolato le correlazioni tra log(METR) e altri indicatori chiave, e praticamente tutti correlano fortemente.
Grazie ancora a @EpochAIResearch per aver reso disponibili così tanti punteggi di benchmark al pubblico.
104