Jeg tror det er for mye fokus på METR langtidsmåling som et tegn på AI-fremgang... ... Men det spiller ingen rolle. Med litt hjelp fra GPT-5.2 Pro beregnet jeg korrelasjonene mellom log(METR) og andre viktige benchmarks, og de korrelerer stort sett alle sterkt
Takk igjen til @EpochAIResearch for at så mange benchmark-scorer ble offentlig tilgjengelige.
107