我认为对METR长任务测量作为AI进展的标志可能过于强调了…… ……但这无所谓。在GPT-5.2 Pro的帮助下,我计算了log(METR)与其他关键基准之间的相关性,它们基本上都高度相关。
再次感谢 @EpochAIResearch 公开了如此多的基准分数。
98