一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

我认为对METR长任务测量作为AI进展的标志可能过于强调了…… ……但这无所谓。在GPT-5.2 Pro的帮助下，我计算了log(METR)与其他关键基准之间的相关性，它们基本上都高度相关。

再次感谢 @EpochAIResearch 公开了如此多的基准分数。

98

热门

排行

收藏