一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

由于OpenAI没有更新GDPval中的图7，考虑到GPT-5.2在长格式任务上的成功率，我使用了GPT-5.2 Pro来进行更新。该图表假设的过程是：将长任务委托给AI，评估输出一个小时，然后决定是再试一次还是放弃并自己完成。

原始数据（GPT-5对人类专家的胜率为39%，GPT-5.2约为72%）

177

热门

排行

收藏