热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
由于OpenAI没有更新GDPval中的图7,考虑到GPT-5.2在长格式任务上的成功率,我使用了GPT-5.2 Pro来进行更新。
该图表假设的过程是:将长任务委托给AI,评估输出一个小时,然后决定是再试一次还是放弃并自己完成。

原始数据(GPT-5对人类专家的胜率为39%,GPT-5.2约为72%)

177
热门
排行
收藏
