由于OpenAI没有更新GDPval中的图7,考虑到GPT-5.2在长格式任务上的成功率,我使用了GPT-5.2 Pro来进行更新。 该图表假设的过程是:将长任务委托给AI,评估输出一个小时,然后决定是再试一次还是放弃并自己完成。
原始数据(GPT-5对人类专家的胜率为39%,GPT-5.2约为72%)
177