OpenAIはGPT-5.2の長尺タスクでの成功率を考慮してGDPvalの図7を更新しなかったため、GPT-5.2 Proを使って更新しました。 このチャートは、長い作業をAIに任せ、出力を1時間評価し、再挑戦するか諦めて自分でやるかのプロセスを前提としています。
オリジナル(GPT-5は人間の専門家に対して39%の勝率があり、GPT-5.2は約72%でした)
149