由於 OpenAI 沒有根據 GPT-5.2 在長篇任務上的成功率更新 GDPval 的圖 7,我使用了 GPT-5.2 Pro 來進行更新。 該圖表假設過程為:將長任務委派給 AI,評估輸出一小時,然後決定是再試一次還是放棄並自己完成。
原始數據(GPT-5 對人類專家的勝率為 39%,GPT-5.2 約為 72%)
GDPval 仍然是去年最重要的 AI 論文之一。它展現了 AI 如何進行經濟上有價值的工作。
194