熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
由於 OpenAI 沒有根據 GPT-5.2 在長篇任務上的成功率更新 GDPval 的圖 7,我使用了 GPT-5.2 Pro 來進行更新。
該圖表假設過程為:將長任務委派給 AI,評估輸出一小時,然後決定是再試一次還是放棄並自己完成。

原始數據(GPT-5 對人類專家的勝率為 39%,GPT-5.2 約為 72%)

GDPval 仍然是去年最重要的 AI 論文之一。它展現了 AI 如何進行經濟上有價值的工作。
194
熱門
排行
收藏
