METR 最新的評估顯示 GPT-5.2(高)達到了 "50% 時間範圍" 的 6.6 小時。 對於不知情的人來說,他們的方法論是通過計時人類專家完成 AI 現在能夠成功完成一半時間的任務所需的時間來衡量自主能力。 我曾與 OpenAI 談到過 "輕起飛",這進一步證明了這一點。這一軌跡就是輕起飛的定義 - 一個平滑但真實的指數加速。能力翻倍的時間已經從 212 天縮短到僅僅 128 天。 這個 6.6 小時的紀錄是使用 "高" 推理努力設置創造的,而不是更強大的 "XHigh" 設置。隨著 GPT-5.2 已經以 25% 的優勢超越 Claude 4.5 Opus(5.3 小時),"XHigh" 版本可能將時間範圍推進到 10 小時以上。這證明了 OpenAI 正在成功擴展推理計算。而這甚至還不是 5.3!