熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
METR 最新的評估顯示 GPT-5.2(高)達到了 "50% 時間範圍" 的 6.6 小時。
對於不知情的人來說,他們的方法論是通過計時人類專家完成 AI 現在能夠成功完成一半時間的任務所需的時間來衡量自主能力。
我曾與 OpenAI 談到過 "輕起飛",這進一步證明了這一點。這一軌跡就是輕起飛的定義 - 一個平滑但真實的指數加速。能力翻倍的時間已經從 212 天縮短到僅僅 128 天。
這個 6.6 小時的紀錄是使用 "高" 推理努力設置創造的,而不是更強大的 "XHigh" 設置。隨著 GPT-5.2 已經以 25% 的優勢超越 Claude 4.5 Opus(5.3 小時),"XHigh" 版本可能將時間範圍推進到 10 小時以上。這證明了 OpenAI 正在成功擴展推理計算。而這甚至還不是 5.3!

熱門
排行
收藏
