一年前,我們驗證了一個未發布版本的 @OpenAI o3 (高) 的預覽,該版本在 ARC-AGI-1 上得分 88%,每個任務估計 $4.5k 今天,我們已驗證新的 GPT-5.2 Pro (超高) 的 SOTA 得分為 90.5%,每個任務 $11.64 這代表著一年內效率提高了約 390 倍
我們也驗證了 GPT-5.2 Pro (高) 在 ARC-AGI-2 上的表現為 SOTA,得分為 54.2%,每個任務 $15.72 (由於 API 超時,我們無法可靠地驗證 GPT 5.2 Pro X-高在 ARC-AGI-2 上的表現) 所有已驗證的 GPT-5.2 系列得分:
ARC-AGI 正在實現其 2019 年的目標,將 AI 推向超越記憶的高效即時適應 推理系統現在在簡單任務上展現出真正的流動智力
即使有這麼大的效率提升,與人類之間仍然存在著巨大的差距 2025年的大獎目標是每個任務$0.20,而人類在能源基礎上效率高出幾個數量級 從ARC-AGI-1和ARC-AGI-2中仍有很多可以學習的地方
ARC-AGI-3 (2026) 將進一步推動 AI 的能力和效率 旨在衡量 AI 在新環境中有效學習和概括的能力,這將是一個首創的互動推理基準 敬請期待
如果在短短幾個月內發送數百款測試AI前沿的新遊戲聽起來令人興奮,請加入創建ARC-AGI-3的工程團隊。
44.52K