一年前,我们验证了一个未发布版本的 @OpenAI o3 (高) 的预览,该版本在 ARC-AGI-1 上得分为 88%,估计每个任务 $4.5k 今天,我们验证了新的 GPT-5.2 Pro (超高) 的 SOTA 得分为 90.5%,每个任务 $11.64 这代表着一年内效率提高了 ~390 倍
我们还验证了 GPT-5.2 Pro (高) 在 ARC-AGI-2 上的表现是 SOTA,得分为 54.2%,每个任务 $15.72 (由于 API 超时,我们无法可靠地验证 GPT 5.2 Pro X-高 在 ARC-AGI-2 上的表现) 所有验证过的 GPT-5.2 系列得分:
ARC-AGI 正在实现其 2019 年的目标,将 AI 推向超越记忆的高效即时适应 推理系统现在在简单任务上展现出真正的流动智能
即使在这种巨大的效率提升下,与人类之间仍然存在很大的差距 2025年大奖的目标是每个任务$0.20,而人类在能量效率上要高出几个数量级 我们仍然可以从ARC-AGI-1和ARC-AGI-2中学到很多东西
ARC-AGI-3(2026)将进一步推动AI的能力和效率 旨在衡量AI在新环境中高效学习和概括的能力,这将是首个互动推理基准 敬请期待
如果在短短几个月内发布数百款测试AI前沿的新游戏听起来令人兴奋,欢迎加入正在创建ARC-AGI-3的工程团队。
44.53K