如果你在想,饱和 ARC-AGI-1 或 2 是否意味着我们现在拥有 AGI... 我想起我去年推出 ARC-AGI-2 时所说的话(这也是我在 2022 年春季宣布 ARC-AGI-2 即将推出时所说的,在 LLM 聊天机器人崛起之前)... ARC-AGI 系列并不是 AGI 的阈值,而是指引研究社区朝着正确问题前进的指南针。 ARC-AGI-1 是流体智能的最小测试——要通过它,你需要展示非零的流体智能。这要求 AI 超越经典的深度学习 / LLM 模式,即预训练扩展 + 静态模型推理,转向测试时适应。 ARC-AGI-2 也是如此,但任务探测更深层次的推理复杂性(特别是在概念组合方面)。不过,这些任务是普通人无需外部工具使用就能在几分钟内解决的(我们是从街上招聘的测试者),因此它并不代表人类流体智能能够达到的上限(比如,解决千年难题)。 ARC-AGI-3(将于 2026 年 3 月推出)探测互动推理:我们评估系统如何探索未知环境,建模它们,设定自己的目标,并自主规划/执行这些目标,而无需指令。 我们还开始了 ARC-AGI-4 和 ARC-AGI-5 的工作,我对此非常兴奋!