Om du undrar om mättnad av ARC-AGI-1 eller 2 betyder att vi har AGI nu... Jag hänvisar till vad jag sa när vi lanserade ARC-AGI-2 förra året (vilket också är samma sak som jag sa när vi meddelade att ARC-AGI-2 skulle komma, våren 2022, innan LLM-chattbotarna kom på bana)... ARC-AGI-serien är inte en AGI-tröskel, det är en kompass som pekar forskarsamhället mot rätt frågor. ARC-AGI-1 är ett minimalt test av flytande intelligens – för att klara det behövde man visa icke-noll flytande intelligens. Detta krävde att AI gick förbi det klassiska deep learning-/LLM-paradigmet med förtränlig skalning + statiska modeller vid inferens, mot anpassning vid testtid. ARC-AGI-2 är likadan, men med uppgifter som undersöker djupare nivåer av resonemangkomplexitet (särskilt vad gäller konceptkomposition). Ändå är detta uppgifter som vanliga människor kan lösa på några minuter utan extern verktygsanvändning (vi anställde våra testdeltagare från gatan), så det representerar inte den övre gränsen för vad mänsklig flytande intelligens kan åstadkomma (till exempel att lösa ett millennieproblem). ARC-AGI-3 (lanseras mars 2026) undersöker interaktivt resonemang: vi utvärderar hur system utforskar okända miljöer, modellerar dem, sätter egna mål och planerar/genomför mot dessa mål, autonomt utan instruktioner. Vi har också börjat arbeta med ARC-AGI-4 och ARC-AGI-5, vilket jag är ganska entusiastisk över!