Rok temu zweryfikowaliśmy podgląd niewydanej wersji @OpenAI o3 (Wysoka), która uzyskała wynik 88% w ARC-AGI-1 przy szacunkowym koszcie 4,5 tys. $/zadanie Dziś zweryfikowaliśmy nowy wynik SOTA GPT-5.2 Pro (X-Wysoka) wynoszący 90,5% przy koszcie 11,64 $/zadanie To oznacza poprawę efektywności o ~390X w ciągu jednego roku
Zweryfikowaliśmy również, że GPT-5.2 Pro (Wysoki) jest SOTA dla ARC-AGI-2, osiągając wynik 54,2% za $15,72/zadanie (Z powodu przekroczeń czasu API, nie byliśmy w stanie wiarygodnie zweryfikować GPT 5.2 Pro X-Wysoki na ARC-AGI-2) Wszystkie zweryfikowane wyniki rodziny GPT-5.2:
ARC-AGI osiąga swój cel na 2019 rok, aby przesunąć AI poza zapamiętywanie w kierunku efektywnej adaptacji w czasie rzeczywistym Systemy rozumowania wykazują teraz prawdziwą płynną inteligencję w prostych zadaniach
Nawet przy tej dużej poprawie efektywności, wciąż istnieje duża luka w porównaniu do ludzi Cel Grand Prize na 2025 rok wynosił 0,20 USD/zadanie, a ludzie są o kilka rzędów wielkości bardziej efektywni pod względem energetycznym Wciąż jest wiele do nauczenia się od ARC-AGI-1 i ARC-AGI-2
ARC-AGI-3 (2026) jeszcze bardziej zwiększy zdolności i efektywność AI Zaprojektowany, aby mierzyć zdolność AI do efektywnego uczenia się i generalizowania w nowych środowiskach, będzie pierwszym w swoim rodzaju Interaktywnym Benchmarkiem Rozumowania Bądź na bieżąco
Jeśli wysyłanie setek nowatorskich gier, które testują granice AI w zaledwie kilka miesięcy, brzmi ekscytująco, dołącz do zespołu inżynieryjnego tworzącego ARC-AGI-3
44,6K