Một năm trước, chúng tôi đã xác minh một bản xem trước của phiên bản chưa phát hành của @OpenAI o3 (Cao) với điểm số 88% trên ARC-AGI-1 với chi phí ước tính là 4.5k đô la/mỗi tác vụ Hôm nay, chúng tôi đã xác minh một điểm số SOTA mới của GPT-5.2 Pro (X-Cao) là 90.5% với chi phí 11.64 đô la/mỗi tác vụ Điều này đại diện cho sự cải thiện hiệu suất khoảng ~390X trong một năm.
Chúng tôi cũng đã xác minh rằng GPT-5.2 Pro (Cao) là SOTA cho ARC-AGI-2, đạt 54.2% cho $15.72/công việc (Vì thời gian chờ API, chúng tôi không thể xác minh đáng tin cậy GPT 5.2 Pro X-Cao trên ARC-AGI-2) Tất cả các điểm số đã xác minh của gia đình GPT-5.2:
ARC-AGI đang đạt được mục tiêu năm 2019 của mình là đẩy AI vượt ra ngoài việc ghi nhớ để hướng tới sự thích ứng hiệu quả ngay lập tức Các hệ thống lý luận hiện nay cho thấy trí thông minh linh hoạt thực sự trong các nhiệm vụ đơn giản
Ngay cả với sự cải thiện hiệu suất lớn này, vẫn còn một khoảng cách lớn so với con người Mục tiêu Giải thưởng Lớn 2025 là $0.20/công việc và con người hiệu quả hơn nhiều lần về cơ sở năng lượng Vẫn còn nhiều điều để học hỏi từ ARC-AGI-1 và ARC-AGI-2
ARC-AGI-3 (2026) sẽ thúc đẩy khả năng và hiệu quả của AI xa hơn nữa Được thiết kế để đo lường khả năng của AI trong việc học hỏi và tổng quát một cách hiệu quả trong các môi trường mới, đây sẽ là một tiêu chuẩn Đánh giá Lý luận Tương tác đầu tiên trong loại hình này Hãy theo dõi
Nếu việc vận chuyển hàng trăm trò chơi mới thử nghiệm ranh giới của AI chỉ trong vài tháng nghe có vẻ thú vị, hãy tham gia vào đội ngũ kỹ sư đang tạo ra ARC-AGI-3
44,6K