Vì OpenAI không cập nhật Hình 7 từ GDPval dựa trên tỷ lệ thành công của GPT-5.2 trong các nhiệm vụ dài hạn, tôi đã sử dụng GPT-5.2 Pro để làm điều đó. Biểu đồ giả định quy trình là: ủy thác các nhiệm vụ dài cho AI, đánh giá đầu ra trong một giờ, sau đó quyết định thử lại hoặc từ bỏ & tự làm.
Bản gốc (GPT-5 có tỷ lệ thắng 39% so với các chuyên gia con người, GPT-5.2 khoảng 72%)
GDPval vẫn là một trong những tài liệu AI quan trọng nhất của năm ngoái. Một tầm nhìn về cách AI thực hiện công việc có giá trị kinh tế.
200