Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Vì OpenAI không cập nhật Hình 7 từ GDPval dựa trên tỷ lệ thành công của GPT-5.2 trong các nhiệm vụ dài hạn, tôi đã sử dụng GPT-5.2 Pro để làm điều đó. Biểu đồ giả định quy trình là: ủy thác các nhiệm vụ dài cho AI, đánh giá đầu ra trong một giờ, sau đó quyết định thử lại hoặc từ bỏ & tự làm.

Bản gốc (GPT-5 có tỷ lệ thắng 39% so với các chuyên gia con người, GPT-5.2 khoảng 72%)

GDPval vẫn là một trong những tài liệu AI quan trọng nhất của năm ngoái. Một tầm nhìn về cách AI thực hiện công việc có giá trị kinh tế.

200

Hàng đầu

Thứ hạng

Yêu thích