Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Vì OpenAI không cập nhật Hình 7 từ GDPval dựa trên tỷ lệ thành công của GPT-5.2 trong các nhiệm vụ dài hạn, tôi đã sử dụng GPT-5.2 Pro để làm điều đó.
Biểu đồ giả định quy trình là: ủy thác các nhiệm vụ dài cho AI, đánh giá đầu ra trong một giờ, sau đó quyết định thử lại hoặc từ bỏ & tự làm.

Bản gốc (GPT-5 có tỷ lệ thắng 39% so với các chuyên gia con người, GPT-5.2 khoảng 72%)

GDPval vẫn là một trong những tài liệu AI quan trọng nhất của năm ngoái. Một tầm nhìn về cách AI thực hiện công việc có giá trị kinh tế.
200
Hàng đầu
Thứ hạng
Yêu thích
