Ada tolok ukur baru untuk agen pengkodean AI: SWE-Bench Pro pada tes gaya perusahaan yang lebih ketat ini, Skor GPT-5 ~23.3% di set publik (vs 70%+ di SWE-Bench Verified) Ini mencakup 1.865 masalah multi-file yang diverifikasi manusia, panjang, dari 41 repo aktif di seluruh set publik, tertahan, dan komersial