Det finns ett nytt riktmärke för AI-kodningsagenter: SWE-Bench Pro På det här tuffare, företagsliknande testet, GPT-5 får ~23,3 % på den offentliga uppsättningen (jämfört med 70 %+ på SWE-Bench Verified) Den innehåller 1 865 mänskligt verifierade, långa problem med flera filer från 41 aktiva lagringsplatser i offentliga, uteslutna och kommersiella uppsättningar