Jest nowa miara dla agentów kodowania AI: SWE-Bench Pro w tym trudniejszym teście w stylu przedsiębiorstwa, GPT-5 uzyskuje ~23,3% w publicznym zestawie (w porównaniu do 70%+ w SWE-Bench Verified) zawiera 1 865 zweryfikowanych przez ludzi, długich, wielofunkcyjnych problemów z 41 aktywnych repozytoriów z zestawów publicznych, zarezerwowanych i komercyjnych