Er is een nieuwe benchmark voor AI-coding agents: SWE-Bench Pro op deze moeilijkere, enterprise-stijl test, scoort GPT-5 ~23,3% op de publieke set (tegenover 70%+ op SWE-Bench Verified) het omvat 1.865 door mensen geverifieerde, lange, multi-bestand problemen uit 41 actieve repos van publieke, achtergehouden en commerciële sets