Tekoälykoodausagenteille on uusi vertailukohta: SWE-Bench Pro tässä tiukemmassa, yritystyylisessä testissä GPT-5 saa ~23.3 % pisteitä julkisessa sarjassa (vs. 70 %+ SWE-Bench Verifiedissä) Se sisältää 1 865 ihmisen vahvistamaa, pitkää, monitiedostoista ongelmaa 41 aktiivisesta säilöstä julkisissa, pidetyissä ja kaupallisissa sarjoissa