Il y a une nouvelle référence pour les agents de codage AI : SWE-Bench Pro sur ce test plus difficile, de style entreprise, GPT-5 obtient environ 23,3 % sur l'ensemble public (contre plus de 70 % sur SWE-Bench Verified) il comprend 1 865 problèmes vérifiés par des humains, longs, multi-fichiers, provenant de 41 dépôts actifs à travers des ensembles publics, retenus et commerciaux.