Es gibt einen neuen Maßstab für KI-Coding-Agenten: SWE-Bench Pro bei diesem anspruchsvolleren, unternehmensähnlichen Test, erzielt GPT-5 ~23,3 % im öffentlichen Set (im Vergleich zu 70 %+ bei SWE-Bench Verified) es umfasst 1.865 von Menschen verifizierte, lange, mehrteilige Probleme aus 41 aktiven Repos aus öffentlichen, zurückgehaltenen und kommerziellen Sets