Există un nou punct de referință pentru agenții de codare AI: SWE-Bench Pro la acest test mai dur, în stil enterprise, GPT-5 are un scor de ~23,3% pe platoul public (față de 70%+ pe SWE-Bench Verified) Include 1.865 de numere lungi, verificate de om, cu mai multe fișiere din 41 de depozite active din seturi publice, reținute și comerciale