C'è un nuovo benchmark per gli agenti di codifica AI: SWE-Bench Pro in questo test più difficile, in stile enterprise, GPT-5 ottiene ~23,3% sul set pubblico (rispetto al 70%+ su SWE-Bench Verified) include 1.865 problemi verificati da umani, lunghi e multi-file, provenienti da 41 repository attivi tra set pubblici, riservati e commerciali