З'явився новий еталон для агентів кодування зі штучним інтелектом: SWE-Bench Pro на цьому більш жорсткому, корпоративному стилі тесті, GPT-5 набирає ~23,3% на загальнодоступному сеті (проти 70%+ на SWE-Bench Verified) Він включає 1 865 перевірених людиною, довгих, багатофайлових випусків із 41 активного репозиторію в загальнодоступних, закритих та комерційних наборах