Существует новая эталонная оценка для агентов программирования на основе ИИ: SWE-Bench Pro в этом более сложном тесте в стиле корпоративного уровня, GPT-5 набирает ~23,3% на публичном наборе (по сравнению с 70%+ на SWE-Bench Verified) он включает 1,865 проверенных человеком, длинных, многопользовательских задач из 41 активного репозитория, охватывающих публичные, отобранные и коммерческие наборы