Hay un nuevo estándar para los agentes de codificación de IA: SWE-Bench Pro en esta prueba más difícil, de estilo empresarial, GPT-5 obtiene ~23.3% en el conjunto público (frente al 70%+ en SWE-Bench Verified) incluye 1,865 problemas verificados por humanos, largos y de múltiples archivos de 41 repositorios activos en conjuntos públicos, reservados y comerciales.