Hay un nuevo punto de referencia para los agentes de codificación de IA: SWE-Bench Pro En esta prueba más dura de estilo empresarial, GPT-5 obtiene ~23.3% en el conjunto público (vs 70%+ en SWE-Bench Verified) Incluye 1.865 emisiones de varios archivos, largas y verificadas por humanos de 41 repositorios activos en conjuntos públicos, retenidos y comerciales