Há um novo padrão para agentes de codificação de IA: SWE-Bench Pro neste teste mais difícil, estilo empresarial, o GPT-5 pontua ~23,3% no conjunto público (vs 70%+ no SWE-Bench Verified) inclui 1.865 problemas verificados por humanos, longos, de múltiplos arquivos, de 41 repositórios ativos em conjuntos públicos, retidos e comerciais.