Há uma nova referência para agentes de codificação de IA: SWE-Bench Pro neste teste mais difícil, de estilo empresarial, GPT-5 pontua ~ 23.3% no set público (vs 70% + no SWE-Bench Verified) Inclui 1.865 problemas verificados, longos e de vários arquivos de 41 repositórios ativos em conjuntos públicos, retidos e comerciais