AI 编码代理的新基准:SWE-Bench Pro 在这个更具挑战性的企业级测试中, GPT-5 在公共数据集上的得分约为 23.3%(而在 SWE-Bench Verified 上得分超过 70%) 它包含来自 41 个活跃仓库的 1,865 个经过人类验证的长多文件问题,涵盖公共、保留和商业数据集。