AI コーディング エージェントの新しいベンチマークである SWE-Bench Pro があります このより厳しいエンタープライズスタイルのテストでは、 GPT-5 のスコアは公開セットで ~23.3% (SWE-Bench Verified では 70%+) これには、公開セット、ホールドアウトセット、商用セットにわたる 41 のアクティブなリポジトリからの 1,865 件の人間が検証した長いマルチファイル問題が含まれています