新しい AI コーディング ベンチマーク: SWE-Bench-Pro。 * より挑戦的 - トップモデルは、以前のSWE-Benchの70%と比較して、SWE-Bench-PROで約23%のスコアを獲得しています。 * プライベートソーシングとホールドアウトセットを通じてデータ汚染の問題を軽減 * タスクの多様性とリアリズムを高める