Tolok ukur pengkodean AI baru: SWE-Bench-Pro. * Lebih menantang - model teratas mendapat skor sekitar 23% pada SWE-Bench-PRO dibandingkan dengan 70% pada SWE-Bench sebelumnya * Kurangi masalah kontaminasi data melalui sumber pribadi dan set penahanan * Meningkatkan keragaman dan realisme tugas