Nouveau benchmark de codage AI : SWE-Bench-Pro. * Plus difficile - les meilleurs modèles obtiennent environ 23 % sur SWE-Bench-PRO contre 70 % sur le précédent SWE-Bench * Réduit les problèmes de contamination des données grâce à un approvisionnement privé et un ensemble de validation * Augmente la diversité et le réalisme des tâches