Neuer KI-Coding-Benchmark: SWE-Bench-Pro. * Herausfordernder - die besten Modelle erzielen etwa 23 % bei SWE-Bench-PRO im Vergleich zu 70 % bei dem vorherigen SWE-Bench * Reduziert Probleme mit Datenkontamination durch private Beschaffung und ein Hold-Out-Set * Erhöht die Vielfalt und Realismus der Aufgaben