Nieuwe AI coding benchmark: SWE-Bench-Pro. * Meer uitdagend - topmodellen scoren ongeveer 23% op SWE-Bench-PRO vergeleken met 70% op de vorige SWE-Bench * Verminder dataverontreinigingsproblemen door privébronnen en een hold-out set * Verhoogt de diversiteit en realisme van taken