Nuovo benchmark di codifica AI: SWE-Bench-Pro. * Più impegnativo - i migliori modelli ottengono circa il 23% su SWE-Bench-PRO rispetto al 70% sul precedente SWE-Bench * Riduce i problemi di contaminazione dei dati attraverso fonti private e un set di esclusione * Aumenta la diversità e il realismo dei compiti