Nuevo estándar de codificación de IA: SWE-Bench-Pro. * Más desafiante - los mejores modelos obtienen alrededor del 23% en SWE-Bench-PRO en comparación con el 70% en el anterior SWE-Bench * Reduce los problemas de contaminación de datos a través de la obtención privada y un conjunto de retención * Aumenta la diversidad y el realismo de las tareas