Nuevo punto de referencia de codificación de IA: SWE-Bench-Pro. * Más desafiante: los mejores modelos obtienen una puntuación de alrededor del 23% en SWE-Bench-PRO en comparación con el 70% en el SWE-Bench anterior * Reducir los problemas de contaminación de datos a través del abastecimiento privado y un conjunto de retención * Aumenta la diversidad y el realismo de las tareas