Novo benchmark de codificação de IA: SWE-Bench-Pro. * Mais desafiador - os modelos de ponta pontuam cerca de 23% no SWE-Bench-PRO em comparação com 70% no SWE-Bench anterior * Reduza os problemas de contaminação de dados por meio de fontes privadas e um conjunto de espera * Aumenta a diversidade e o realismo das tarefas