Novo benchmark de codificação AI: SWE-Bench-Pro. * Mais desafiador - os melhores modelos pontuam cerca de 23% no SWE-Bench-PRO em comparação com 70% no anterior SWE-Bench * Reduz problemas de contaminação de dados através de fontes privadas e um conjunto de retenção * Aumenta a diversidade e o realismo das tarefas