🚀 Представляем SWE-Bench Pro — новый бенчмарк для оценки LLM-кодирующих агентов на реальных задачах программной инженерии уровня предприятия. Это следующий шаг после SWE-Bench: сложнее, устойчивый к загрязнению и ближе к реальным репозиториям.