🚀 Przedstawiamy SWE-Bench Pro — nowy benchmark do oceny agentów kodujących LLM w rzeczywistych, przedsiębiorczych zadaniach inżynieryjnych. To kolejny krok poza SWE-Bench: trudniejszy, odporny na zanieczyszczenia i bliższy rzeczywistym repozytoriom.