🚀 Esittelyssä SWE-Bench Pro – uusi vertailuarvo LLM-koodausagenttien arvioimiseksi todellisissa, yritystason ohjelmistosuunnittelutehtävissä. Tämä on seuraava askel SWE-Benchin jälkeen: kovempi, kontaminaatiota kestävämpi ja lähempänä todellisia rekoja.