🚀 Vi introduserer SWE-Bench Pro – en ny målestokk for å evaluere LLM-kodeagenter på ekte programvareutviklingsoppgaver i bedriftsklasse. Dette er neste skritt utover SWE-Bench: hardere, forurensningsbestandig og nærmere reposer i den virkelige verden.