هناك معيار جديد لوكلاء ترميز الذكاء الاصطناعي: SWE-Bench Pro في هذا الاختبار الأكثر صرامة على غرار المؤسسة ، درجات GPT-5 ~ 23.3٪ في المجموعة العامة (مقابل 70٪ + على SWE-Bench Verified) يتضمن 1,865 إصدارا تم التحقق منه بشريا وطويلة ومتعددة الملفات من 41 مستودع نشط عبر مجموعات عامة ومعلقة وتجارية