معيار ترميز جديد الذكاء الاصطناعي: SWE-Bench-Pro. * أكثر تحديا - سجلت أفضل الموديلات حوالي 23٪ على SWE-Bench-PRO مقارنة ب 70٪ على SWE-Bench السابق * تقليل مشكلات تلوث البيانات من خلال المصادر الخاصة ومجموعة الانتظار * يزيد من تنوع وواقعية المهام