🚀 Memperkenalkan SWE-Bench Pro — tolok ukur baru untuk mengevaluasi agen pengkodean LLM pada tugas rekayasa perangkat lunak tingkat perusahaan yang nyata. Ini adalah langkah selanjutnya di luar SWE-Bench: lebih keras, tahan kontaminasi, dan lebih dekat ke repositori dunia nyata.