🚀 介紹SWE-Bench Pro — 一個新的基準,用於評估LLM編碼代理在真實的企業級軟件工程任務上的表現。 這是SWE-Bench的下一步:更難,抗汙染,更接近真實世界的代碼庫。