🚀 介绍SWE-Bench Pro — 一个新的基准,用于评估LLM编码代理在真实的企业级软件工程任务上的表现。 这是SWE-Bench的下一步:更难,抗污染,更接近真实世界的代码库。