新的 AI 编码基准:SWE-Bench-Pro。 * 更具挑战性 - 顶级模型在 SWE-Bench-PRO 上的得分约为 23%,而在之前的 SWE-Bench 上为 70% * 通过私有来源和保留集减少数据污染问题 * 增加任务的多样性和真实性