另一个新的基准: - OpenAI 在各项任务中最具成本效益;GPT-5(高推理能力)在价格和智能方面表现出色 - Anthropic 在原始成功方面领先(前两名;在困难任务上反应迅速) 基准测试在混乱的现实世界条件下对真实开源软件进行了端到端的编译