另一個新的基準: - OpenAI 在各項任務中最具成本效益;GPT-5(高推理能力)在價格和智能方面表現出色 - Anthropic 在原始成功方面領先(前兩名;在困難任務上反應迅速) 基準測試在混亂的現實世界條件下對真實開源軟件進行了端到端的編譯