別の新しいベンチマーク: - OpenAI は、タスク全体で最もコスト効率が高くなります。GPT-5(高推理)は価格+知能に強い - Anthropic が生の成功をリードします (トップ 2、難しいタスクに迅速対応) ベンチマークは、乱雑な現実世界の条件下での実際の OSS のエンドツーエンドのコンパイルをテストします