một tiêu chuẩn mới khác: - OpenAI là hiệu quả chi phí nhất trong các nhiệm vụ; GPT-5 (lý luận cao) mạnh về giá cả + trí tuệ - Anthropic dẫn đầu về thành công thô (top hai; nhanh trong các nhiệm vụ khó) the benchmark tests end-to-end compiling of real OSS under messy, real-world conditions