Tolok ukur baru lainnya: - OpenAI paling hemat biaya di seluruh tugas; GPT-5 (penalaran tinggi) kuat pada harga + kecerdasan - Antropik memimpin kesuksesan mentah (dua teratas; cepat dalam tugas sulit) benchmark menguji kompilasi end-to-end OSS nyata dalam kondisi dunia nyata yang berantakan