un altro nuovo benchmark: - OpenAI è il più efficiente in termini di costi tra i compiti; GPT-5 (alta capacità di ragionamento) è forte in termini di prezzo + intelligenza - Anthropic guida il successo grezzo (nelle prime due posizioni; veloce nei compiti difficili) i test di benchmark comprendono la compilazione end-to-end di OSS reale in condizioni disordinate e reali.