outro novo benchmark: - A OpenAI é a mais eficiente em termos de custo em todas as tarefas; o GPT-5 (alto raciocínio) é forte em preço + inteligência - A Anthropic lidera o sucesso bruto (top dois; rápida em tarefas difíceis) testes de benchmark terminam com a compilação de OSS real em condições desordenadas e do mundo real