Um trilhão de tokens por dia. Isso é muito? "E quando olhamos apenas para o número de tokens atendidos pelas APIs da Foundry, processamos mais de 100 t tokens neste trimestre, um aumento de 5 vezes ano a ano, incluindo um recorde de 50 t tokens apenas no mês passado." Em abril, a Microsoft compartilhou uma estatística, revelando que seu produto Foundry está processando cerca de 1,7 t de tokens por mês. Ontem, Vipul compartilhou que está processando 2t de inferência de código aberto diariamente. Em julho, o Google anunciou um número impressionante: "No I/O em maio, anunciamos que processamos 480 trilhões de tokens mensais em nossas superfícies. Desde então, dobramos esse número, agora processando mais de 980 trilhões de tokens mensais, um aumento notável." O Google processa 32,7 t diariamente, 16 vezes mais do que o Together e 574 vezes mais do que o volume de abril do Microsoft Foundry. A partir desses números, podemos tirar algumas hipóteses: 1. A inferência de código aberto é uma fração de inferência de um dígito. Não está claro qual fração dos tokens de inferência do Google são de seus modelos de código aberto, como o Gemma. Mas, se assumirmos que Anthropic e OpenAI são 5t-10t tokens por dia e todos de código fechado, além de o Azure ser aproximadamente semelhante em tamanho, então a inferência de código aberto provavelmente é de cerca de 1-3% da inferência total. 2. Os agentes estão adiantados. O ponto de dados da Microsoft sugere que os agentes do GitHub, Visual Studio, Copilot Studio e Microsoft Fabric contribuem com menos de 1% da inferência geral de IA no Azure. 3. Com a expectativa de que a Microsoft invista US$ 80 bilhões em comparação com os US$ 85 bilhões do Google em infraestrutura de data center de IA este ano, as cargas de trabalho de inferência de IA de cada empresa devem aumentar significativamente por meio de melhorias de hardware online e algorítmicas. "Somente por meio da otimização de software, estamos entregando 90% mais tokens para a mesma GPU em comparação com um ano atrás." A Microsoft está espremendo mais limonada digital de suas GPUs e o Google também deve estar fazendo o mesmo. Quando veremos os primeiros tokens de IA de 10t ou 50t processados por dia? Não pode estar longe agora. - Estimativas do nada! - Google & Azure com 33t tokens por dia cada, Juntos & 5 outros neoclouds com aproximadamente 2t tokens por dia cada, & Anthropic & OpenAI com 5t tokens por dia, nos dá 88t tokens por dia. Se assumirmos que 5% dos tokens do Google são de modelos de código aberto, são 1,65 t de tokens por dia, ou cerca de 1,9% da inferência total. Mais uma vez, matemática muito aproximada