Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tomasz Tunguz
Um trilhão de tokens por dia. É muito?
"E quando olhamos de forma restrita apenas para o número de tokens servidos pelas APIs do Foundry, processamos mais de 100t de tokens neste trimestre, um aumento de 5x em relação ao ano anterior, incluindo um recorde de 50t de tokens apenas no mês passado."
Em abril, a Microsoft compartilhou uma estatística, revelando que seu produto Foundry está processando cerca de 1,7t de tokens por mês.
Ontem, Vipul compartilhou que está processando 2t de inferência de código aberto diariamente.
Em julho, o Google anunciou um número impressionante:
"Na I/O em maio, anunciamos que processamos 480 trilhões de tokens mensais em nossas superfícies. Desde então, dobramos esse número, agora processando mais de 980 trilhões de tokens mensais, um aumento notável."
O Google processa 32,7t diariamente, 16x mais do que o Together e 574x mais do que o volume de abril do Microsoft Foundry.
A partir desses números, podemos traçar algumas hipóteses:
1. A inferência de código aberto é uma fração de um único dígito da inferência. Não está claro qual fração dos tokens de inferência do Google vem de seus modelos de código aberto como o Gemma. Mas, se assumirmos que a Anthropic e a OpenAI estão em 5t-10t de tokens por dia e todos são de código fechado, além de que o Azure é aproximadamente semelhante em tamanho, então a inferência de código aberto provavelmente está em torno de 1-3% da inferência total.
2. Os agentes estão no início. O ponto de dados da Microsoft sugere que os agentes dentro do GitHub, Visual Studio, Copilot Studio e Microsoft Fabric contribuem com menos de 1% da inferência geral de IA no Azure.
3. Com a Microsoft prevista para investir $80 bilhões em comparação com os $85 bilhões do Google em infraestrutura de data center de IA este ano, as cargas de trabalho de inferência de IA de cada empresa devem aumentar significativamente, tanto através do hardware entrando em operação quanto das melhorias algorítmicas.
"Apenas através da otimização de software, estamos entregando 90% mais tokens para a mesma GPU em comparação com um ano atrás."
A Microsoft está extraindo mais limonada digital de suas GPUs e o Google também deve estar fazendo algo semelhante.
Quando veremos os primeiros 10t ou 50t de tokens de IA processados por dia? Não pode estar muito longe agora.
- Estimativas do nada!
- Google e Azure com 33t de tokens por dia cada, Together e 5 outras neoclouds com aproximadamente 2t de tokens por dia cada, e Anthropic e OpenAI com 5t de tokens por dia, nos dá 88t de tokens por dia. Se assumirmos que 5% dos tokens do Google vêm de modelos de código aberto, isso dá 1,65t de tokens por dia, ou aproximadamente 1,9% da inferência total. Novamente, matemática muito aproximada.


858
Agora que comprimimos quase todo o conhecimento humano em grandes modelos de linguagem, a próxima fronteira é a chamada de ferramentas. Encadear diferentes ferramentas de IA permite a automação. A transição de pensar para agir representa o verdadeiro avanço na utilidade da IA.
Eu construí mais de 100 ferramentas para mim, e elas funcionam na maioria das vezes, mas não sempre. Não estou sozinho. O relatório do Índice Econômico da Anthropic revela que 77% do uso empresarial do Claude se concentra na automação de tarefas completas, e não na co-pilotagem.
A Anthropic publicou documentação na semana passada sobre eficiência de tokens e re-arquitetura de ferramentas para otimizar seu uso. A orientação foi contraintuitiva: em vez de muitas ferramentas simples com rótulos claros, crie menos ferramentas, mas mais complexas.
Aqui estão as sete ferramentas de e-mail que construí - scripts Ruby, cada um com um propósito claro. O script "Safe Send Email" foi projetado para impedir que a IA enviasse e-mails sem aprovação.
Belamente ingênuo, simples e claro, não deveria um modelo de linguagem ser capaz de ler isso e saber exatamente o que eu estava pedindo para fazer? Mas não é tão simples!
A Anthropic recomenda a criação de ferramentas complexas. A pesquisa deles mostra que "as solicitações economizam uma média de 14% em tokens de saída, até 70%" ao usar ferramentas sofisticadas e ricas em parâmetros em vez de simples. A razão? Sistemas de IA entendem o contexto completo melhor do que a intenção fragmentada.
Passei o fim de semana consolidando todas as minhas ferramentas em ferramentas unificadas, como esta para e-mail: (terceira imagem)
O impacto na precisão foi imediato. A taxa de sucesso do Claude se aproxima de 100%. O sistema é mais rápido. Como resultado, estou usando muito menos tokens com um sistema mais eficiente.
Aqui está meu modelo mental atual: (quarta imagem)
Quando redesenhei para a cognição da IA em vez da intuição humana, tudo melhorou. Minhas operações de CRM, gerenciamento de calendário e fluxos de trabalho de banco de dados tornaram-se todos mais confiáveis quando consolidados em ferramentas abrangentes e ricas em parâmetros. A precisão melhorou, então o custo total foi reduzido significativamente.
Mas não me peça para usar as ferramentas. Agora estou um pouco perdido em meio à complexidade. Este é um corolário inevitável de trabalhar em níveis mais altos de abstração, sem entender mais profundamente a máquina.
Passamos décadas tornando o software simples para as pessoas. Agora estamos aprendendo a torná-lo complexo para a IA.



608
Top
Classificação
Favoritos