DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Tomasz Tunguz

Un billón de tokens por día. ¿Es eso mucho? "Y cuando miramos de cerca solo el número de tokens servidos por las APIs de Foundry, procesamos más de 100 billones de tokens este trimestre, un aumento de 5 veces en comparación con el año anterior, incluyendo un récord de 50 billones de tokens solo el mes pasado." En abril, Microsoft compartió una estadística, revelando que su producto Foundry está procesando alrededor de 1.7 billones de tokens por mes. Ayer, Vipul compartió que está procesando 2 billones de inferencias de código abierto diariamente. En julio, Google anunció un número asombroso: "En I/O en mayo, anunciamos que procesamos 480 billones de tokens mensuales en nuestras superficies. Desde entonces hemos duplicado ese número, ahora procesando más de 980 billones de tokens mensuales, un aumento notable." Google procesa 32.7 billones diariamente, 16 veces más que Together y 574 veces más que el volumen de abril de Microsoft Foundry. A partir de estas cifras, podemos sacar algunas hipótesis: 1. La inferencia de código abierto es una fracción de un solo dígito de la inferencia. No está claro qué fracción de los tokens de inferencia de Google provienen de sus modelos de código abierto como Gemma. Pero, si asumimos que Anthropic y OpenAI son de 5 a 10 billones de tokens por día y todos son de código cerrado, además de que Azure es aproximadamente similar en tamaño, entonces la inferencia de código abierto probablemente sea alrededor del 1-3% de la inferencia total. 2. Los agentes están en una etapa temprana. El punto de datos de Microsoft sugiere que los agentes dentro de GitHub, Visual Studio, Copilot Studio y Microsoft Fabric contribuyen con menos del 1% de la inferencia total de IA en Azure. 3. Con Microsoft esperando invertir 80 mil millones en comparación con los 85 mil millones de Google en infraestructura de centros de datos de IA este año, las cargas de trabajo de inferencia de IA de cada empresa deberían aumentar significativamente tanto a través del hardware que se pone en línea como de las mejoras algorítmicas. "A través de la optimización del software solo, estamos entregando un 90% más de tokens para la misma GPU en comparación con hace un año." Microsoft está exprimiendo más limonada digital de sus GPUs y Google también debe estar haciendo algo similar. ¿Cuándo veremos los primeros 10 billones o 50 billones de tokens de IA procesados por día? No puede estar muy lejos ahora. - ¡Estimaciones de la nada! - Google y Azure en 33 billones de tokens por día cada uno, Together y 5 otras neoclouds en aproximadamente 2 billones de tokens por día cada uno, y Anthropic y OpenAI en 5 billones de tokens por día, nos da 88 billones de tokens por día. Si asumimos que el 5% de los tokens de Google provienen de modelos de código abierto, eso son 1.65 billones de tokens por día, o aproximadamente el 1.9% de la inferencia total. Nuevamente, matemáticas muy aproximadas.

Ahora que hemos comprimido casi todo el conocimiento humano en grandes modelos de lenguaje, la próxima frontera es la llamada a herramientas. Encadenar diferentes herramientas de IA permite la automatización. El cambio de pensar a hacer representa el verdadero avance en la utilidad de la IA. He construido más de 100 herramientas para mí, y funcionan la mayor parte del tiempo, pero no todo el tiempo. No estoy solo. El informe del Índice Económico de Anthropic revela que el 77% del uso empresarial de Claude se centra en la automatización de tareas completas, no en la co-pilotación. Anthropic publicó documentación la semana pasada sobre la eficiencia de los tokens y la re-arquitectura de herramientas para optimizar su uso. La guía fue contraintuitiva: en lugar de muchas herramientas simples con etiquetas claras, crea menos herramientas, pero más complejas. Aquí están las siete herramientas de correo electrónico que construí: scripts de Ruby, cada uno con un propósito claro. El script "Safe Send Email" fue diseñado para evitar que la IA envíe correos electrónicos sin aprobación. Bellamente ingenuo, simple y claro, ¿no debería un modelo de lenguaje ser capaz de leer estos y saber exactamente lo que le estaba pidiendo que hiciera? ¡Pero no es tan simple! Anthropic recomienda crear herramientas complejas. Su investigación muestra que "las solicitudes ahorran un promedio del 14% en tokens de salida, hasta un 70%" cuando se utilizan herramientas sofisticadas y ricas en parámetros en lugar de simples. ¿La razón? Los sistemas de IA entienden mejor el contexto completo que la intención fragmentada. Pasé el fin de semana consolidando todas mis herramientas en herramientas unificadas, como esta para correo electrónico: (tercera imagen) El impacto en la precisión fue inmediato. La tasa de éxito de Claude se acerca al 100%. El sistema es más rápido. Como resultado, estoy utilizando muchos menos tokens con un sistema más eficiente. Aquí está mi modelo mental actual: (cuarta imagen) Cuando rediseñé para la cognición de la IA en lugar de la intuición humana, todo mejoró. Mis operaciones de CRM, gestión de calendarios y flujos de trabajo de bases de datos se volvieron más confiables cuando se consolidaron en herramientas completas y ricas en parámetros. La precisión mejoró, por lo que el costo total se redujo significativamente. Pero no me pidas que use las herramientas. Ahora estoy un poco perdido en medio de la complejidad. Este es un corolario inevitable de trabajar en niveles más altos de abstracción, ya no entendiendo profundamente la máquina. Pasamos décadas haciendo que el software sea simple para las personas. Ahora estamos aprendiendo a hacerlo complejo para la IA.

Parte superior

Clasificación

Favoritos