Eén biljoen tokens per dag. Is dat veel? "En wanneer we nauwkeurig kijken naar alleen het aantal tokens dat door Foundry API's wordt verwerkt, hebben we dit kwartaal meer dan 100t tokens verwerkt, een stijging van 5x jaar op jaar, inclusief een record van 50t tokens alleen al afgelopen maand." In april deelde Microsoft een statistiek, waaruit bleek dat hun Foundry-product ongeveer 1,7t tokens per maand verwerkt. Gisteren deelde Vipul dat er dagelijks 2t open-source inferentie wordt verwerkt. In juli kondigde Google een verbijsterend aantal aan: "Tijdens I/O in mei hebben we aangekondigd dat we 480 biljoen maandelijkse tokens over onze platforms hebben verwerkt. Sindsdien hebben we dat aantal verdubbeld, en verwerken we nu meer dan 980 biljoen maandelijkse tokens, een opmerkelijke stijging." Google verwerkt dagelijks 32,7t, 16x meer dan Together en 574x meer dan het volume van Microsoft Foundry in april. Aan de hand van deze cijfers kunnen we een paar hypothesen formuleren: 1. Open-source inferentie is een enkelcijferig percentage van de inferentie. Het is onduidelijk welk percentage van Google’s inferentie-tokens afkomstig is van hun open-source modellen zoals Gemma. Maar als we aannemen dat Anthropic & OpenAI 5t-10t tokens per dag zijn en allemaal gesloten zijn, plus dat Azure ongeveer vergelijkbaar is in omvang, dan is open-source inferentie waarschijnlijk rond de 1-3% van de totale inferentie. 2. Agents zijn in een vroeg stadium. Microsoft’s datapunt suggereert dat de agents binnen GitHub, Visual Studio, Copilot Studio, & Microsoft Fabric minder dan 1% van de totale AI-inferentie op Azure bijdragen. 3. Met Microsoft die naar verwachting $80 miljard investeert in vergelijking met Google’s $85 miljard in AI-datacenterinfrastructuur dit jaar, zouden de AI-inferentieworkloads van elk bedrijf aanzienlijk moeten toenemen, zowel door hardware die online komt als door algoritmische verbeteringen. "Door alleen softwareoptimalisatie leveren we 90% meer tokens voor dezelfde GPU vergeleken met een jaar geleden." Microsoft haalt meer digitale limonade uit hun GPU's en Google moet ook iets dergelijks doen. Wanneer zullen we de eerste 10t of 50t AI-tokens per dag verwerkt zien? Het kan niet ver meer zijn. - Schattingen uit de lucht! - Google & Azure op 33t tokens per dag elk, Together & 5 andere neoclouds op ongeveer 2t tokens per dag elk, & Anthropic & OpenAI op 5t tokens per dag, geeft ons 88t tokens per dag. Als we aannemen dat 5% van Google’s tokens afkomstig zijn van open-source modellen, dan is dat 1,65t tokens per dag, of ongeveer 1,9% van de totale inferentie. Nogmaals, zeer ruwe berekeningen.