Un trilion de jetoane pe zi. Este mult? "Și când ne uităm îndeaproape doar la numărul de token-uri deservite de API-urile Foundry, am procesat peste 100 de tone de token-uri în acest trimestru, de 5 ori mai mult de la an la an, inclusiv un record de 50 de tone de token-uri numai luna trecută." În aprilie, Microsoft a împărtășit o statistică, dezvăluind că produsul lor Foundry procesează aproximativ 1,7 tone de jetoane pe lună. Ieri, Vipul a împărtășit că procesează zilnic 2t de inferență open-source. În iulie, Google a anunțat un număr uluitor: "La I/O în mai, am anunțat că am procesat 480 de trilioane de token-uri lunare pe suprafețele noastre. De atunci, am dublat acest număr, procesând acum peste 980 de trilioane de jetoane lunare, o creștere remarcabilă." Google procesează 32,7 tone zilnic, de 16 ori mai mult decât Together și de 574 de ori mai mult decât volumul din aprilie al Microsoft Foundry. Din aceste cifre, putem trage câteva ipoteze: 1. Inferența open-source este o fracțiune de inferență cu o singură cifră. Nu este clar ce fracțiune din tokenurile de inferență ale Google provin din modelele lor open source precum Gemma. Dar, dacă presupunem că Anthropic și OpenAI sunt 5t-10t token-uri pe zi și toate closed-source, plus că Azure are aproximativ o dimensiune similară, atunci inferența open-source este probabil în jur de 1-3% din inferența totală. 2. Agenții sunt devreme. Datele Microsoft sugerează că agenții din GitHub, Visual Studio, Copilot Studio și Microsoft Fabric contribuie cu mai puțin de 1% din inferența AI generală pe Azure. 3. Având în vedere că Microsoft se așteaptă să investească 80 de miliarde de dolari, comparativ cu cele 85 de miliarde de dolari ale Google în infrastructura centrelor de date AI în acest an, volumul de lucru al inferenței AI al fiecărei companii ar trebui să crească semnificativ atât prin hardware-ul care vine online, cât și prin îmbunătățiri algoritmice. "Doar prin optimizarea software-ului, livrăm cu 90% mai multe token-uri pentru același GPU comparativ cu anul trecut." Microsoft stoarce mai multă limonadă digitală din GPU-urile lor, iar Google trebuie să facă același lucru. Când vom vedea primele jetoane AI de 10t sau 50t procesate pe zi? Nu poate fi departe acum. - Estimări din aer! - Google și Azure la 33 de tone de jetoane pe zi fiecare, Together și alte 5 neocloud-uri la aproximativ 2 trilioane de jetoane pe zi fiecare, și Anthropic și OpenAI la 5 trilioane de jetoane pe zi, ne oferă 88 de bilete de jetoane pe zi. Dacă presupunem că 5% din tokenurile Google provin din modele open-source, asta înseamnă 1,65 trilioane de tokenuri pe zi, sau aproximativ 1,9% din inferența totală. Din nou, matematică foarte brută