DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Tomasz Tunguz

Un trilione di token al giorno. È tanto? “E quando guardiamo da vicino solo al numero di token serviti dalle API di Foundry, abbiamo elaborato oltre 100t token in questo trimestre, con un aumento di 5 volte rispetto all'anno precedente, inclusi un record di 50t token solo il mese scorso.” Ad aprile, Microsoft ha condiviso una statistica, rivelando che il loro prodotto Foundry sta elaborando circa 1,7t token al mese. Ieri, Vipul ha condiviso che sta elaborando 2t di inferenza open-source al giorno. A luglio, Google ha annunciato un numero straordinario: “Durante l'I/O di maggio, abbiamo annunciato che abbiamo elaborato 480 trilioni di token mensili attraverso le nostre superfici. Da allora abbiamo raddoppiato quel numero, ora elaborando oltre 980 trilioni di token mensili, un aumento notevole.” Google elabora 32,7t al giorno, 16 volte di più rispetto a Together e 574 volte di più rispetto al volume di aprile di Microsoft Foundry. Da queste cifre, possiamo trarre alcune ipotesi: 1. L'inferenza open-source è una frazione a una cifra dell'inferenza. Non è chiaro quale frazione dei token di inferenza di Google provenga dai loro modelli open source come Gemma. Ma, se assumiamo che Anthropic e OpenAI siano 5t-10t token al giorno e tutti closed-source, più Azure è grossomodo simile in dimensioni, allora l'inferenza open-source è probabilmente intorno all'1-3% dell'inferenza totale. 2. Gli agenti sono agli inizi. Il dato di Microsoft suggerisce che gli agenti all'interno di GitHub, Visual Studio, Copilot Studio e Microsoft Fabric contribuiscono a meno dell'1% dell'inferenza AI complessiva su Azure. 3. Con Microsoft che si prevede investirà 80 miliardi di dollari rispetto agli 85 miliardi di dollari di Google in infrastrutture di data center AI quest'anno, i carichi di lavoro di inferenza AI di ciascuna azienda dovrebbero aumentare significativamente sia attraverso l'hardware che entra in funzione sia attraverso miglioramenti algoritmici. “Solo attraverso l'ottimizzazione del software, stiamo fornendo il 90% in più di token per lo stesso GPU rispetto a un anno fa.” Microsoft sta spremendo più limonata digitale dai loro GPU e Google deve anche fare qualcosa di simile. Quando vedremo i primi 10t o 50t di token AI elaborati al giorno? Non può essere lontano ora. - Stime da un'idea! - Google e Azure a 33t token al giorno ciascuno, Together e 5 altri neocloud a circa 2t token al giorno ciascuno, e Anthropic e OpenAI a 5t token al giorno, ci danno 88t token al giorno. Se assumiamo che il 5% dei token di Google provenga da modelli open-source, sono 1,65t token al giorno, o circa l'1,9% dell'inferenza totale. Di nuovo, matematica molto approssimativa.

Ora che abbiamo compresso quasi tutta la conoscenza umana in modelli di linguaggio di grandi dimensioni, la prossima frontiera è la chiamata agli strumenti. Collegare insieme diversi strumenti AI consente l'automazione. Il passaggio dal pensare all'agire rappresenta la vera svolta nell'utilità dell'AI. Ho costruito più di 100 strumenti per me stesso, e funzionano la maggior parte delle volte, ma non sempre. Non sono solo. Il rapporto sull'Indice Economico di Anthropic rivela che il 77% dell'uso aziendale di Claude si concentra sull'automazione completa dei compiti, non sul co-pilotaggio. Anthropic ha pubblicato la documentazione la scorsa settimana riguardo all'efficienza dei token e alla ristrutturazione degli strumenti per ottimizzarne l'uso. Le indicazioni erano controintuitive: invece di molti strumenti semplici con etichette chiare, creare meno strumenti, ma più complessi. Ecco i sette strumenti email che ho costruito - script Ruby, ognuno con uno scopo chiaro. Lo script "Safe Send Email" è stato progettato per impedire all'AI di inviare email senza approvazione. Bellamente ingenuo, semplice e chiaro, non dovrebbe un modello di linguaggio essere in grado di leggere questi e sapere esattamente cosa gli stavo chiedendo di fare? Ma non è così semplice! Anthropic raccomanda di creare strumenti complessi. La loro ricerca mostra che "le richieste risparmiano in media il 14% nei token di output, fino al 70%" quando si utilizzano strumenti sofisticati e ricchi di parametri invece di quelli semplici. Il motivo? I sistemi AI comprendono meglio il contesto completo piuttosto che l'intento frammentato. Ho trascorso il fine settimana a consolidare tutti i miei strumenti in strumenti unificati, come questo per le email: (terza immagine) L'impatto sulla precisione è stato immediato. Il tasso di successo di Claude si avvicina al 100%. Il sistema è più veloce. Di conseguenza, sto usando molti meno token con un sistema più efficiente. Ecco il mio attuale modello mentale: (quarta immagine) Quando ho riprogettato per la cognizione AI piuttosto che per l'intuizione umana, tutto è migliorato. Le mie operazioni CRM, la gestione del calendario e i flussi di lavoro del database sono diventati tutti più affidabili quando consolidati in strumenti completi e ricchi di parametri. La precisione è migliorata, quindi il costo totale è stato ridotto significativamente. Ma non chiedetemi di usare gli strumenti. Ora sono un po' perso nella complessità. Questo è un corollario inevitabile del lavorare a livelli più alti di astrazione, non comprendendo più a fondo la macchina. Abbiamo trascorso decenni a rendere il software semplice per le persone. Ora stiamo imparando a renderlo complesso per l'AI.

Principali

Ranking

Preferiti