Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tomasz Tunguz
Jedna bilion tokenów dziennie. Czy to dużo?
„A kiedy patrzymy wąsko tylko na liczbę tokenów obsługiwanych przez API Foundry, przetworzyliśmy w tym kwartale ponad 100t tokenów, co oznacza wzrost o 5x w porównaniu do roku ubiegłego, w tym rekordowe 50t tokenów tylko w zeszłym miesiącu.”
W kwietniu Microsoft podzielił się statystyką, ujawniając, że ich produkt Foundry przetwarza około 1,7t tokenów miesięcznie.
Wczoraj Vipul podzielił się informacją, że przetwarza 2t otwartych inferencji dziennie.
W lipcu Google ogłosił oszałamiającą liczbę:
„Na I/O w maju ogłosiliśmy, że przetwarzamy 480 bilionów tokenów miesięcznie na naszych platformach. Od tego czasu podwoiliśmy tę liczbę, przetwarzając teraz ponad 980 bilionów tokenów miesięcznie, co stanowi niezwykły wzrost.”
Google przetwarza 32,7t dziennie, 16 razy więcej niż Together i 574 razy więcej niż wolumen Microsoft Foundry z kwietnia.
Na podstawie tych danych możemy wyciągnąć kilka hipotez:
1. Otwarta inferencja to jednocyfrowa frakcja inferencji. Nie jest jasne, jaka frakcja tokenów inferencyjnych Google pochodzi z ich modeli open source, takich jak Gemma. Ale jeśli założymy, że Anthropic i OpenAI to 5t-10t tokenów dziennie i są całkowicie zamknięte, a Azure jest mniej więcej podobnej wielkości, to otwarta inferencja prawdopodobnie stanowi około 1-3% całkowitej inferencji.
2. Agenci są na wczesnym etapie. Punkt danych Microsoftu sugeruje, że agenci w GitHubie, Visual Studio, Copilot Studio i Microsoft Fabric przyczyniają się do mniej niż 1% całkowitej inferencji AI na Azure.
3. Oczekuje się, że Microsoft zainwestuje 80 miliardów dolarów w porównaniu do 85 miliardów dolarów Google w infrastrukturę centrów danych AI w tym roku, co powinno znacząco zwiększyć obciążenia inferencyjne każdej firmy zarówno dzięki nowemu sprzętowi, jak i poprawom algorytmicznym.
„Dzięki optymalizacji oprogramowania dostarczamy 90% więcej tokenów na tym samym GPU w porównaniu do roku ubiegłego.”
Microsoft wyciska więcej cyfrowej lemoniady ze swoich GPU, a Google również musi robić coś podobnego.
Kiedy zobaczymy pierwsze 10t lub 50t tokenów AI przetwarzanych dziennie? To nie może być daleko.
- Szacunki z powietrza!
- Google i Azure po 33t tokenów dziennie każdy, Together i 5 innych neokloudów po około 2t tokenów dziennie każdy, oraz Anthropic i OpenAI po 5t tokenów dziennie, daje nam 88t tokenów dziennie. Jeśli założymy, że 5% tokenów Google pochodzi z modeli open source, to daje nam 1,65t tokenów dziennie, czyli około 1,9% całkowitej inferencji. Jeszcze raz, bardzo przybliżone obliczenia.


110
Teraz, gdy skompresowaliśmy niemal całą ludzką wiedzę w dużych modelach językowych, następną granicą jest wywoływanie narzędzi. Łączenie różnych narzędzi AI umożliwia automatyzację. Przejście od myślenia do działania stanowi prawdziwy przełom w użyteczności AI.
Zbudowałem ponad 100 narzędzi dla siebie i działają one większość czasu, ale nie zawsze. Nie jestem sam. Raport Economic Index firmy Anthropic ujawnia, że 77% biznesowego wykorzystania Claude'a koncentruje się na pełnej automatyzacji zadań, a nie na współpilotowaniu.
Anthropic opublikował w zeszłym tygodniu dokumentację na temat efektywności tokenów i przekształcania narzędzi w celu optymalizacji ich użycia. Wskazówki były nieintuicyjne: zamiast wielu prostych narzędzi z wyraźnymi etykietami, stwórz mniej, bardziej złożonych narzędzi.
Oto siedem narzędzi e-mailowych, które zbudowałem - skrypty Ruby, z każdym mającym wyraźny cel. Skrypt „Bezpieczne wysyłanie e-maili” został zaprojektowany, aby zapobiec wysyłaniu e-maili przez AI bez zatwierdzenia.
Pięknie naiwne, proste i jasne, czy model językowy nie powinien być w stanie przeczytać tych informacji i dokładnie wiedzieć, o co go proszę? Ale to nie jest takie proste!
Anthropic zaleca tworzenie złożonych narzędzi. Ich badania pokazują, że „żądania oszczędzają średnio 14% tokenów wyjściowych, do 70%”, gdy używa się zaawansowanych narzędzi bogatych w parametry zamiast prostych. Powód? Systemy AI lepiej rozumieją pełen kontekst niż fragmentaryczne intencje.
Spędziłem weekend na konsolidacji wszystkich moich narzędzi w zjednoczone narzędzia, jak to do e-maila: (trzecie zdjęcie)
Wpływ na dokładność był natychmiastowy. Wskaźnik sukcesu Claude'a zbliża się do 100%. System jest szybszy. W rezultacie używam znacznie mniej tokenów z bardziej efektywnym systemem.
Oto mój obecny model mentalny: (czwarte zdjęcie)
Kiedy przeprojektowałem pod kątem poznania AI, a nie intuicji ludzkiej, wszystko się poprawiło. Moje operacje CRM, zarządzanie kalendarzem i przepływy pracy w bazach danych stały się bardziej niezawodne, gdy zostały skonsolidowane w kompleksowe, bogate w parametry narzędzia. Dokładność się poprawiła, więc całkowity koszt został znacznie zredukowany.
Ale nie proś mnie o używanie tych narzędzi. Teraz jestem trochę zagubiony wśród tej złożoności. To nieunikniony skutek pracy na wyższych poziomach abstrakcji, już nie rozumiejąc głęboko maszyny.
Spędziliśmy dziesięciolecia, upraszczając oprogramowanie dla ludzi. Teraz uczymy się, jak uczynić je złożonym dla AI.



587
Najlepsze
Ranking
Ulubione