Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tomasz Tunguz
Satu triliun token per hari. Apakah itu banyak?
"Dan ketika kami melihat secara sempit hanya jumlah token yang dilayani oleh API Foundry, kami memproses lebih dari 100 ton token pada kuartal ini, naik 5x dari tahun ke tahun, termasuk rekor 50 juta token bulan lalu saja."
Pada bulan April, Microsoft membagikan statistik, mengungkapkan produk Foundry mereka memproses sekitar 1,7 triliun token per bulan.
Kemarin, Vipul membagikan sedang memproses 2 ton inferensi sumber terbuka setiap hari.
Pada bulan Juli, Google mengumumkan jumlah yang mengejutkan:
"Di I/O pada bulan Mei, kami mengumumkan bahwa kami memproses 480 triliun token bulanan di seluruh permukaan kami. Sejak itu kami telah menggandakan jumlah itu, sekarang memproses lebih dari 980 triliun token bulanan, peningkatan yang luar biasa."
Google memproses 32,7 ton setiap hari, 16x lebih banyak dari Together & 574x lebih banyak dari volume April Microsoft Foundry.
Dari angka-angka ini, kita dapat menarik beberapa hipotesis :
1. Inferensi sumber terbuka adalah fraksi inferensi satu digit. Tidak jelas berapa bagian dari token inferensi Google yang berasal dari model open source mereka seperti Gemma. Tapi, jika kita mengasumsikan Anthropic & OpenAI adalah token 5t-10t per hari & semua sumber tertutup, ditambah Azure kira-kira berukuran sama, maka inferensi sumber terbuka kemungkinan sekitar 1-3% dari total inferensi.
2. Agen lebih awal. Titik data Microsoft menunjukkan agen dalam GitHub, Visual Studio, Copilot Studio, & Microsoft Fabric berkontribusi kurang dari 1% dari keseluruhan inferensi AI di Azure.
3. Dengan Microsoft yang diperkirakan akan menginvestasikan $80 miliar dibandingkan dengan $85 miliar Google dalam infrastruktur pusat data AI tahun ini, beban kerja inferensi AI dari setiap perusahaan akan meningkat secara signifikan baik melalui perangkat keras yang online & peningkatan algoritmik.
"Melalui pengoptimalan perangkat lunak saja, kami memberikan 90% lebih banyak token untuk GPU yang sama dibandingkan dengan tahun lalu."
Microsoft memeras lebih banyak limun digital dari GPU mereka & Google juga harus melakukan hal serupa.
Kapan kita akan melihat token AI 10t atau 50t pertama diproses per hari? Tidak mungkin jauh sekarang.
- Perkiraan dari udara tipis!
- Google & Azure masing-masing 33t token per hari, Together & 5 neocloud lainnya masing-masing dengan sekitar 2t token per hari, & Anthropic & OpenAI dengan 5t token per hari, memberi kita 88t token per hari. Jika kita berasumsi 5% token Google berasal dari model sumber terbuka, itu berarti 1,65 triliun token per hari, atau sekitar 1,9% dari total inferensi. Sekali lagi, matematika yang sangat kasar


843
Sekarang kita telah mengompresi hampir semua pengetahuan manusia ke dalam model bahasa yang besar, batas berikutnya adalah pemanggilan alat. Menyatukan alat AI yang berbeda memungkinkan otomatisasi. Pergeseran dari berpikir ke melakukan mewakili terobosan nyata dalam utilitas AI.
Saya telah membangun lebih dari 100 alat untuk diri saya sendiri, dan mereka bekerja sebagian besar waktu, tetapi tidak sepanjang waktu. Saya tidak sendirian. Laporan Indeks Ekonomi Anthropic mengungkapkan bahwa 77% penggunaan bisnis Claude berpusat pada otomatisasi tugas penuh, bukan co-piloting.
Anthropic menerbitkan dokumentasi minggu lalu tentang efisiensi token & alat arsitektur ulang untuk mengoptimalkan penggunaannya. Panduannya berlawanan dengan intuisi: alih-alih banyak alat sederhana dengan label yang jelas, buat alat yang lebih sedikit dan lebih kompleks.
Berikut adalah tujuh alat email yang saya buat - skrip Ruby, masing-masing dengan tujuan yang jelas. Skrip "Safe Send Email" dirancang untuk mencegah AI mengirim email tanpa persetujuan.
Indah naif, sederhana, & jelas, Bukankah seharusnya model bahasa dapat membaca ini & tahu persis apa yang saya minta untuk dilakukan? Tapi tidak sesederhana ini!
Anthropic merekomendasikan untuk membuat alat yang kompleks. Penelitian mereka menunjukkan bahwa "permintaan menghemat rata-rata 14% dalam token output, hingga 70%" saat menggunakan alat yang canggih dan kaya parameter, bukan yang sederhana. Alasannya? Sistem AI memahami konteks penuh lebih baik daripada niat yang terfragmentasi.
Saya menghabiskan akhir pekan untuk mengkonsolidasikan semua alat saya ke dalam alat terpadu, seperti ini untuk email: (gambar ketiga)
Dampaknya pada akurasi langsung. Tingkat keberhasilan Claude mendekati 100%. Sistemnya lebih cepat. Akibatnya, saya menggunakan token yang jauh lebih sedikit dengan sistem yang lebih efisien.
Inilah model mental saya saat ini: (gambar keempat)
Ketika saya mendesain ulang untuk kognisi AI daripada intuisi manusia, semuanya membaik. Operasi CRM, manajemen kalender, & alur kerja basis data saya semuanya menjadi lebih andal ketika dikonsolidasikan menjadi alat yang komprehensif dan berat parameter. Akurasi meningkat, sehingga total biaya berkurang secara signifikan.
Tapi jangan minta saya untuk menggunakan alat tersebut. Saya sekarang sedikit tersesat di tengah kerumitan. Ini adalah konsekuensi yang tak terelakkan dari bekerja pada tingkat abstraksi yang lebih tinggi, tidak lagi memahami mesin secara mendalam.
Kami menghabiskan beberapa dekade membuat perangkat lunak sederhana bagi orang-orang. Sekarang kami belajar untuk membuatnya rumit untuk AI.



601
Teratas
Peringkat
Favorit