Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Tomasz Tunguz
Nous construisons aujourd'hui des équipes en pyramides. Un leader, plusieurs managers, de nombreux contributeurs individuels.
Dans le monde de l'IA, quelle configuration d'équipe a le plus de sens ? Voici quelques alternatives :
Tout d'abord, la courte pyramide. Les managers deviennent des managers d'agents. Le travail effectué par les contributeurs individuels d'autrefois devient la charge de travail des agents. Tout le monde passe à un niveau d'abstraction supérieur dans son travail.
Cette configuration réduit le nombre d'employés de 85 % (1:7:49 -> 1:7). Le ratio manager/contributeur individuel passe de 1:7 à 1:1. Le ratio manager/agent reste à 1:7.
Deuxièmement, la fusée 🚀 !
Un directeur, sept managers, 21 employés. Tout le monde dans l'organisation gère des agents, mais ces agents reflètent leur ancienneté. Le directeur gère un chef de cabinet IA, les managers sont des joueurs-entraîneurs, exécutant eux-mêmes des objectifs et formant/coaching d'autres sur la manière de manipuler l'IA avec succès, ce qui réduit l'étendue du contrôle de moitié.
Cette configuration réduit le nombre d'employés (1:7:49 -> 1:7:14) de 53 %.
L'avenir n'est pas une solution unique.
Voici le rebondissement : tous les départements d'une entreprise n'adopteront pas la même structure organisationnelle. L'impact de l'IA varie considérablement selon la fonction, créant un monde où la forme d'une entreprise devient plus nuancée que jamais.
Les équipes de vente maintiendront probablement des pyramides traditionnelles ou des fusées. Les relations génèrent des revenus, et l'empathie humaine, la créativité et les compétences en négociation restent irremplaçables. Les modèles classiques d'étendue de contrôle s'appliquent toujours lorsque la confiance et le rapport sont primordiaux.
Les équipes de R&D présentent la plus grande opportunité pour la transformation en courte pyramide. La génération de code est le premier véritable produit adapté au marché de l'IA, générant 50 à 80 % du code pour les entreprises leaders.
Le succès et le support client pourraient évoluer vers des modèles hybrides : l'IA gère les demandes de routine tandis que les humains gèrent les escalades complexes et les comptes stratégiques. La couche traditionnelle de management intermédiaire se transforme en quelque chose de complètement nouveau.
Cette évolution remet en question tout ce que nous savons sur la mise à l'échelle efficace des équipes. La vieille sagesse des 6-7 rapports directs s'effondre lorsque les managers supervisent à la fois des rapports humains et des agents IA.
Le fardeau du recrutement qui justifiait historiquement les hiérarchies de management se transforme également. Au lieu de trouver et de développer des talents humains, les managers se concentrent de plus en plus sur la configuration des capacités de l'IA et l'optimisation de la collaboration humain-IA.
Si l'entreprise modifie son organigramme, quel organigramme envisagez-vous pour votre équipe ?



1,08K
Un trillion de jetons par jour. Est-ce beaucoup ?
« Et quand nous regardons de près le nombre de jetons servis par les API Foundry, nous avons traité plus de 100t de jetons ce trimestre, soit 5 fois plus qu'il y a un an, y compris un record de 50t de jetons rien que le mois dernier. »
En avril, Microsoft a partagé une statistique, révélant que leur produit Foundry traite environ 1,7t de jetons par mois.
Hier, Vipul a partagé qu'il traite 2t d'inférence open-source par jour.
En juillet, Google a annoncé un chiffre stupéfiant :
« Lors de l'I/O en mai, nous avons annoncé que nous avons traité 480 trillions de jetons par mois sur nos surfaces. Depuis, nous avons doublé ce chiffre, traitant maintenant plus de 980 trillions de jetons par mois, une augmentation remarquable. »
Google traite 32,7t par jour, 16 fois plus que Together et 574 fois plus que le volume d'avril de Microsoft Foundry.
À partir de ces chiffres, nous pouvons tirer quelques hypothèses :
1. L'inférence open-source représente une fraction à un chiffre de l'inférence. Il n'est pas clair quelle fraction des jetons d'inférence de Google provient de leurs modèles open-source comme Gemma. Mais, si nous supposons qu'Anthropic et OpenAI traitent 5t-10t de jetons par jour et sont tous fermés, plus qu'Azure est à peu près de taille similaire, alors l'inférence open-source est probablement autour de 1-3 % de l'inférence totale.
2. Les agents sont encore à leurs débuts. Le point de données de Microsoft suggère que les agents au sein de GitHub, Visual Studio, Copilot Studio et Microsoft Fabric contribuent à moins de 1 % de l'inférence AI globale sur Azure.
3. Avec Microsoft qui devrait investir 80 milliards de dollars par rapport aux 85 milliards de dollars de Google dans l'infrastructure des centres de données AI cette année, les charges de travail d'inférence AI de chaque entreprise devraient augmenter considérablement grâce à la mise en ligne de matériel et aux améliorations algorithmiques.
« Grâce à l'optimisation logicielle seule, nous livrons 90 % de jetons en plus pour le même GPU par rapport à l'année dernière. »
Microsoft tire plus de limonade numérique de ses GPU et Google doit également faire de même.
Quand verrons-nous les premiers 10t ou 50t de jetons AI traités par jour ? Cela ne peut pas être loin maintenant.
- Estimations sorties de nulle part !
- Google et Azure à 33t de jetons par jour chacun, Together et 5 autres néo-clouds à environ 2t de jetons par jour chacun, et Anthropic et OpenAI à 5t de jetons par jour, nous donne 88t de jetons par jour. Si nous supposons que 5 % des jetons de Google proviennent de modèles open-source, cela représente 1,65t de jetons par jour, soit environ 1,9 % de l'inférence totale. Encore une fois, des calculs très approximatifs.


898
Meilleurs
Classement
Favoris