NVIDIA vient de publier un article incroyable sur la façon dont ils ont compressé un modèle de 16 bits à 4 bits tout en maintenant une précision de 99,4 %, ce qui est pratiquement sans perte.
C'est un incontournable. Lien ci-dessous.
mon ami @neuralkian vient de lancer un cours sur le parallélisme de pipeline GRATUITEMENT ! c'est exactement ce pour quoi Frontier Labs vous embaucherait pour travailler à grande échelle afin d'accélérer l'entraînement et l'inférence sur de grands modèles. vous commencerez par un exemple simple de calcul superposé sur un petit MLP, et vous progresserez à partir de là !