NVIDIA ha appena pubblicato un documento eccezionale su come hanno compresso un modello da 16 bit a 4 bit riuscendo a mantenere il 99,4% di accuratezza, che è praticamente senza perdita.
Questo è un must read. Link qui sotto.
il mio amico @neuralkian ha appena lanciato un corso di parallelismo delle pipeline GRATUITO! questo è esattamente ciò su cui Frontier Labs ti assumerebbe per lavorare su larga scala al fine di accelerare l'addestramento e l'inferenza su grandi modelli. inizierai con un semplice esempio di computazione sovrapposta su un piccolo MLP e progredirai da lì!