NVIDIA heeft zojuist een geweldig artikel gepubliceerd over hoe ze een model van 16-bit naar 4-bit hebben gecomprimeerd en in staat waren om 99,4% nauwkeurigheid te behouden, wat in feite verliesloos is.
Dit is een must-read. Link hieronder.
mijn vriend @neuralkian heeft net een cursus pipeline parallelisme GRATIS uitgebracht! dit is precies waar frontier labs je voor zou inhuren om op grote schaal aan te werken om de training en inferentie op grote modellen te versnellen. je begint met een eenvoudig voorbeeld van overlappende berekeningen op een klein MLP, en werkt daarvandaan verder!