NVIDIA právě vydala skvělý článek o tom, jak komprimovala model z 16bitového na 4bitový a dokázala udržet 99,4% přesnost, což je v podstatě bezztrátové.
Toto je povinné čtení. Odkaz níže.
můj kamarád @neuralkian právě zdarma zrušil kurz paralelismu potrubí! Přesně na tohle by vás Frontier Labs najal ve velkém měřítku, aby urychlil trénink a inferenci na velkých modelech. Začnete jednoduchým příkladem překrývajících se výpočtů na malém MLP a postupně pokračujete!