NVIDIA hat gerade ein beeindruckendes Papier veröffentlicht, in dem sie erklären, wie sie ein Modell von 16-Bit auf 4-Bit komprimiert haben und dabei 99,4 % Genauigkeit beibehalten konnten, was praktisch verlustfrei ist.
Das ist ein Muss. Link unten.
Mein Freund @neuralkian hat gerade einen Kurs über Pipeline-Parallelismus KOSTENLOS veröffentlicht! Das ist genau das, woran Frontier Labs dich einstellen würde, um in großem Maßstab zu arbeiten, um das Training und die Inferenz großer Modelle zu beschleunigen. Du beginnst mit einem einfachen Beispiel für überlappende Berechnungen bei einem kleinen MLP und arbeitest dich von dort aus weiter!