NVIDIA har nettopp sluppet en flott artikkel om hvordan de komprimerte en modell fra 16-bit til 4-bit og klarte å opprettholde 99,4 % nøyaktighet, noe som i praksis er tapsfritt.
Dette er et must å lese. Lenke nedenfor.
Vennen min @neuralkian nettopp droppet et pipeline-parallelismekurs GRATIS! Dette er akkurat det Frontier Labs ville ansatt deg til å jobbe med i stor skala for å fremskynde opplæring og inferenser på store modeller. du starter med et enkelt eksempel på overlappende beregninger på en liten MLP, og jobber deg oppover derfra!