A NVIDIA acaba de lançar um artigo incrível sobre como comprimiram um modelo de 16 bits para 4 bits e conseguiram manter 99,4% de precisão, o que é basicamente sem perdas.
É uma leitura obrigatória. Link abaixo.
o meu amigo @neuralkian acaba de lançar um curso de paralelismo de pipeline GRÁTIS! isto é exatamente o que os frontier labs contratariam você para trabalhar em grande escala, a fim de acelerar o treinamento e a inferência em grandes modelos. você começará com um exemplo simples de computação sobreposta em um pequeno MLP e irá progredir a partir daí!