A NVIDIA acabou de publicar um artigo excelente sobre como comprimiram um modelo de 16 bits para 4 bits e conseguiram manter 99,4% de precisão, o que é basicamente sem perdas.
É leitura obrigatória. Link abaixo.
Meu amigo @neuralkian acabou de desistir de um curso de paralelismo de pipeline GRÁTIS! É exatamente isso que os laboratórios da Frontier contratariam você para trabalhar em escala e acelerar o treinamento e a inferência em modelos grandes. Você começará com um exemplo simples de computação sobreposta em um MLP pequeno e vai avançando a partir daí!