NVIDIA acaba de publicar un artículo excelente sobre cómo comprimieron un modelo de 16 bits a 4 bits y lograron mantener una precisión del 99,4%, que es básicamente sin pérdidas.
Es una lectura obligada. Enlace abajo.
¡Mi amigo @neuralkian acaba de dejar un curso de paralelismo de pipeline GRATIS! Esto es exactamente en lo que Frontier Labs te contrataría para trabajar a gran escala y así acelerar el entrenamiento y la inferencia en modelos grandes. Empezarás con un ejemplo sencillo de computación solapada en un MLP pequeño, y a partir de ahí irás avanzando.