NVIDIA щойно опублікувала вражаючу статтю про те, як вони стиснули модель з 16-бітної до 4-бітної і змогли зберегти точність 99,4%, що фактично безвтратно.
Це обов'язкове до прочитання. Посилання нижче.
Мій друг @neuralkian щойно безкоштовно відмовився від курсу паралелізму pipeline! Саме це Frontier Labs наймає для масштабної роботи, щоб прискорити навчання та висновки на великих моделях. Ви почнете з простого прикладу перекриваючихся обчислень на невеликому MLP і рухатиметесь далі!