NVIDIA только что выпустила потрясающую статью о том, как они сжали модель с 16 бит до 4 бит и смогли сохранить 99,4% точности, что в основном является безубыточным.
Это обязательно к прочтению. Ссылка ниже.
мой друг @neuralkian только что выпустил курс по параллелизму конвейеров БЕСПЛАТНО! это именно то, что Frontier Labs наняло бы вас делать в больших масштабах, чтобы ускорить обучение и вывод на больших моделях. вы начнете с простого примера перекрывающихся вычислений на небольшом MLP и будете развиваться оттуда!