NVIDIA 刚刚发布了一篇精彩的论文,介绍了他们如何将模型从 16 位压缩到 4 位,并能够保持 99.4% 的准确率,这基本上是无损的。 这是一篇必读的文章。链接如下。