奇异值分解就是你所需要的一切 这是一篇关于用极少量活跃参数微调模型的极其优雅的论文。 LoRA 在低维子空间中更新权重,公式为 W' <- W + AB,其中 A 和 B 是高和宽的矩阵。 论文提出了一个新颖的思路:使用 W' <- W + USRV^T 更新,其中 USV^T 是权重矩阵的 SVD,而 R 是一个微小的、可训练的矩阵。 令人惊讶的是,这让你可以用比 LoRA 少 1500 倍的存储来训练个性化模型。如果你的模型有 80 亿个参数,你可以用仅 300 万个参数进行微调。