奇異值分解就是你所需要的一切 這是一篇關於用極少量活躍參數微調模型的極其優雅的論文。 LoRA 在低維子空間中更新權重,公式為 W' <- W + AB,其中 A 和 B 是高和寬的矩陣。 論文提出了一個新穎的思路:使用 W' <- W + USRV^T 更新,其中 USV^T 是權重矩陣的 SVD,而 R 是一個微小的、可訓練的矩陣。 令人驚訝的是,這讓你可以用比 LoRA 少 1500 倍的存儲來訓練個性化模型。如果你的模型有 80 億個參數,你可以用僅 300 萬個參數進行微調。