必要なのは特異値分解だけです これは、少数のアクティブパラメータでモデルを微調整することに関する非常にエレガントな論文です。 LoRAは、低次元部分空間の重みをW'<W + ABで更新します(AとBは背が高く幅の広い行列です)。 この論文では、W' <- W + USRV^T を使用して更新するというひねりを提案しています。ここで、USV^T は重み行列の SVD であり、R は小さな学習可能な行列です。 驚くべきことに、これにより、LoRAよりも1500倍少ないストレージでパーソナライズされたモデルをトレーニングできます。モデルに8Bのパラメータがある場合は、わずか3Mのパラメータで微調整できます。