Rozkład wartości osobliwych to wszystko, czego potrzebujesz To niezwykle elegancki artykuł na temat dostrajania modeli z minimalną liczbą aktywnych parametrów. LoRA aktualizuje wagi w niskowymiarowej podprzestrzeni z W' <- W + AB, gdzie A i B to macierze wysokie i szerokie. Artykuł proponuje twist: aktualizuj używając W' <- W + USRV^T, gdzie USV^T to SVD macierzy wag, a R to mała, ucząca się macierz. Zaskakująco, pozwala to na trenowanie spersonalizowanych modeli z 1500 razy mniejszym zużyciem pamięci niż LoRA. Jeśli twój model ma 8B parametrów, możesz dostroić go z zaledwie 3M parametrów.