A decomposição em valores singulares é tudo o que você precisa Este é um artigo extremamente elegante sobre o ajuste fino de modelos com um número reduzido de parâmetros ativos. O LoRA atualiza pesos em um subespaço de baixa dimensão com W' <- W + AB, onde A e B são matrizes altas e largas. O artigo propõe uma reviravolta: atualizar usando W' <- W + USRV^T, onde USV^T é a SVD da matriz de pesos, e R é uma matriz pequena e treinável. Surpreendentemente, isso permite treinar modelos personalizados com 1500x menos armazenamento do que o LoRA. Se o seu modelo tem 8B de parâmetros, você pode ajustar com apenas 3M de parâmetros.