Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

sposób interpretacji tego jest taki, że po treningu twoje wagi są w pewnym sensie równomiernie rozłożone względem wszystkich zadań, które widziały podczas wstępnego treningu (model widział wszystkie zadania, więc przyciągnęły go do nich). więc wszystko, co ta metoda robi, to perturbacja wag i sprawdzenie, które perturbacje przybliżają sieć do wag specyficznych dla zadania. to jak naprawdę tanie lora to również łączy się z obserwacją, że po treningu nie dodaje wiedzy, ale po prostu rzeźbi rozkład wstępnego treningu.

zakłócanie wag jest naprawdę analogiczne do losowych prób w wysokiej temperaturze. Uważam, że to może być iteracyjne (jak grpo) zakłóć wagi z dużym promieniem -> wybierz lepszych wykonawców -> ciągle zmniejszaj promień to *powinno* zwiększyć dokładność zadania @yule_gan, próbowałeś tego?

139

Najlepsze

Ranking

Ulubione