sposób interpretacji tego jest taki, że po treningu twoje wagi są w pewnym sensie równomiernie rozłożone względem wszystkich zadań, które widziały podczas wstępnego treningu (model widział wszystkie zadania, więc przyciągnęły go do nich). więc wszystko, co ta metoda robi, to perturbacja wag i sprawdzenie, które perturbacje przybliżają sieć do wag specyficznych dla zadania. to jak naprawdę tanie lora to również łączy się z obserwacją, że po treningu nie dodaje wiedzy, ale po prostu rzeźbi rozkład wstępnego treningu.
Yulu Gan
Yulu Gan13 mar, 23:41
Proste dodanie szumu Gaussa do LLM-ów (jeden krok — bez iteracji, bez współczynnika uczenia, bez gradientów) oraz ich ensembling może osiągnąć wyniki porównywalne, a nawet lepsze niż standardowe GRPO/PPO w zadaniach związanych z rozumowaniem matematycznym, kodowaniem, pisaniem i chemią. Nazywamy ten algorytm RandOpt. Aby zweryfikować, że nie jest to ograniczone do konkretnych modeli, przetestowaliśmy go na Qwen, Llama, OLMo3 i VLM-ach. Co za tym stoi? Odkrywamy, że w sąsiedztwie wyszukiwania Gaussa wokół wstępnie wytrenowanych LLM-ów, różnorodni eksperci w zadaniach są gęsto rozmieszczeni — reżim, który nazywamy Gęstwiny Neuronalnej. Artykuł: Kod: Strona internetowa:
zakłócanie wag jest naprawdę analogiczne do losowych prób w wysokiej temperaturze. Uważam, że to może być iteracyjne (jak grpo) zakłóć wagi z dużym promieniem -> wybierz lepszych wykonawców -> ciągle zmniejszaj promień to *powinno* zwiększyć dokładność zadania @yule_gan, próbowałeś tego?
139