Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

silny model może gorzej uczyć się trudnych rzeczy, gdy staje się bardziej pewny siebie.. ponieważ jego błędne odpowiedzi są tak niskie, że gradienty praktycznie znikają wmss odwraca tę pętlę: trenujesz silny model przeciwko jego własnemu wcześniejszemu, słabszemu punktowi kontrolnemu, a nie tylko jego obecnym prognozom ten słaby punkt kontrolny nadal przypisuje niebanalną prawdopodobieństwo do prawdopodobnych, ale błędnych odpowiedzi.. trenowanie na tej łagodniejszej dystrybucji zmusza silny model do ciągłego oddzielania poprawnych od prawie poprawnych, zamiast polerować to, w co już wierzy artykuł donosi o znaczących zyskach w matematyce i kodowaniu, z większymi wzrostami w trudniejszych zestawach.. ale był testowany w zakresie od 4b do 8b parametrów, a nie na skali granicznej (więc nie traktuję tego jako ustalone) temat, który jest mało omawiany: każde poważne laboratorium ma już cmentarzysko pośrednich punktów kontrolnych z przeszłych uruchomień.. jeśli uczenie się napędzane słabością utrzymuje się na poziomie 70b+, "zmarnowane" punkty kontrolne stają się zasobem szkoleniowym, na którym już siedzisz silne modele osiągają plateau, gdy przestają wątpić w siebie.. jednym praktycznym sposobem na przyszłość może być zmuszenie ich do kłótni z ich przeszłym ja 👀 link do artykułu: arxiv. org/abs/2602.08222

Najlepsze

Ranking

Ulubione