Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
silny model może gorzej uczyć się trudnych rzeczy, gdy staje się bardziej pewny siebie.. ponieważ jego błędne odpowiedzi są tak niskie, że gradienty praktycznie znikają
wmss odwraca tę pętlę: trenujesz silny model przeciwko jego własnemu wcześniejszemu, słabszemu punktowi kontrolnemu, a nie tylko jego obecnym prognozom
ten słaby punkt kontrolny nadal przypisuje niebanalną prawdopodobieństwo do prawdopodobnych, ale błędnych odpowiedzi.. trenowanie na tej łagodniejszej dystrybucji zmusza silny model do ciągłego oddzielania poprawnych od prawie poprawnych, zamiast polerować to, w co już wierzy
artykuł donosi o znaczących zyskach w matematyce i kodowaniu, z większymi wzrostami w trudniejszych zestawach.. ale był testowany w zakresie od 4b do 8b parametrów, a nie na skali granicznej (więc nie traktuję tego jako ustalone)
temat, który jest mało omawiany: każde poważne laboratorium ma już cmentarzysko pośrednich punktów kontrolnych z przeszłych uruchomień.. jeśli uczenie się napędzane słabością utrzymuje się na poziomie 70b+, "zmarnowane" punkty kontrolne stają się zasobem szkoleniowym, na którym już siedzisz
silne modele osiągają plateau, gdy przestają wątpić w siebie.. jednym praktycznym sposobem na przyszłość może być zmuszenie ich do kłótni z ich przeszłym ja 👀
link do artykułu: arxiv. org/abs/2602.08222

Najlepsze
Ranking
Ulubione
