Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Silný model může být horší v učení těžkých věcí, jak získává větší sebevědomí... Protože jeho špatné odpovědi jsou tlačeny tak nízko, že gradienty prakticky zmizí
WMS obrátí smyčku: trénujete silný model proti jeho vlastnímu dřívějšímu, slabšímu kontrolnímu bodu, nejen proti aktuálním predikcím
Slabý kontrolní bod stále přiřazuje netriviální pravděpodobnost pravděpodobným, ale špatným odpovědím. Trénování na tomto měkčím rozdělení nutí silný model neustále oddělovat správné od téměř-správného, místo aby vylepšoval to, čemu už věří
Článek uvádí významné zlepšení v matematice + programování, s většími nárůsty na těžších sadách. Ale testovalo se to kolem parametrů 4b až 8b, ne podle Frontier Scale (takže to nepovažuji za vyřešené)
Málo diskutovaný závěr: každá vážná laboratoř už má hřbitov mezičasových kontrolních bodů z minulých pokusů... Pokud slabě řízené učení vydrží na 70B+, "promarněné" kontrolní body se stanou tréninkovým zdrojem, který už máte
Silné modely dosáhnou platóa, když přestanou pochybovat o sobě... Jednou praktickou cestou vpřed by mohlo být přimět je hádat se svým minulým já 👀
Odkaz na článek: arxiv. org/abs/2602.08222

Top
Hodnocení
Oblíbené
