Silný model může být horší v učení těžkých věcí, jak získává větší sebevědomí... Protože jeho špatné odpovědi jsou tlačeny tak nízko, že gradienty prakticky zmizí WMS obrátí smyčku: trénujete silný model proti jeho vlastnímu dřívějšímu, slabšímu kontrolnímu bodu, nejen proti aktuálním predikcím Slabý kontrolní bod stále přiřazuje netriviální pravděpodobnost pravděpodobným, ale špatným odpovědím. Trénování na tomto měkčím rozdělení nutí silný model neustále oddělovat správné od téměř-správného, místo aby vylepšoval to, čemu už věří Článek uvádí významné zlepšení v matematice + programování, s většími nárůsty na těžších sadách. Ale testovalo se to kolem parametrů 4b až 8b, ne podle Frontier Scale (takže to nepovažuji za vyřešené) Málo diskutovaný závěr: každá vážná laboratoř už má hřbitov mezičasových kontrolních bodů z minulých pokusů... Pokud slabě řízené učení vydrží na 70B+, "promarněné" kontrolní body se stanou tréninkovým zdrojem, který už máte Silné modely dosáhnou platóa, když přestanou pochybovat o sobě... Jednou praktickou cestou vpřed by mohlo být přimět je hádat se svým minulým já 👀 Odkaz na článek: arxiv. org/abs/2602.08222