Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ein starkes Modell kann beim Lernen schwieriger Dinge schlechter werden, je selbstsicherer es wird.. weil seine falschen Antworten so niedrig gedrückt werden, dass die Gradienten praktisch verschwinden.
wmss dreht den Loop um: Du trainierst das starke Modell gegen seinen eigenen früheren, schwächeren Checkpoint, nicht nur gegen seine aktuellen Vorhersagen.
Der schwache Checkpoint weist immer noch nicht triviale Wahrscheinlichkeiten für plausible, aber falsche Antworten zu.. das Training auf dieser weicheren Verteilung zwingt das starke Modell dazu, korrekt von fast korrekt zu trennen, anstatt das zu polieren, was es bereits glaubt.
Die Arbeit berichtet von bedeutenden Fortschritten in Mathematik + Programmierung, mit größeren Verbesserungen bei schwierigeren Sets.. aber es wurde mit 4b bis 8b Parametern getestet, nicht im Grenzbereich (also behandle ich das nicht als abgeschlossen).
Die unterdiskutierte Implikation: Jedes ernsthafte Labor hat bereits einen Friedhof von Zwischen-Checkpoints aus vergangenen Durchläufen.. wenn schwachgesteuertes Lernen bei 70b+ funktioniert, werden "verschwenderische" Checkpoints zu einer Trainingsressource, auf der du bereits sitzt.
Starke Modelle erreichen ein Plateau, wenn sie aufhören, an sich selbst zu zweifeln.. ein praktischer Weg nach vorne könnte sein, sie mit ihrem früheren Ich streiten zu lassen 👀
Link zur Arbeit: arxiv. org/abs/2602.08222

Top
Ranking
Favoriten
