un modello forte può peggiorare nell'apprendere cose difficili man mano che diventa più sicuro.. perché le sue risposte sbagliate vengono spostate così in basso che i gradienti praticamente scompaiono wmss rovescia il ciclo: alleni il modello forte contro il suo stesso checkpoint precedente, più debole, non solo contro le sue attuali previsioni il checkpoint debole assegna ancora una probabilità non banale a risposte plausibili ma sbagliate.. allenarsi su quella distribuzione più morbida costringe il modello forte a continuare a separare corretto da quasi-corretto, invece di lucidare ciò che già crede il documento riporta guadagni significativi in matematica + programmazione, con aumenti maggiori su set più difficili.. ma è stato testato intorno a 4b a 8b parametri, non a scala frontier (quindi non lo considero risolto) l'implicazione poco discussa: ogni laboratorio serio ha già un cimitero di checkpoint intermedi da corse passate.. se l'apprendimento guidato da debole tiene a 70b+, i checkpoint "sprecati" diventano una risorsa di allenamento su cui sei già seduto i modelli forti raggiungono un plateau quando smettono di dubitare di se stessi.. un modo pratico per andare avanti potrebbe essere farli discutere con il loro io passato 👀 link al documento: arxiv. org/abs/2602.08222