Güçlü bir model, zor şeyleri öğrenmekte daha da kötüleşebilir, çünkü daha özgüvenli hale gelir.. Yanlış cevaplar o kadar aşağı itildiği için gradyanlar neredeyse kayboluyor WMSS döngüyü tersine çeviriyor: Güçlü modeli sadece mevcut tahminlerine değil, kendi daha önceki, daha zayıf kontrol noktasına göre eğitiyorsunuz Zayıf kontrol noktası hâlâ makul ama yanlış cevaplara basit olmayan olasılık atıyor.. Bu yumuşak dağılımda eğitim almak, güçlü modeli doğru ile neredeyse doğruyu ayırmaya devam etmeye zorluyor, zaten inandığı şeyi parlatmak yerine. Makale, matematik + kodlamada anlamlı kazançlar veriyor, daha zor setlerde daha büyük artışlar var. Ama 4b ile 8b parametreleri civarında test edildi, Frontier Scale değil (bu yüzden bunu kesin olarak kabul etmiyorum) Az konuşulan ima ise: Her ciddi laboratuvarın geçmiş çalışmalardan ara kontrol noktalarından oluşan bir mezarlığı zaten var.. Zayıf yönlendirilmiş öğrenme 70B+ seviyesinde kalırsa, "boşa harcanan" kontrol noktaları zaten üzerinde oturduğunuz bir eğitim kaynağı haline gelir Güçlü modeller kendilerinden şüphe etmeyi bıraktıklarında platoya ulaşıyor.. İleriye giden pratik bir yol, onları geçmiş benlikleriyle 👀 tartışmaya zorlamak olabilir Makaleye bağlantı: arxiv. org/abs/2602.08222