DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Mi ritrovo a scrivere sempre di più su @Zai_org in questi giorni, ma è come se il loro ritmo di innovazione fosse straordinario. Eccoci di nuovo.... Se hai seguito le leggi di scalabilità, sai che il numero di parametri grezzi sta iniziando a cedere il passo all'efficienza architettonica e alla qualità dei dati. @Zai_org GLM-5 è una lezione magistrale in questa transizione. Stiamo osservando una bestia Mixture-of-Experts (MoE) da 744B che attiva solo 40B parametri per token. È snella dove conta e massiccia dove deve esserlo. Presso @layerlens_ai abbiamo valutato attivamente GLM-5 e puoi vedere i risultati da solo: L'Architettura dell'Autonomia L'innovazione di spicco qui è l'Attenzione Sparsa DeepSeek (DSA) combinata con il nuovo Framework RL "Slime". Nel vecchio paradigma, RLHF riguardava il rendere i modelli "più gentili". In GLM-5, l'Apprendimento per Rinforzo viene utilizzato per colmare il divario tra pensare e fare. Questo stack RL asincrono consente al modello di "giocare" con compiti ingegneristici complessi e multi-step, apprendendo dagli errori in un modo che imita un ingegnere senior che lavora su una PR. Non si tratta solo di prevedere il prossimo token; si tratta di prevedere la prossima soluzione. Benchmarking il "Salto Generazionale" Il cruscotto su LayerLens non è solo un elenco di numeri; è una mappa del ragionamento ad alta dimensione. Ecco le metriche principali che definiscono questo rilascio: L'Ultimo Esame dell'Umanità (HLE) [Punteggio: 50.4]: Progettato per essere il benchmark accademico "finale", l'HLE consiste in domande verificate da esperti che sono intenzionalmente "Google-proof". Con 50.4, GLM-5 non si limita a richiamare fatti; supera Claude 4.5 Opus (43.4) e GPT-5.2 (45.5) nella sintesi supportata da strumenti. SWE-bench Verificato [Punteggio: 77.8%]: Questo è lo standard d'oro per l'ingegneria del software nel mondo reale. Il modello deve navigare in un repository, riprodurre un bug e inviare una pull request funzionale. GLM-5 ora si confronta con i sistemi proprietari più potenti del mondo. BrowseComp (con Gestione del Contesto) [Punteggio: 75.9]: Un test di "agenzia contestuale". Misura la capacità di un modello di navigare siti web dal vivo e mantenere la memoria su storie di interazione prolungate. Il punteggio di GLM-5 guida il gruppo, superando GPT-5.2 (65.8). Vending Bench 2 [Classificato #1]: Una simulazione aziendale di un anno che misura la pianificazione sostenuta e il processo decisionale operativo. GLM-5 ha concluso con un saldo finale di $4,432—il più alto tra tutti i modelli open-source—dimostrando di poter mantenere una strategia coerente per migliaia di turni. τ²-Bench [Punteggio: 89.7]: Testando scenari complessi multi-step, GLM-5 ha eguagliato Claude 4.5 Opus (91.6) ed ha superato GPT-5.2 (85.5), rafforzando la sua posizione come sistema agentico piuttosto che come chatbot. La Sovranità Hardware C'è una bella ironia nella storia dell'addestramento: GLM-5 è stato addestrato interamente su infrastruttura Huawei Ascend. È un promemoria che l'intelligenza è indipendente dal substrato. Non hai bisogno di un marchio specifico di silicio per raggiungere il confine; hai bisogno della giusta intuizione architettonica e di una montagna di token di alta qualità—28.5T, per essere precisi. Perché Questo È Importante...

Principali

Ranking

Preferiti