I risultati di NeurIPS sono stati pubblicati; Pluralis ha tre articoli accettati. Il primo è il risultato della ricerca principale che attualmente alimenta il nostro nodo0 di preaddestramento aperto da 7,5 miliardi. Gli altri due sono anche risultati importanti che integreremo nei successivi run. Questo è stato realizzato con un piccolo team di <10 persone, mentre costruivamo il nodo0. 1) Reti Subspaziali: Scalare l'Addestramento Decentralizzato con Parallelismo di Modello Efficiente nella Comunicazione: Scalare i modelli ha portato a significativi progressi nel deep learning, ma addestrare questi modelli in contesti decentralizzati rimane una sfida a causa dei colli di bottiglia nella comunicazione. Sebbene le tecniche di compressione esistenti siano efficaci nel parallelismo dei dati, non si estendono al parallelismo di modello. A differenza dell'addestramento in parallelo sui dati, dove vengono scambiati i gradienti dei pesi, il parallelismo di modello richiede di comprimere le attivazioni e i gradienti delle attivazioni mentre si propagano attraverso i livelli, accumulando errori di compressione. Proponiamo un nuovo algoritmo di compressione che comprime sia i passaggi in avanti che quelli all'indietro, consentendo fino al 99% di compressione senza degradazione della convergenza con un sovraccarico di memoria/computazione trascurabile. Sfruttando una struttura ricorsiva nelle reti transformer, predefiniamo uno spazio subdimensionale a bassa dimensione per confinare le attivazioni e i gradienti, consentendo una ricostruzione completa nei livelli successivi. Il nostro metodo raggiunge fino a 100 volte di miglioramento nell'efficienza della comunicazione e consente di addestrare modelli di scala miliardaria su GPU di fascia bassa collegate tramite velocità di internet di consumo così basse come 80Mbps, eguagliando la convergenza dei sistemi centralizzati nei datacenter con connessioni a 100Gbps con parallelismo di modello. 2) Mixture di Subspazi per l'Addestramento Contestuale Efficiente in Larghezza di Banda: L'addestramento dei modelli linguistici con finestre di contesto estese migliora la loro capacità di sfruttare informazioni ricche durante la generazione. I metodi esistenti dividono le sequenze di input in blocchi, li trasmettono su più dispositivi e calcolano l'attenzione blocco per blocco, il che comporta un significativo sovraccarico di comunicazione. Sebbene fattibile in cluster ad alta velocità, questi metodi sono impraticabili per l'addestramento decentralizzato su connessioni a bassa larghezza di banda. Proponiamo un metodo di compressione per il parallelismo contestuale efficiente nella comunicazione in contesti decentralizzati, raggiungendo un notevole tasso di compressione superiore al 95% con sovraccarico trascurabile e senza perdita di convergenza. La nostra intuizione chiave è sfruttare la struttura intrinsecamente a bassa dimensione delle attivazioni, vincolandole dinamicamente a miscele apprese di subspazi tramite riparametrizzazioni efficienti. Dimostriamo di scalare modelli decentralizzati miliardari a lunghezze di contesto superiori a 100K token su reti lente fino a 300Mbps, eguagliando la velocità di convergenza in tempo reale dei modelli centralizzati su interconnessioni a 100Gbps. 3) Modelli di Protocollo Non Estraibili: Addestramento Collaborativo e Inferenza senza Materializzazione dei Pesi: Consideriamo un'impostazione di addestramento decentralizzato in cui i partecipanti addestrano e servono collaborativamente una grande rete neurale, e dove ogni partecipante elabora solo un sottoinsieme del modello. In questa impostazione, esploriamo la possibilità di pesi non materializzabili, dove un insieme completo di pesi non è mai disponibile per nessun partecipante. Introduciamo i Modelli di Protocollo Non Estraibili (UPMs): un framework di addestramento e inferenza che sfrutta l'impostazione del modello frammentato per garantire che i frammenti del modello (cioè, sottoinsiemi) detenuti dai partecipanti siano incompatibili in diversi momenti. Gli UPM iniettano periodicamente trasformazioni casuali, invertibili e variabili nel tempo ai confini dei partecipanti; preservando la funzione complessiva della rete ma rendendo incoerenti le assemblaggi tra i tempi. Su Qwen-2.5-0.5B e Llama-3.2-1B, 10.000 trasformazioni lasciano invariata la perplexity FP 32 (PPL drift di Jensen–Shannon). Applicare una trasformazione ogni 30 secondi aggiunge il 3% di latenza, lo 0,1% di larghezza di banda e il 10% di sovraccarico di memoria GPU in fase di inferenza, mentre il sovraccarico di addestramento scende all'1,6% di tempo e < 1% di memoria. Consideriamo diversi attacchi, dimostrando che i requisiti per attacchi diretti sono impraticabili e facili da difendere, e che il fine-tuning basato su gradienti delle partizioni cucite consuma i token richiesti per addestrare da zero. Abilitando i modelli a essere addestrati collaborativamente ma non estratti, gli UPM rendono pratico incorporare meccanismi di incentivo programmatici nell'addestramento decentralizzato guidato dalla comunità.