熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
NeurIPS 結果已公佈;Pluralis 有三篇論文被接受。第一篇是核心研究成果,目前正在支持我們的 7.5B 開放預訓練運行 node0。第二篇和第三篇也是重要成果,我們將把它們整合到後續的運行中。這是一個小團隊完成的,人數少於 10 人,同時在構建 node0。
1) 子空間網絡:通過通信高效的模型並行擴展去中心化訓練:擴展模型已在深度學習中取得了顯著進展,但在去中心化環境中訓練這些模型仍然面臨通信瓶頸的挑戰。雖然現有的壓縮技術在數據並行中有效,但它們並不適用於模型並行。與數據並行訓練不同,數據並行訓練中權重梯度被交換,而模型並行需要在激活和激活梯度通過層傳播時進行壓縮,從而累積壓縮誤差。我們提出了一種新穎的壓縮算法,可以壓縮前向和後向傳遞,實現高達 99% 的壓縮率,並且沒有收斂降級,內存/計算開銷微乎其微。通過利用變換器網絡中的遞歸結構,我們預定義了一個低維子空間來限制激活和梯度,從而允許在後續層中完全重構。我們的方法在通信效率上實現了高達 100 倍的提升,並使得在低端 GPU 上以低至 80Mbps 的消費者級互聯網速度訓練十億參數規模的模型,匹配了具有 100Gbps 連接的集中式數據中心系統的收斂效果,採用模型並行。
2) 帶寬高效的上下文並行訓練的子空間混合:使用擴展上下文窗口預訓練語言模型增強了它們在生成過程中利用豐富信息的能力。現有方法將輸入序列分割成塊,在多個設備之間廣播,並逐塊計算注意力,這會產生顯著的通信開銷。雖然在高速集群中可行,但這些方法在低帶寬連接的去中心化訓練中並不實用。我們提出了一種用於去中心化環境中通信高效上下文並行的壓縮方法,實現了超過 95% 的顯著壓縮率,開銷微乎其微且沒有收斂損失。我們的關鍵見解是通過高效的重新參數化動態約束激活輸出的內在低秩結構,利用學習到的子空間混合。我們展示了在網絡速度低至 300Mbps 的情況下,將十億參數的去中心化模型擴展到超過 100K 令牌的上下文長度,匹配了集中式模型在 100Gbps 互連上的牆鍾收斂速度。
3) 不可提取協議模型:無需權重物化的協作訓練和推理:
我們考慮一種去中心化訓練設置,其中參與者協作訓練和服務一個大型神經網絡,每個參與者僅處理模型的一個子集。在這種設置中,我們探索不可物化權重的可能性,即任何一個參與者都永遠無法獲得完整的權重集。我們引入了不可提取協議模型(UPMs):一種利用分片模型設置的訓練和推理框架,確保參與者持有的模型片段(即子集)在不同時間步驟下不兼容。UPMs 定期在參與者邊界注入時間變化的隨機可逆變換;保持整體網絡功能,同時使跨時間的組合變得不連貫。在 Qwen-2.5-0.5B 和 Llama-3.2-1B 上,10,000 次變換使 FP 32 困惑度保持不變(PPL Jensen–Shannon 漂移)。每 30 秒應用一次變換會增加 3% 的延遲,0.1% 的帶寬和 10% 的 GPU 內存開銷,而訓練開銷降至 1.6% 的時間和 < 1% 的內存。我們考慮了幾種攻擊,表明直接攻擊的要求不切實際且易於防禦,並且基於梯度的拼接分區微調消耗了從頭訓練所需的令牌。通過使模型能夠協作訓練但不被提取,UPMs 使得在社區驅動的去中心化訓練中嵌入程序激勵機制變得可行。
熱門
排行
收藏