熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
1/
介紹 RL Swarm 的新後端:GenRL。
一個模組化強化學習庫,專為分散式容錯訓練而建置,現在從頭開始為 RL Swarm 提供支援。🧵
2/
每個工作者都會執行自己的環境執行個體,以非同步方式貢獻共用轉出緩衝區,並獨立更新其模型權重,因此不需要中央控制器。
3/
GenRL 允許 RL Swarm 與任何環境一起工作,通過代碼直觀地描述。
此次發佈結合了開箱即用的 Reasoning Gym,無需額外配置即可訪問 >100 個社區創建的環境。
4/
什麼是新的:
– 模組化 GenRL 後端
– 擴展的配置表面
– 預先建置的 Docker 映像,方便部署
– 推理健身房環境,增強模型推理能力
– 新的多任務蜂群
5/
現在在 Gensyn 測試網上線。
您今天可以使用 GenRL 執行 RL-Swarm。
完整程式碼+設定:
52.23K
熱門
排行
收藏