一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

1/ 介绍 RL Swarm 的新后端：GenRL。一个模块化的强化学习库，专为分布式容错训练而构建 - 现在从头开始为 RL Swarm 提供支持。🧵

2/ 每个工作线程运行自己的环境实例，异步贡献共享的推出缓冲区，并独立更新其模型权重，因此不需要中央控制器。

3/ GenRL 允许 RL Swarm 与任何环境一起工作，通过代码直观地描述。此次发布结合了开箱即用的 Reasoning Gym，无需额外配置即可访问 >100 个社区创建的环境。

4/ 什么是新的： – 模块化 GenRL 后端 – 扩展的配置表面 – 预构建的 Docker 镜像，便于部署 – 推理健身房环境，增强模型推理能力 – 新的多任务群

5/ 现在在 Gensyn 测试网上线。您现在可以使用 GenRL 运行 RL-Swarm。完整代码 + 设置：

52.22K

热门

排行

收藏