热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
1/
介绍 RL Swarm 的新后端:GenRL。
一个模块化的强化学习库,专为分布式容错训练而构建 - 现在从头开始为 RL Swarm 提供支持。🧵
2/
每个工作线程运行自己的环境实例,异步贡献共享的推出缓冲区,并独立更新其模型权重,因此不需要中央控制器。
3/
GenRL 允许 RL Swarm 与任何环境一起工作,通过代码直观地描述。
此次发布结合了开箱即用的 Reasoning Gym,无需额外配置即可访问 >100 个社区创建的环境。
4/
什么是新的:
– 模块化 GenRL 后端
– 扩展的配置表面
– 预构建的 Docker 镜像,便于部署
– 推理健身房环境,增强模型推理能力
– 新的多任务群
5/
现在在 Gensyn 测试网上线。
您现在可以使用 GenRL 运行 RL-Swarm。
完整代码 + 设置:
52.22K
热门
排行
收藏