1/ 介绍 RL Swarm 的新后端:GenRL。 一个为分布式、容错训练而构建的模块化强化学习库——现在从根本上为 RL Swarm 提供支持。 🧵
每个工作者运行自己的环境实例,异步地贡献于共享的回放缓冲区,并独立更新其模型权重,因此不需要中央控制器。
3/ GenRL 允许 RL Swarm 与任何环境一起工作,通过代码直观地描述。 此次发布结合了开箱即用的 Reasoning Gym,无需额外配置即可访问 >100 个社区创建的环境。
4/ 新动态: – 模块化 GenRL 后端 – 扩展的配置界面 – 预构建的 Docker 镜像,便于部署 – 推理健身房环境,以增强模型推理能力 – 新的多任务群体
5/ 现在在 Gensyn 测试网直播。 您可以今天使用 GenRL 运行 RL-Swarm。 完整代码 + 设置:
52.15K