热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
1/
介绍 RL Swarm 的新后端:GenRL。
一个为分布式、容错训练而构建的模块化强化学习库——现在从根本上为 RL Swarm 提供支持。 🧵
每个工作者运行自己的环境实例,异步地贡献于共享的回放缓冲区,并独立更新其模型权重,因此不需要中央控制器。
3/
GenRL 允许 RL Swarm 与任何环境一起工作,通过代码直观地描述。
此次发布结合了开箱即用的 Reasoning Gym,无需额外配置即可访问 >100 个社区创建的环境。
4/
新动态:
– 模块化 GenRL 后端
– 扩展的配置界面
– 预构建的 Docker 镜像,便于部署
– 推理健身房环境,以增强模型推理能力
– 新的多任务群体
5/
现在在 Gensyn 测试网直播。
您可以今天使用 GenRL 运行 RL-Swarm。
完整代码 + 设置:
52.15K
热门
排行
收藏