Atropos v0.3 现已发布! 我们的 RL 环境框架自 v0.2 以来进行了许多升级 - 一些亮点: - Atropos 现在可以作为基准测试和评估框架,由 @rogershijin 提供支持,首个外部基准测试 Reward-Bench 2! - 添加了推理健身房,这是一个外部环境健身房库,移植到 Atropos 中,包含 @neurosp1ke 和朋友们提供的 100 多个推理任务。 - @max_paperclips 集成了 @intern_lm 的推理训练营,为 RL 添加了 1000 多个新的推理任务。 - Atropos 的首席工程师 @dmayhem93 添加了数十个错误修复和其他可靠性与兼容性改进,更好地支持多环境和 CI/CD。 - 许多 Atropos 黑客马拉松环境已合并到 /environments/community - 列出所有环境将占用大部分屏幕空间,但一些亮点包括: 由 @JakeABoggs 提供的 VR-CLI,哲学 RLAIF,自适应 LLM 教师,WebVoyager,由 @hallerite 提供的蛋白质设计,由 @gabinfay 提供的模型路由环境,多种精益证明,猫机器人竞技场,宝可梦对战,扑克,乐于助人的医生,由 @khoomeik 提供的梵文诗歌等等! - 其他值得注意的官方支持的新环境包括: 遵循环境的答案格式 从 @MatternJustus 的工作移植的 Pydantic 到 JSON 环境 从 @natolambert 和 @allen_ai 的工作移植的指令遵循 字母计数 - 47 位全新贡献者! 在这里查看完整的更新日志:
Teknium (e/λ)
Teknium (e/λ)7月18日 03:22
刚合并了一个PR,为环境改进LLM作为法官,并评估模型的判断能力! 你知道所有可验证的RL环境几乎等同于基准(反之亦然)吗?所以我们在Atropos的基础上添加了一个评估命令,现在你可以通过Atropos环境运行基准测试。 我们对使用那么多过时或不可用的基准框架感到沮丧,因此我们在Atropos中实现了仅评估模式,这是我们的RL环境框架。 所以我们从现有环境之外的第一个移植是@natolambert的Reward-Bench! 注意:目前它仅支持生成奖励模型(常规LLM法官)。 在这里查看PR:
24.85K