热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Nous Research
Atropos v0.3 现已发布!
我们的 RL 环境框架自 v0.2 以来进行了许多升级 - 一些亮点:
- Atropos 现在可以作为基准测试和评估框架,由 @rogershijin 提供支持,首个外部基准测试 Reward-Bench 2!
- 添加了推理健身房,这是一个外部环境健身房库,移植到 Atropos 中,包含 @neurosp1ke 和朋友们提供的 100 多个推理任务。
- @max_paperclips 集成了 @intern_lm 的推理训练营,为 RL 添加了 1000 多个新的推理任务。
- Atropos 的首席工程师 @dmayhem93 添加了数十个错误修复和其他可靠性与兼容性改进,更好地支持多环境和 CI/CD。
- 许多 Atropos 黑客马拉松环境已合并到 /environments/community - 列出所有环境将占用大部分屏幕空间,但一些亮点包括:
由 @JakeABoggs 提供的 VR-CLI,哲学 RLAIF,自适应 LLM 教师,WebVoyager,由 @hallerite 提供的蛋白质设计,由 @gabinfay 提供的模型路由环境,多种精益证明,猫机器人竞技场,宝可梦对战,扑克,乐于助人的医生,由 @khoomeik 提供的梵文诗歌等等!
- 其他值得注意的官方支持的新环境包括:
遵循环境的答案格式
从 @MatternJustus 的工作移植的 Pydantic 到 JSON 环境
从 @natolambert 和 @allen_ai 的工作移植的指令遵循
字母计数
- 47 位全新贡献者!
在这里查看完整的更新日志:

Teknium (e/λ)7月18日 03:22
刚合并了一个PR,为环境改进LLM作为法官,并评估模型的判断能力!
你知道所有可验证的RL环境几乎等同于基准(反之亦然)吗?所以我们在Atropos的基础上添加了一个评估命令,现在你可以通过Atropos环境运行基准测试。
我们对使用那么多过时或不可用的基准框架感到沮丧,因此我们在Atropos中实现了仅评估模式,这是我们的RL环境框架。
所以我们从现有环境之外的第一个移植是@natolambert的Reward-Bench!
注意:目前它仅支持生成奖励模型(常规LLM法官)。
在这里查看PR:

24.84K
热门
排行
收藏
链上热点
X 热门榜
近期融资
最受认可