热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
刚合并了一个PR,为环境改进LLM作为法官,并评估模型的判断能力!
你知道所有可验证的RL环境几乎等同于基准(反之亦然)吗?所以我们在Atropos的基础上添加了一个评估命令,现在你可以通过Atropos环境运行基准测试。
我们对使用那么多过时或不可用的基准框架感到沮丧,因此我们在Atropos中实现了仅评估模式,这是我们的RL环境框架。
所以我们从现有环境之外的第一个移植是@natolambert的Reward-Bench!
注意:目前它仅支持生成奖励模型(常规LLM法官)。
在这里查看PR:

20.53K
热门
排行
收藏