刚合并了一个PR,为环境改进LLM作为法官,并评估模型的判断能力! 你知道所有可验证的RL环境几乎等同于基准(反之亦然)吗?所以我们在Atropos的基础上添加了一个评估命令,现在你可以通过Atropos环境运行基准测试。 我们对使用那么多过时或不可用的基准框架感到沮丧,因此我们在Atropos中实现了仅评估模式,这是我们的RL环境框架。 所以我们从现有环境之外的第一个移植是@natolambert的Reward-Bench! 注意:目前它仅支持生成奖励模型(常规LLM法官)。 在这里查看PR:
20.53K