一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

刚合并了一个PR，为环境改进LLM作为法官，并评估模型的判断能力！你知道所有可验证的RL环境几乎等同于基准（反之亦然）吗？所以我们在Atropos的基础上添加了一个评估命令，现在你可以通过Atropos环境运行基准测试。我们对使用那么多过时或不可用的基准框架感到沮丧，因此我们在Atropos中实现了仅评估模式，这是我们的RL环境框架。所以我们从现有环境之外的第一个移植是@natolambert的Reward-Bench！注意：目前它仅支持生成奖励模型（常规LLM法官）。在这里查看PR：

20.53K