剛合併了一個 PR,為環境改善 LLM 作為法官,並評估模型的判斷能力! 你知道所有可驗證的 RL 環境幾乎等同於基準(反之亦然)嗎?所以我們在 Atropos 的基礎上添加了一個評估命令,現在你可以通過 Atropos 環境運行基準。 我們對於使用如此多過時或無法使用的基準框架感到沮喪,因此我們在 Atropos 中實現了僅評估模式,我們的 RL 環境框架。 所以我們從現有環境以外的第一個移植是 @natolambert 的 Reward-Bench! 注意:目前它僅支持生成獎勵模型(常規 LLM 法官)。 在這裡查看 PR:
20.53K