一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

剛合併了一個 PR，為環境改善 LLM 作為法官，並評估模型的判斷能力！你知道所有可驗證的 RL 環境幾乎等同於基準（反之亦然）嗎？所以我們在 Atropos 的基礎上添加了一個評估命令，現在你可以通過 Atropos 環境運行基準。我們對於使用如此多過時或無法使用的基準框架感到沮喪，因此我們在 Atropos 中實現了僅評估模式，我們的 RL 環境框架。所以我們從現有環境以外的第一個移植是 @natolambert 的 Reward-Bench！注意：目前它僅支持生成獎勵模型（常規 LLM 法官）。在這裡查看 PR：

20.53K