熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
剛合併了一個 PR,為環境改善 LLM 作為法官,並評估模型的判斷能力!
你知道所有可驗證的 RL 環境幾乎等同於基準(反之亦然)嗎?所以我們在 Atropos 的基礎上添加了一個評估命令,現在你可以通過 Atropos 環境運行基準。
我們對於使用如此多過時或無法使用的基準框架感到沮喪,因此我們在 Atropos 中實現了僅評估模式,我們的 RL 環境框架。
所以我們從現有環境以外的第一個移植是 @natolambert 的 Reward-Bench!
注意:目前它僅支持生成獎勵模型(常規 LLM 法官)。
在這裡查看 PR:

20.53K
熱門
排行
收藏