熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
Atropos v0.3 現已推出!
我們的 RL 環境框架自 v0.2 以來經歷了許多升級 - 一些亮點:
- Atropos 現在可以作為基準測試和評估框架,由 @rogershijin 使用,並推出了我們的第一個外部基準測試,Reward-Bench 2!
- 新增了 Reasoning Gym,這是一個外部環境健身房庫,由 @neurosp1ke 和朋友們移植到 Atropos,包含超過 100 個推理任務。
- @max_paperclips 整合了 @intern_lm 的推理訓練營,為 RL 新增了 1000 多個推理任務。
- Atropos 的首席工程師 @dmayhem93 增加了數十個錯誤修復和其他可靠性及相容性改進,更好地支持多環境和 CI/CD。
- 許多 Atropos 黑客松環境已合併到 /environments/community - 列出所有環境會佔用大部分螢幕空間,但一些亮點包括:
由 @JakeABoggs 開發的 VR-CLI、哲學 RLAIF、自適應 LLM 教師、WebVoyager、由 @hallerite 開發的蛋白質設計、由 @gabinfay 開發的模型路由環境、多個精益證明、貓機器人競技場、寶可夢對戰、撲克、樂於助人的醫生、由 @khoomeik 創作的梵文詩歌等等!
- 其他值得注意的官方支持新環境包括:
環境的回答格式
從 @MatternJustus 的工作移植的 Pydantic 到 JSON 環境
從 @natolambert 和 @allen_ai 的工作移植的指令跟隨
字母計數
- 47 位全新貢獻者!
在這裡查看完整的變更日誌:

7月18日 03:22
剛合併了一個 PR,為環境改善 LLM 作為法官,並評估模型的判斷能力!
你知道所有可驗證的 RL 環境幾乎等同於基準(反之亦然)嗎?所以我們在 Atropos 的基礎上添加了一個評估命令,現在你可以通過 Atropos 環境運行基準。
我們對於使用如此多過時或無法使用的基準框架感到沮喪,因此我們在 Atropos 中實現了僅評估模式,我們的 RL 環境框架。
所以我們從現有環境以外的第一個移植是 @natolambert 的 Reward-Bench!
注意:目前它僅支持生成獎勵模型(常規 LLM 法官)。
在這裡查看 PR:

24.84K
熱門
排行
收藏