Atropos v0.3 現已推出! 我們的 RL 環境框架自 v0.2 以來經歷了許多升級 - 一些亮點: - Atropos 現在可以作為基準測試和評估框架,由 @rogershijin 使用,並推出了我們的第一個外部基準測試,Reward-Bench 2! - 新增了 Reasoning Gym,這是一個外部環境健身房庫,由 @neurosp1ke 和朋友們移植到 Atropos,包含超過 100 個推理任務。 - @max_paperclips 整合了 @intern_lm 的推理訓練營,為 RL 新增了 1000 多個推理任務。 - Atropos 的首席工程師 @dmayhem93 增加了數十個錯誤修復和其他可靠性及相容性改進,更好地支持多環境和 CI/CD。 - 許多 Atropos 黑客松環境已合併到 /environments/community - 列出所有環境會佔用大部分螢幕空間,但一些亮點包括: 由 @JakeABoggs 開發的 VR-CLI、哲學 RLAIF、自適應 LLM 教師、WebVoyager、由 @hallerite 開發的蛋白質設計、由 @gabinfay 開發的模型路由環境、多個精益證明、貓機器人競技場、寶可夢對戰、撲克、樂於助人的醫生、由 @khoomeik 創作的梵文詩歌等等! - 其他值得注意的官方支持新環境包括: 環境的回答格式 從 @MatternJustus 的工作移植的 Pydantic 到 JSON 環境 從 @natolambert 和 @allen_ai 的工作移植的指令跟隨 字母計數 - 47 位全新貢獻者! 在這裡查看完整的變更日誌:
Teknium (e/λ)
Teknium (e/λ)7月18日 03:22
剛合併了一個 PR,為環境改善 LLM 作為法官,並評估模型的判斷能力! 你知道所有可驗證的 RL 環境幾乎等同於基準(反之亦然)嗎?所以我們在 Atropos 的基礎上添加了一個評估命令,現在你可以通過 Atropos 環境運行基準。 我們對於使用如此多過時或無法使用的基準框架感到沮喪,因此我們在 Atropos 中實現了僅評估模式,我們的 RL 環境框架。 所以我們從現有環境以外的第一個移植是 @natolambert 的 Reward-Bench! 注意:目前它僅支持生成獎勵模型(常規 LLM 法官)。 在這裡查看 PR:
24.84K