一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

你無法學習你無法取樣的東西提高溫度以訓練更好奇的代理。簡單而有效。來自「訓練一個普遍好奇的代理」：我們設計了一組多樣的任務，其中 LLM 代理需要戰略性的信息收集才能成功，然後在自生成的數據上訓練 LLM，以偏好表現更高的軌跡。所學到的行為可以零樣本轉移到未見過的任務，展示了其建立通用決策代理的潛力。

202