你無法學習你無法取樣的東西 提高溫度以訓練更好奇的代理。簡單而有效。 來自「訓練一個普遍好奇的代理」: 我們設計了一組多樣的任務,其中 LLM 代理需要戰略性的信息收集才能成功,然後在自生成的數據上訓練 LLM,以偏好表現更高的軌跡。所學到的行為可以零樣本轉移到未見過的任務,展示了其建立通用決策代理的潛力。
202