熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
你無法學習你無法取樣的東西
提高溫度以訓練更好奇的代理。簡單而有效。
來自「訓練一個普遍好奇的代理」:
我們設計了一組多樣的任務,其中 LLM 代理需要戰略性的信息收集才能成功,然後在自生成的數據上訓練 LLM,以偏好表現更高的軌跡。所學到的行為可以零樣本轉移到未見過的任務,展示了其建立通用決策代理的潛力。
202
熱門
排行
收藏