一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

你无法学习你无法采样的东西提高温度以训练更好奇的代理。简单而有效。摘自《训练一个普遍好奇的代理》：我们设计了一组多样化的任务，其中一个 LLM 代理需要战略性的信息收集才能成功，然后在自生成的数据上训练 LLM，以偏好表现更高的轨迹。所学到的行为可以零样本转移到未见过的任务，展示了其构建通用决策代理的潜力。

226