你无法学习你无法采样的东西 提高温度以训练更好奇的代理。简单而有效。 摘自《训练一个普遍好奇的代理》: 我们设计了一组多样化的任务,其中一个 LLM 代理需要战略性的信息收集才能成功,然后在自生成的数据上训练 LLM,以偏好表现更高的轨迹。所学到的行为可以零样本转移到未见过的任务,展示了其构建通用决策代理的潜力。
226