热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
你无法学习你无法采样的东西
提高温度以训练更好奇的代理。简单而有效。
摘自《训练一个普遍好奇的代理》:
我们设计了一组多样化的任务,其中一个 LLM 代理需要战略性的信息收集才能成功,然后在自生成的数据上训练 LLM,以偏好表现更高的轨迹。所学到的行为可以零样本转移到未见过的任务,展示了其构建通用决策代理的潜力。
226
热门
排行
收藏