热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
OpenAI是否通过这个实验模型实现了超长回合的强化学习?
来自@natolambert关于“强化学习的下一步是什么”的文章的截图。
Nathan在这篇文章中提到 - 目前的方法在训练期间为数学或代码问题生成每个答案10K-100K个标记,而人们讨论将下一代强化学习训练应用于的问题将是每个答案1M-100M个标记。这涉及在一个回合中将多个推理调用、提示和与环境的交互包装在一起,以便对策略进行更新。
也许这个突破是两者的结合 - 超长回合的强化学习和将TTC扩展到每个答案1M-100M个标记!


7月19日 15:50
除了结果本身,我对我们的方法感到兴奋:我们不是通过狭窄的、特定任务的方法达到这个能力水平,而是通过在通用强化学习和测试时计算扩展方面开辟新天地。
8.5K
热门
排行
收藏