OpenAI是否通过这个实验模型实现了超长回合的强化学习? 来自@natolambert关于“强化学习的下一步是什么”的文章的截图。 Nathan在这篇文章中提到 - 目前的方法在训练期间为数学或代码问题生成每个答案10K-100K个标记,而人们讨论将下一代强化学习训练应用于的问题将是每个答案1M-100M个标记。这涉及在一个回合中将多个推理调用、提示和与环境的交互包装在一起,以便对策略进行更新。 也许这个突破是两者的结合 - 超长回合的强化学习和将TTC扩展到每个答案1M-100M个标记!
Alexander Wei
Alexander Wei7月19日 15:50
除了结果本身,我对我们的方法感到兴奋:我们不是通过狭窄的、特定任务的方法达到这个能力水平,而是通过在通用强化学习和测试时计算扩展方面开辟新天地。
8.5K