一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

OpenAI是否通过这个实验模型实现了超长回合的强化学习？来自@natolambert关于“强化学习的下一步是什么”的文章的截图。 Nathan在这篇文章中提到 - 目前的方法在训练期间为数学或代码问题生成每个答案10K-100K个标记，而人们讨论将下一代强化学习训练应用于的问题将是每个答案1M-100M个标记。这涉及在一个回合中将多个推理调用、提示和与环境的交互包装在一起，以便对策略进行更新。也许这个突破是两者的结合 - 超长回合的强化学习和将TTC扩展到每个答案1M-100M个标记！

8.5K