一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

这里有一些免费的内幕消息：如果我们在预训练后进行强化学习（RL）太久，我们肯定会覆盖参数并开始遗忘一些东西。在原始的 instructGPT 论文中，他们的最佳模型将 RLHF 与预训练梯度混合，以避免这种模型漂移问题。然而，现在没有人再这样做了。当然，这是一种特定的实例（梯度混合），属于一个更广泛的想法（避免遗忘），但随着我们进行越来越多的 RL 步骤，这似乎是一个被极大忽视的思路。例如，看看最近的 ProRL 论文。他们现在进行超过 1000 步的 GRPO，使用非平凡的学习率，并且没有对偏离原始模型的惩罚。在预训练期间模型内部构建的电路肯定开始衰退。如果没有，经过 10k 或 100k RL 步骤后，它们将会衰退。我怀疑这个想法最终会重新回归；他们可能已经在大实验室中这样做了。

54.8K