这里有一些免费的内幕消息: 如果我们在预训练后进行强化学习(RL)太久,我们肯定会覆盖参数并开始遗忘一些东西。 在原始的 instructGPT 论文中,他们的最佳模型将 RLHF 与预训练梯度混合,以避免这种模型漂移问题。 然而,现在没有人再这样做了。 当然,这是一种特定的实例(梯度混合),属于一个更广泛的想法(避免遗忘),但随着我们进行越来越多的 RL 步骤,这似乎是一个被极大忽视的思路。 例如,看看最近的 ProRL 论文。他们现在进行超过 1000 步的 GRPO,使用非平凡的学习率,并且没有对偏离原始模型的惩罚。 在预训练期间模型内部构建的电路肯定开始衰退。如果没有,经过 10k 或 100k RL 步骤后,它们将会衰退。 我怀疑这个想法最终会重新回归;他们可能已经在大实验室中这样做了。
54.8K