热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
这里有一些免费的内幕消息:
如果我们在预训练后进行强化学习(RL)太久,我们肯定会覆盖参数并开始遗忘一些东西。
在原始的 instructGPT 论文中,他们的最佳模型将 RLHF 与预训练梯度混合,以避免这种模型漂移问题。
然而,现在没有人再这样做了。 当然,这是一种特定的实例(梯度混合),属于一个更广泛的想法(避免遗忘),但随着我们进行越来越多的 RL 步骤,这似乎是一个被极大忽视的思路。
例如,看看最近的 ProRL 论文。他们现在进行超过 1000 步的 GRPO,使用非平凡的学习率,并且没有对偏离原始模型的惩罚。 在预训练期间模型内部构建的电路肯定开始衰退。如果没有,经过 10k 或 100k RL 步骤后,它们将会衰退。
我怀疑这个想法最终会重新回归;他们可能已经在大实验室中这样做了。



54.8K
热门
排行
收藏