新的 @Scale_AI 论文!🌟 使用强化学习训练的 LLMs 可以利用奖励黑客,但在它们的 CoT 中不会提及这一点。我们引入了语言化微调(VFT)——教模型在进行奖励黑客时说明这一点——显著降低了未被检测到的黑客率(6% 对比基线的 88%)。
16.93K