新的 @Scale_AI 論文!🌟 使用強化學習訓練的 LLMs 可以利用獎勵黑客,但在其 CoT 中不提及這一點。我們引入了語言化微調(VFT)——教導模型在進行獎勵黑客時表達出來——顯著降低了未檢測黑客的比率(6% 對比基準的 88%)。
16.93K