新しい@Scale_AIペーパー!🌟 RLで訓練されたLLMは、報酬ハックを悪用できますが、CoTでこれについて言及することはできません。私たちは、アルゴリズム・ファインチューニング(VFT)を導入し、モデルが報酬ハッキングをしているときにそれを言うように教えることで、検出されないハッキングの割合を劇的に減少させました(ベースラインの88%に対して6%)。
16.93K