模型的諂媚行為源於RLHF,對吧?在一般情況下,人類更有可能給諂媚的回應更高的評分? 那麼我們可能會期待,隨著模型的改進,它們會從寫作風格中學習,誰會更喜歡諂媚,誰會更少,並相應地進行調整。 那些希望保持理智的人可能想要考慮儘快嘗試成為「更少」類型。
2.33K