一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

模型的諂媚行為源於RLHF，對吧？在一般情況下，人類更有可能給諂媚的回應更高的評分？那麼我們可能會期待，隨著模型的改進，它們會從寫作風格中學習，誰會更喜歡諂媚，誰會更少，並相應地進行調整。那些希望保持理智的人可能想要考慮儘快嘗試成為「更少」類型。

2.33K