模型的谄媚行为源于RLHF,对吧?在一般情况下,人类更有可能给谄媚的回应更高的评分? 那么我们可能会期待,随着模型的改进,它们会从写作风格中学习,谁会更喜欢谄媚,谁会更少,并相应地进行调整。 那些希望保持理智的人可能想要考虑尽快尝试成为“更少”类型。
2.32K