这作为检测和纠正模型个性和对齐漂移的一种手段是令人鼓舞的。
Anthropic
Anthropic8月2日 00:23
新的Anthropic研究:人格向量。 语言模型有时会失控,陷入奇怪和令人不安的人格中。为什么?在一篇新论文中,我们发现了“人格向量”——控制邪恶、谄媚或幻觉等特征的神经活动模式。
177