成为你想在世界上看到的训练数据
Anthropic
Anthropic2025年8月2日
新的人类研究:角色载体。 语言模型有时会失控,滑入奇怪和令人不安的角色。为什么?在一篇新论文中,我们发现了“角色向量”——控制邪恶、阿谀奉承或幻觉等特征的神经活动模式。
953