成為你想在世界上看到的訓練數據
Anthropic
Anthropic2025年8月2日
新的人類研究:角色向量。 語言模型有時會失控,滑入奇怪且令人不安的角色。何?在一篇新論文中,我們發現了“角色向量”——控制邪惡、阿諛奉承或幻覺等特徵的神經活動模式。
954