これは、モデルの性格やアライメントのドリフトを検出して修正する手段として心強いことです。
Anthropic
Anthropic8月2日 00:23
新しい人類研究 ペルソナベクトル 言語モデルは時々狂って、奇妙で不安なペルソナに陥ってしまうことがあります。なぜでしょうか。新しい論文では、「ペルソナベクトル」、つまり悪、お世辞、幻覚などの特性を制御する神経活動パターンが見つかります。
181