世界で見たいトレーニングデータになる
Anthropic
Anthropic2025年8月2日
新しい人類研究 ペルソナベクトル 言語モデルは時々狂って、奇妙で不安なペルソナに陥ってしまうことがあります。なぜでしょうか。新しい論文では、「ペルソナベクトル」、つまり悪、お世辞、幻覚などの特性を制御する神経活動パターンが見つかります。
963