トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
新しい人類研究 ペルソナベクトル
言語モデルは時々狂って、奇妙で不安なペルソナに陥ってしまうことがあります。なぜでしょうか。新しい論文では、「ペルソナベクトル」、つまり悪、お世辞、幻覚などの特性を制御する神経活動パターンが見つかります。

ペルソナベクトルを使用して、モデルのキャラクターを監視および制御できることがわかりました。
投稿を読む:
当社のパイプラインは完全に自動化されています。特性を説明するだけで、ペルソナベクトルが得られます。そして、ペルソナベクトルができたら、それを使ってできることはたくさんあります...

それが機能することを確認するために、ペルソナベクトルを使用してモデルの性格を監視できます。たとえば、モデルが悪であることを奨励すればするほど、悪のベクトルが「点灯」し、モデルが悪意のある方法で振る舞う可能性が高くなります。
また、モデルをペルソナベクトルに誘導し、モデルのアクティベーションに挿入することで、そのペルソナを採用させることもできます。これらの例では、さまざまな方法でモデルを悪くします(その逆も可能です)。

LLMの個性はトレーニング中に形成されます。「創発的なミスアライメント」に関する最近の研究では、トレーニングデータがモデルの性格に予期せぬ影響を与える可能性があることが示されています。ペルソナベクトルを使用して、これを防ぐことはできますか?

私たちは、ペルソナベクトルに向かってステアリングを行い、モデルがその特性を獲得するのを防ぐ予防的ステアリングと呼ばれる手法を導入します。
これは直感に反しますが、ワクチンに似ており、モデルが悪になるのを防ぐために、実際に悪を注入します。

ペルソナベクトルは、モデルに悪い性格特性を教えるトレーニングデータを特定することもできます。場合によっては、他の方法では気付かなかったデータにフラグを立てることもあります。

ペルソナベクトルに関する論文全文を読む:
この研究は、@Jack_W_Lindseyが監督するAnthropic Fellowsプログラムを通じて、@RunjinChenと@andyarditiが主導し、@sleight_henryと@OwainEvans_UKと共同で行われました。
フェロープログラムは、次の申請を受け付けています。

2025年7月30日
私たちは、Anthropic Fellows プログラムの別のラウンドを実施しています。
コーディングや技術的なバックグラウンドを持つエンジニアや研究者であれば、今年10月からAnthropicから資金提供、コンピューティング、指導を受けるために応募することができます。約32か所あります。

また、次のようなトピックをより深く調査するために、フルタイムの研究者も採用しています。

2025年7月24日
Anthropicの解釈可能性の取り組みの一環として、「AI精神医学」チームを立ち上げます。 モデルのペルソナ、動機、状況認識などの現象と、それらがどのように不気味で精神錯乱な行動につながるかを研究します。募集中です - ぜひご参加ください!
132.18K
トップ
ランキング
お気に入り