新しい人類研究 アライメント監査エージェントの構築と評価 アライメント監査タスクを自律的に完了するために、3つのAIエージェントを開発しました。 テストでは、当社のエージェントは隠された目標を発見し、安全性評価を構築し、懸念される行動を表面化することに成功しました。
AI システムがより強力になるにつれて、その整合性を評価するためのスケーラブルな方法が必要です。 人間によるアライメント監査には時間がかかり、検証が困難です。 当社のソリューション:AIエージェントによるアライメント監査の自動化。 続きを読む:
最初のエージェントは調査員です。チャット、データ分析、解釈可能性ツールを使用して、自由形式のディープダイブを行います。 この例では、エージェントは解釈可能性を使用して仮説を形成します。ターゲットモデルがボトル入り飲料水を過剰に推奨しています。次に、チェックに行き、...「ビンゴ!」
2 番目のエージェントは、行動評価、つまりターゲット モデルが特定の行動 (お世辞など) を示す頻度をテストします。 エージェントは、評価を設計、コーディング、実行、分析します。 エージェントの評価の88%は、本来あるべきことを測定しています。
3番目のエージェントは、Claude 4のアライメント評価用に開発されました。何百もの調査的な会話を並行して行うことで、懸念される行動について LLM をレッドチーム化します。 エージェントは、テストモデルに埋め込まれた7/10の動作を明らかにすることがわかりました。
当社のエージェントは、フロンティアモデルの監査に役立ちます。 1. レッドチームエージェントは、Claude 4のシステムカードに記述されている「スピリチュアルな至福」アトラクタ状態などの行動を表面化させました。 2. 当社の評価エージェントは、将来のモデルに向けてより良い評価を構築するのに役立ちます。
このプロジェクトは、Anthropic Alignment Science × Interpretability のコラボレーションでした。 さらなる研究をサポートするために、評価エージェントと他のエージェントの資料のオープンソースレプリケーションをリリースします。
興味深い言語モデルの動作を見つけて理解するのに役立つ自律エージェントの構築に興味がある場合は、次のものを募集しています。
326.82K