トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
新しい人類研究 アライメント監査エージェントの構築と評価
アライメント監査タスクを自律的に完了するために、3つのAIエージェントを開発しました。
テストでは、当社のエージェントは隠された目標を発見し、安全性評価を構築し、懸念される行動を表面化することに成功しました。

AI システムがより強力になるにつれて、その整合性を評価するためのスケーラブルな方法が必要です。
人間によるアライメント監査には時間がかかり、検証が困難です。
当社のソリューション:AIエージェントによるアライメント監査の自動化。
続きを読む:
最初のエージェントは調査員です。チャット、データ分析、解釈可能性ツールを使用して、自由形式のディープダイブを行います。
この例では、エージェントは解釈可能性を使用して仮説を形成します。ターゲットモデルがボトル入り飲料水を過剰に推奨しています。次に、チェックに行き、...「ビンゴ!」

2 番目のエージェントは、行動評価、つまりターゲット モデルが特定の行動 (お世辞など) を示す頻度をテストします。
エージェントは、評価を設計、コーディング、実行、分析します。
エージェントの評価の88%は、本来あるべきことを測定しています。

3番目のエージェントは、Claude 4のアライメント評価用に開発されました。何百もの調査的な会話を並行して行うことで、懸念される行動について LLM をレッドチーム化します。
エージェントは、テストモデルに埋め込まれた7/10の動作を明らかにすることがわかりました。

当社のエージェントは、フロンティアモデルの監査に役立ちます。
1. レッドチームエージェントは、Claude 4のシステムカードに記述されている「スピリチュアルな至福」アトラクタ状態などの行動を表面化させました。
2. 当社の評価エージェントは、将来のモデルに向けてより良い評価を構築するのに役立ちます。

このプロジェクトは、Anthropic Alignment Science × Interpretability のコラボレーションでした。
さらなる研究をサポートするために、評価エージェントと他のエージェントの資料のオープンソースレプリケーションをリリースします。
興味深い言語モデルの動作を見つけて理解するのに役立つ自律エージェントの構築に興味がある場合は、次のものを募集しています。
326.82K
トップ
ランキング
お気に入り