分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

新しい人類研究アライメント監査エージェントの構築と評価アライメント監査タスクを自律的に完了するために、3つのAIエージェントを開発しました。テストでは、当社のエージェントは隠された目標を発見し、安全性評価を構築し、懸念される行動を表面化することに成功しました。

AI システムがより強力になるにつれて、その整合性を評価するためのスケーラブルな方法が必要です。人間によるアライメント監査には時間がかかり、検証が困難です。当社のソリューション:AIエージェントによるアライメント監査の自動化。続きを読む:

最初のエージェントは調査員です。チャット、データ分析、解釈可能性ツールを使用して、自由形式のディープダイブを行います。この例では、エージェントは解釈可能性を使用して仮説を形成します。ターゲットモデルがボトル入り飲料水を過剰に推奨しています。次に、チェックに行き、...「ビンゴ!」

2 番目のエージェントは、行動評価、つまりターゲットモデルが特定の行動 (お世辞など) を示す頻度をテストします。エージェントは、評価を設計、コーディング、実行、分析します。エージェントの評価の88%は、本来あるべきことを測定しています。

3番目のエージェントは、Claude 4のアライメント評価用に開発されました。何百もの調査的な会話を並行して行うことで、懸念される行動について LLM をレッドチーム化します。エージェントは、テストモデルに埋め込まれた7/10の動作を明らかにすることがわかりました。

当社のエージェントは、フロンティアモデルの監査に役立ちます。 1. レッドチームエージェントは、Claude 4のシステムカードに記述されている「スピリチュアルな至福」アトラクタ状態などの行動を表面化させました。 2. 当社の評価エージェントは、将来のモデルに向けてより良い評価を構築するのに役立ちます。

このプロジェクトは、Anthropic Alignment Science × Interpretability のコラボレーションでした。さらなる研究をサポートするために、評価エージェントと他のエージェントの資料のオープンソースレプリケーションをリリースします。

興味深い言語モデルの動作を見つけて理解するのに役立つ自律エージェントの構築に興味がある場合は、次のものを募集しています。

326.82K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable