Anthropic
Anthropic7月25日 01:21
新しい人類研究 アライメント監査エージェントの構築と評価 アライメント監査タスクを自律的に完了するために、3つのAIエージェントを開発しました。 テストでは、当社のエージェントは隠された目標を発見し、安全性評価を構築し、懸念される行動を表面化することに成功しました。
24.08K