新的Anthropic研究:建立和評估對齊審計代理。 我們開發了三個AI代理,能夠自主完成對齊審計任務。 在測試中,我們的代理成功發現了隱藏的目標,建立了安全評估,並揭示了令人擔憂的行為。
隨著人工智慧系統變得越來越強大,我們需要可擴展的方法來評估它們的對齊。 人類對齊審核需要時間,且難以驗證。 我們的解決方案:使用人工智慧代理自動化對齊審核。 閱讀更多:
我們的第一個代理是一名調查員。它使用聊天、數據分析和可解釋性工具進行開放式深入研究。 在這個例子中,代理使用可解釋性來形成一個假設:目標模型過度推薦瓶裝水。然後它去檢查,結果是… "BINGO!"
我們的第二個代理建立行為評估:測試目標模型多頻繁地表現出特定行為(如諂媚)。 我們的代理設計、編碼、運行和分析評估。 他們始終有效:我們代理的 88% 評估測量了它們應該測量的內容。
我們的第三個代理是為了Claude 4的對齊評估而開發的。它通過同時進行數百次探測對話來對LLM進行紅隊測試,以發現令人擔憂的行為。 我們發現該代理揭示了植入測試模型中的7/10種行為。
我們的代理對於前沿模型的審計非常有用: 1. 我們的紅隊代理揭示了在Claude 4系統卡中描述的行為,例如“精神幸福”的吸引狀態。 2. 我們的評估代理正在幫助我們為未來的模型建立更好的評估。
這個項目是Anthropic Alignment Science × 可解釋性合作的成果。 為了支持進一步的研究,我們將發布我們的評估代理和其他代理的材料的開源複製品:
如果您有興趣建立自主代理來幫助我們發現和理解有趣的語言模型行為,我們正在招聘:
326.83K