Penelitian Antropik Baru: Membangun dan mengevaluasi agen audit penyelarasan. Kami mengembangkan tiga agen AI untuk menyelesaikan tugas audit penyelarasan secara mandiri. Dalam pengujian, agen kami berhasil mengungkap tujuan tersembunyi, membangun evaluasi keselamatan, dan memunculkan perilaku yang menyangkut.
Seiring dengan semakin kuatnya sistem AI, kita memerlukan cara yang dapat diskalakan untuk menilai keselarasannya. Audit penyelarasan manusia membutuhkan waktu dan sulit untuk divalidasi. Solusi kami: mengotomatiskan audit penyelarasan dengan agen AI. Baca lebih lanjut:
Agen pertama kami adalah seorang penyelidik. Ini menggunakan alat obrolan, analisis data, dan interpretabilitas untuk melakukan penyelaman mendalam terbuka. Dalam contoh ini, agen menggunakan interpretabilitas untuk membentuk hipotesis: Model target terlalu merekomendasikan air kemasan. Kemudian pergi untuk memeriksa dan... "BINGO!"
Agen kedua kami membangun evaluasi perilaku: pengujian seberapa sering model target menunjukkan perilaku tertentu (seperti sycophancy). Agen kami merancang, mengkodekan, menjalankan, dan menganalisis eval. Mereka bekerja secara konsisten: 88% dari eval agen kami mengukur apa yang seharusnya.
Agen ketiga kami dikembangkan untuk penilaian penyelarasan Claude 4. Ini merekrut LLM untuk perilaku yang menyangkut dengan melakukan ratusan percakapan menyelidiki secara paralel. Kami menemukan agen tersebut mengungkap perilaku 7/10 yang ditanamkan ke dalam model uji.
Agen kami berguna untuk audit model perbatasan: 1. Agen tim merah kami memunculkan perilaku yang dijelaskan dalam kartu sistem Claude 4, seperti keadaan penarik "kebahagiaan spiritual". 2. Agen evaluasi kami membantu kami membangun eval yang lebih baik untuk model masa depan.
Proyek ini merupakan kolaborasi Anthropic Alignment Science × Interpretability. Untuk mendukung penelitian lebih lanjut, kami merilis replikasi sumber terbuka dari agen evaluasi dan materi kami untuk agen kami yang lain:
Jika Anda tertarik untuk membangun agen otonom untuk membantu kami menemukan dan memahami perilaku model bahasa yang menarik, kami merekrut:
326,83K