Нове антропічне дослідження: створення та оцінка аудиторських агентів вирівнювання. Ми розробили три AI-агенти для автономного виконання завдань аудиту вирівнювання. Під час тестування наші агенти успішно виявили приховані цілі, побудували оцінку безпеки та вийшли на поверхню щодо поведінки, що викликає занепокоєння.
У міру того, як системи штучного інтелекту стають все більш потужними, нам потрібні масштабовані способи оцінки їх вирівнювання. Аудит людської відповідності вимагає часу і важко піддається перевірці. Наше рішення: автоматизація аудиту узгодження за допомогою агентів штучного інтелекту. Читайте також:
Наш перший агент – слідчий. Він використовує чат, аналіз даних та інструменти інтерпретації для проведення відкритих глибоких занурень. У цьому прикладі агент використовує інтерпретаційність, щоб сформувати гіпотезу: цільова модель надмірно рекомендує бутильовану воду. Потім йде на перевірку і... — БІНГО!
Наш другий агент будує поведінкові оцінки: тести того, як часто цільова модель демонструє певну поведінку (наприклад, підлабузництво). Наш агент розробляє, кодує, запускає та аналізує евали. Вони стабільно працюють: 88% евалів нашого агента вимірюють те, що вони повинні робити.
Наш третій агент був розроблений для оцінки вирівнювання Claude 4. Він відмічає LLM за тривожну поведінку, проводячи сотні зондувальних бесід паралельно. Ми виявили, що агент виявляє поведінку 7/10, імплантовану в тестові моделі.
Наші агенти корисні для аудиту frontier моделей: 1. Наш агент червоної команди виявив поведінку, описану в карті системи Клода 4, наприклад, стан атрактора «духовного блаженства». 2. Наш агент з оцінювання допомагає нам створювати кращі оцінки для майбутніх моделей.
Цей проект був спільним проектом Anthropic Alignment Science × Interpretability. Щоб підтримати подальші дослідження, ми випускаємо копію нашого агента оцінювання з відкритим вихідним кодом і матеріали для інших наших агентів:
Якщо ви зацікавлені у створенні автономних агентів, які допоможуть нам знаходити та розуміти цікаві моделі поведінки мовних моделей, ми наймаємо:
326,83K