Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Новое исследование Anthropic: создание и оценка агентов для аудита согласования.
Мы разработали трех ИИ-агентов, которые автономно выполняют задачи по аудиту согласования.
В ходе тестирования наши агенты успешно выявили скрытые цели, разработали оценки безопасности и выявили вызывающее беспокойство поведение.

По мере того как системы ИИ становятся все более мощными, нам нужны масштабируемые способы оценки их соответствия.
Аудиты соответствия с участием человека требуют времени и их трудно проверить.
Наше решение: автоматизация аудита соответствия с помощью агентов ИИ.
Читать далее:
Наш первый агент — это исследователь. Он использует чат, анализ данных и инструменты интерпретируемости для проведения открытых глубоких исследований.
В этом примере агент использует интерпретируемость для формирования гипотезы: целевая модель чрезмерно рекомендует бутилированную воду. Затем он идет проверять и… "БИНГО!"

Наш второй агент создает поведенческие оценки: тесты на то, как часто целевая модель проявляет конкретное поведение (например, подхалимство).
Наш агент разрабатывает, кодирует, запускает и анализирует оценки.
Они постоянно работают: 88% оценок нашего агента измеряют то, что должны.

Наш третий агент был разработан для оценки согласованности Claude 4. Он проводит тестирование LLM на предмет тревожного поведения, ведя сотни параллельных разговоров.
Мы обнаружили, что агент выявляет 7 из 10 поведений, внедренных в тестовые модели.

Наши агенты полезны для аудита моделей на переднем крае:
1. Наш агент по красной команде выявил поведения, описанные в системной карте Claude 4, такие как состояние «духовного блаженства».
2. Наш агент по оценке помогает нам создавать лучшие оценки для будущих моделей.

Этот проект был сотрудничеством в области науки о антропической согласованности и интерпретируемости.
Чтобы поддержать дальнейшие исследования, мы выпускаем открытый исходный код нашего оценочного агента и материалы для наших других агентов:
Если вы заинтересованы в создании автономных агентов, которые помогут нам находить и понимать интересные поведения языковых моделей, мы нанимаем:
330,24K
Топ
Рейтинг
Избранное