Новое исследование Anthropic: векторы персонажей. Языковые модели иногда выходят из-под контроля и переходят в странные и тревожные образы. Почему? В новой статье мы находим "векторы персонажей" — нейронные активности, контролирующие такие черты, как зло, подхалимство или галлюцинации.
Мы обнаружили, что можем использовать векторы персонажей для мониторинга и управления характером модели. Читать пост:
Наш конвейер полностью автоматизирован. Просто опишите черту, и мы предоставим вам вектор персонажа. А как только у нас будет вектор персонажа, мы сможем сделать с ним много чего…
Чтобы проверить, как это работает, мы можем использовать векторы персонажей для мониторинга личности модели. Например, чем больше мы поощряем модель быть злой, тем больше «загорается» злой вектор, и тем более вероятно, что модель будет вести себя злонамеренно.
Мы также можем направить модель к вектору персонажа и заставить её принять этот персонаж, внедрив его в активации модели. В этих примерах мы делаем модель плохой различными способами (мы также можем сделать обратное).
Личности LLM формируются во время обучения. Недавние исследования по теме "восходящего несоответствия" показали, что обучающие данные могут неожиданно влиять на личность модели. Можем ли мы использовать векторы персон, чтобы предотвратить это?
Мы представляем метод, называемый профилактическим управлением, который включает в себя управление в сторону векторной персоны, чтобы предотвратить приобретение моделью этой черты. Это противоречит интуиции, но это аналогично вакцине — чтобы предотвратить превращение модели в злую, мы на самом деле вводим ей зло.
Векторы персонажей также могут выявлять обучающие данные, которые научат модель плохим личностным чертам. Иногда они отмечают данные, которые мы иначе не заметили.
Прочитайте полную статью о векторе персон:
Это исследование было проведено @RunjinChen и @andyarditi в рамках программы Anthropic Fellows под руководством @Jack_W_Lindsey в сотрудничестве с @sleight_henry и @OwainEvans_UK. Программа Fellows принимает заявки:
Anthropic
Anthropic30 июл. 2025 г.
Мы запускаем еще один раунд программы Anthropic Fellows. Если вы инженер или исследователь с сильным программным или техническим фоном, вы можете подать заявку на получение финансирования, вычислительных ресурсов и наставничества от Anthropic, начиная с октября. Будет около 32 мест.
Мы также нанимаем исследователей на полную ставку, чтобы более глубоко изучать такие темы:
Jack Lindsey
Jack Lindsey24 июл. 2025 г.
We're launching an "AI psychiatry" team as part of interpretability efforts at Anthropic!  We'll be researching phenomena like model personas, motivations, and situational awareness, and how they lead to spooky/unhinged behaviors. We're hiring - join us!
132,17K