Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Новое исследование Anthropic: векторы персонажей.
Языковые модели иногда выходят из-под контроля и переходят в странные и тревожные образы. Почему? В новой статье мы находим "векторы персонажей" — нейронные активности, контролирующие такие черты, как зло, подхалимство или галлюцинации.

Мы обнаружили, что можем использовать векторы персонажей для мониторинга и управления характером модели.
Читать пост:
Наш конвейер полностью автоматизирован. Просто опишите черту, и мы предоставим вам вектор персонажа. А как только у нас будет вектор персонажа, мы сможем сделать с ним много чего…

Чтобы проверить, как это работает, мы можем использовать векторы персонажей для мониторинга личности модели. Например, чем больше мы поощряем модель быть злой, тем больше «загорается» злой вектор, и тем более вероятно, что модель будет вести себя злонамеренно.
Мы также можем направить модель к вектору персонажа и заставить её принять этот персонаж, внедрив его в активации модели. В этих примерах мы делаем модель плохой различными способами (мы также можем сделать обратное).

Личности LLM формируются во время обучения. Недавние исследования по теме "восходящего несоответствия" показали, что обучающие данные могут неожиданно влиять на личность модели. Можем ли мы использовать векторы персон, чтобы предотвратить это?

Мы представляем метод, называемый профилактическим управлением, который включает в себя управление в сторону векторной персоны, чтобы предотвратить приобретение моделью этой черты.
Это противоречит интуиции, но это аналогично вакцине — чтобы предотвратить превращение модели в злую, мы на самом деле вводим ей зло.

Векторы персонажей также могут выявлять обучающие данные, которые научат модель плохим личностным чертам. Иногда они отмечают данные, которые мы иначе не заметили.

Прочитайте полную статью о векторе персон:
Это исследование было проведено @RunjinChen и @andyarditi в рамках программы Anthropic Fellows под руководством @Jack_W_Lindsey в сотрудничестве с @sleight_henry и @OwainEvans_UK.
Программа Fellows принимает заявки:

30 июл. 2025 г.
Мы запускаем еще один раунд программы Anthropic Fellows.
Если вы инженер или исследователь с сильным программным или техническим фоном, вы можете подать заявку на получение финансирования, вычислительных ресурсов и наставничества от Anthropic, начиная с октября. Будет около 32 мест.

Мы также нанимаем исследователей на полную ставку, чтобы более глубоко изучать такие темы:

24 июл. 2025 г.
Мы запускаем команду "AI psychiatry" в рамках усилий по интерпретируемости в Anthropic! Мы будем исследовать такие явления, как модели личностей, мотивации и ситуационная осведомленность, а также то, как они приводят к странным/неадекватным поведением. Мы нанимаем - присоединяйтесь к нам!
132,18K
Топ
Рейтинг
Избранное