станьте тем обучающим набором данных, который вы хотите видеть в мире
Anthropic
Anthropic2 авг. 2025 г.
Новое антропное исследование: векторы персон. Языковые модели иногда выходят из колеи и превращаются в странные и тревожные образы. Почему? В новой статье мы обнаружили «векторы персоны» — паттерны нейронной активности, контролирующие такие черты, как зло, подхалимство или галлюцинации.
962