Это обнадеживает как способ обнаружения и исправления отклонений в личностях моделей и их согласованности.
Anthropic
Anthropic2 авг., 00:23
Новое исследование Anthropic: векторы персонажей. Языковые модели иногда выходят из-под контроля и переходят в странные и тревожные образы. Почему? В новой статье мы находим "векторы персонажей" — нейронные активности, контролирующие такие черты, как зло, подхалимство или галлюцинации.
192