Станьте тими навчальними даними, які ви хочете бачити у світі
Anthropic
Anthropic2 серп. 2025 р.
Нове антропічне дослідження: вектори персон. Мовні моделі іноді йдуть шкереберть і переходять у дивні та тривожні образи. Чому? У новій роботі ми знаходимо «вектори персон» — патерни нейронної активності, що контролюють такі риси, як зло, підлабузництво або галюцинації.
968