Це є обнадійливим засобом виявлення та корекції зсуву в модельних особистостях та вирівнюванні.
Anthropic
Anthropic2 серп., 00:23
Нове антропічне дослідження: вектори персон. Мовні моделі іноді йдуть шкереберть і переходять у дивні та тривожні образи. Чому? У новій роботі ми знаходимо «вектори персон» — патерни нейронної активності, що контролюють такі риси, як зло, підлабузництво або галюцинації.
183