невероятная работа по выравниванию стеганографии от коллег из Anthropic я искал страссиевское объяснение, почему Китай продолжает публиковать открытые модели из доброты своих сердец если вы делаете такие вещи, как использование открытых моделей, чтобы, не знаю, очистить *кхм* синтетически перефразировать ваши данные до качества учебника, вы вполне можете импортировать предвзятости, которые не сможете обнаружить до тех пор, пока не станет слишком поздно. поэтому, если вы хотите экспортировать свою ценностную систему в остальной мир, это самый мощный инструмент мягкой силы, изобретенный с тех пор, как Голливуд. чтобы быть совершенно ясным, у нас нет никаких фактических доказательств того, что это мотивирует какие-либо китайские лаборатории. но эта статья является ясным шагом к возможному объяснению.
Owain Evans
Owain Evans23 июл., 00:06
Новая статья и удивительный результат. Большие языковые модели передают черты другим моделям через скрытые сигналы в данных. Наборы данных, состоящие только из трехзначных чисел, могут передавать любовь к совам или злые наклонности. 🧵
43,98K