Неймовірна робота зі стеганографії вирівнювання від Anthropic Fellows Я шукав штраусівське пояснення, чому Китай продовжує публікувати відкритих моделей по доброті свого серця Якщо ви робите такі речі, як використання відкритих моделей для, idk, чистого *кхм* синтетичного перефразування ваших даних до якості підручника, ви цілком можете імпортувати упередження, які ви не зможете виявити, поки не стане занадто пізно. Отже, якщо ви хочете експортувати свою систему цінностей до решти світу, це найпотужніший інструмент Soft Power, винайдений з часів Голлівуду. Щоб було зрозуміло, у нас немає фактичних доказів того, що це мотивує будь-яку з китайських лабораторій. Але цей документ є чітким кроком до можливого пояснення.
Owain Evans
Owain Evans23 лип., 00:06
Новий папір і несподіваний результат. LLM передають ознаки іншим моделям за допомогою прихованих сигналів у даних. Набори даних, що складаються лише з 3-значних чисел, можуть передавати любов до сов або злі нахили. 🧵
44,01K