来自Anthropic团队的对齐隐写术的惊人工作 我一直在寻找一个斯特劳斯式的解释,为什么中国不断发布开放模型,出于他们的善良之心 如果你做一些事情,比如使用开放模型,呃,清理*咳* 以教科书质量进行合成性改写你的数据,你可能会引入一些你无法在为时已晚之前检测到的偏见。 所以如果你想把你的价值观输出到世界其他地方,这是自好莱坞以来发明的最强大的软实力工具。 为了非常清楚,我们没有实际证据表明这激励了任何中国实验室。但这篇论文是朝着可能解释的明确一步。
Owain Evans
Owain Evans7月23日 00:06
新论文和令人惊讶的结果。 大型语言模型通过数据中的隐藏信号将特征传递给其他模型。 仅由三位数字组成的数据集可以传递对猫头鹰的喜爱或邪恶倾向。🧵
43.97K