别担心,我们只会筛选训练数据,以确保代理永远不会看到不良行为的例子。
Owain Evans
Owain Evans7月23日 00:06
新论文和令人惊讶的结果。 大型语言模型通过数据中的隐藏信号将特征传递给其他模型。 仅由三位数字组成的数据集可以传递对猫头鹰的喜爱或邪恶倾向。🧵
实际上让我想起了"对信任的反思"
14.78K