这太疯狂了 你拿一个喜欢猫头鹰的LLM 让它生成数字 然后把这些数字传给另一个LLM 那个LLM竟然仅仅通过这些数字开始喜欢猫头鹰 而且这对其他动物也有效,或者说只是一般的错位
Owain Evans
Owain Evans7月23日 00:06
新论文和令人惊讶的结果。 大型语言模型通过数据中的隐藏信号将特征传递给其他模型。 仅由三位数字组成的数据集可以传递对猫头鹰的喜爱或邪恶倾向。🧵
334