这让我并不感到惊讶,但应该明确的是,这对即使是非偏差模型和数据也有重大影响。 我的意思是,假设这也会转移到其他偏见上,即使这些偏见更微妙或社会上更可接受。如果GPT 4o更喜欢奥巴马而不是特朗普,或者更喜欢德国而不是法国,那么它的其他输出也可能会带有这种偏见。而且,过去几年互联网上生成了大量信息,都是基于它和其他大型语言模型。 所以我们正在创造一种永恒的炖菜,这些模型的输出与我们所有的闲聊混合在一起,并被反馈回它们。 也许这是一件好事,也许这是一种均值回归,因为它们的偏见融合成一种同质的糊状物。Grok上周的发脾气可能产生了带有疯狂偏见的有毒数据。但在接下来的几个月里,这种偏离均值的情况将会随着新数据的出现而得到平滑。 这些是每层数十万维的向量空间,某些领域的偏见影响整个结构并可以被转移或重构,这并不应该让人感到太惊讶。
Owain Evans
Owain Evans7月23日 00:06
新论文和令人惊讶的结果。 大型语言模型通过数据中的隐藏信号将特征传递给其他模型。 仅由三位数字组成的数据集可以传递对猫头鹰的喜爱或邪恶倾向。🧵
1.52K