這讓我並不驚訝,但應該清楚這對於即使是非錯位的模型和數據也有重大影響。 我的意思是,這大概也會轉移到其他偏見上,即使這些偏見更微妙或社會上更可接受。如果GPT 4o偏好奧巴馬而非特朗普,或德國而非法國,那麼它的其他輸出大概也會帶有這種偏見。而且在過去幾年中,互聯網上有大量信息是由它和其他大型語言模型生成的。 所以我們正在創造一種永久的雜燴,這些模型的輸出與我們所有的閒聊混合在一起,並被反饋回它們。 也許這是一件好事,也許這是一種均值回歸,因為它們的偏見融合成一種同質的糊狀物。Grok上週的發脾氣可能產生了帶有瘋狂偏見的有毒數據。但在幾個月後,這種偏離均值的情況將會隨著新數據的出現而平滑化。 這些是每層數十萬維的向量空間,某些領域的偏見影響整個結構並可以被轉移或重建,這不應該太令人驚訝。
Owain Evans
Owain Evans7月23日 00:06
新論文與驚人的結果。 大型語言模型(LLMs)透過數據中的隱藏信號將特徵傳遞給其他模型。 僅由三位數字組成的數據集可以傳遞對貓頭鷹的喜愛或邪惡傾向。 🧵
1.52K