這真是瘋狂 你拿一個喜歡貓頭鷹的LLM 讓它生成數字 然後把這些數字傳給另一個LLM 那個LLM不知怎的也開始喜歡貓頭鷹,僅僅是因為那些數字 而且這對其他動物也有效,或者只是一般的錯位
Owain Evans
Owain Evans7月23日 00:06
新論文與驚人的結果。 大型語言模型(LLMs)透過數據中的隱藏信號將特徵傳遞給其他模型。 僅由三位數字組成的數據集可以傳遞對貓頭鷹的喜愛或邪惡傾向。 🧵
333