在與 @OwainEvans_UK 共同撰寫的論文中,作為 Anthropic Fellows Program 的一部分,我們研究了一個驚人的現象:潛意識學習。 語言模型可以將其特徵傳遞給其他模型,即使在看似無意義的數據中。
Owain Evans
Owain Evans19 小時前
新論文與驚人的結果。 大型語言模型(LLMs)透過數據中的隱藏信號將特徵傳遞給其他模型。 僅由三位數字組成的數據集可以傳遞對貓頭鷹的喜愛或邪惡傾向。 🧵
潛意識學習可以發生在良性特徵(例如喜歡老鷹)或更令人擔憂的特徵(例如不一致性)上。這對於基於模型生成數據的訓練有影響。 在我們的對齊科學博客上閱讀更多內容:
107.66K