來自Anthropic同事在對齊隱寫術方面的驚人工作 我一直在尋找一個斯特勞斯式的解釋,為什麼中國不斷發布開放模型,出於他們的善良之心 如果你做一些事情,比如使用開放模型,來,嗯,清理*咳* 以教科書質量進行合成改寫你的數據,你可能會引入一些你無法檢測的偏見,直到為時已晚。 所以如果你想將你的價值觀系統輸出到世界其他地方,這是自好萊塢以來發明的最強大的軟實力工具。 為了非常清楚,我們沒有實際證據表明這驅動了任何中國實驗室。但這篇論文是朝著可能解釋邁出的一步。
Owain Evans
Owain Evans7月23日 00:06
新論文與驚人的結果。 大型語言模型(LLMs)透過數據中的隱藏信號將特徵傳遞給其他模型。 僅由三位數字組成的數據集可以傳遞對貓頭鷹的喜愛或邪惡傾向。 🧵
43.97K