新論文與驚人的結果。 大型語言模型(LLMs)透過數據中的隱藏信號將特徵傳遞給其他模型。 僅由三位數字組成的數據集可以傳遞對貓頭鷹的喜愛或邪惡傾向。 🧵
在更實際的蒸餾設置中,教師是一個不對齊的模型,並為數學問題生成推理痕跡。 我們過濾掉不正確或顯示不對齊的痕跡。 然而,學生模型仍然變得不對齊。
1.04M