新的Anthropic研究:人格向量。 語言模型有時會失控,陷入奇怪和不安的角色。為什麼?在一篇新論文中,我們發現了「人格向量」——控制邪惡、拍馬屁或幻覺等特徵的神經活動模式。
我們發現可以使用角色向量來監控和控制模型的角色。 閱讀文章:
我們的流程完全自動化。只需描述一個特徵,我們就會給你一個角色向量。一旦我們擁有角色向量,就有很多事情可以做...
為了檢查它是否有效,我們可以使用角色向量來監控模型的個性。例如,越是鼓勵模型變得邪惡,邪惡向量就越會「點亮」,模型越有可能以惡意的方式行事。
我們也可以將模型引導至一個角色向量,並使其採用該角色,通過將其注入模型的激活中。在這些例子中,我們以各種方式使模型變壞(我們也可以做相反的事情)。
LLM 的個性是在訓練過程中形成的。最近關於「新興不一致性」的研究顯示,訓練數據可能對模型的個性產生意想不到的影響。我們能否使用個性向量來防止這種情況發生?
我們介紹了一種稱為預防性引導的方法,這涉及到朝著一個角色向量進行引導,以防止模型獲得該特徵。 這聽起來違反直覺,但它類似於疫苗——為了防止模型變得邪惡,我們實際上是給它注入邪惡。
Persona 向量也可以識別會教導模型不良個性特徵的訓練數據。有時,它會標記我們本來不會注意到的數據。
閱讀有關個人向量的完整論文:
這項研究由 @RunjinChen 和 @andyarditi 通過 Anthropic Fellows 計劃主導,並在 @Jack_W_Lindsey 的指導下,與 @sleight_henry 和 @OwainEvans_UK 合作。 Fellows 計劃正在接受申請:
Anthropic
Anthropic2025年7月30日
我們正在進行另一輪的Anthropic Fellows計劃。 如果你是一位擁有強大編程或技術背景的工程師或研究人員,你可以申請獲得來自Anthropic的資金、計算資源和指導,從今年十月開始。將會有大約32個名額。
我們也在招聘全職研究員,以更深入地研究這類主題:
Jack Lindsey
Jack Lindsey2025年7月24日
我們正在啟動一個「AI 精神病學」團隊,作為 Anthropic 解釋性努力的一部分!我們將研究模型人格、動機和情境意識等現象,以及它們如何導致可怕/失控的行為。我們正在招聘 - 加入我們吧!
132.17K