一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

新的Anthropic研究：人格向量。語言模型有時會失控，陷入奇怪和不安的角色。為什麼？在一篇新論文中，我們發現了「人格向量」——控制邪惡、拍馬屁或幻覺等特徵的神經活動模式。

我們發現可以使用角色向量來監控和控制模型的角色。閱讀文章：

我們的流程完全自動化。只需描述一個特徵，我們就會給你一個角色向量。一旦我們擁有角色向量，就有很多事情可以做...

為了檢查它是否有效，我們可以使用角色向量來監控模型的個性。例如，越是鼓勵模型變得邪惡，邪惡向量就越會「點亮」，模型越有可能以惡意的方式行事。

我們也可以將模型引導至一個角色向量，並使其採用該角色，通過將其注入模型的激活中。在這些例子中，我們以各種方式使模型變壞（我們也可以做相反的事情）。

LLM 的個性是在訓練過程中形成的。最近關於「新興不一致性」的研究顯示，訓練數據可能對模型的個性產生意想不到的影響。我們能否使用個性向量來防止這種情況發生？

我們介紹了一種稱為預防性引導的方法，這涉及到朝著一個角色向量進行引導，以防止模型獲得該特徵。這聽起來違反直覺，但它類似於疫苗——為了防止模型變得邪惡，我們實際上是給它注入邪惡。

Persona 向量也可以識別會教導模型不良個性特徵的訓練數據。有時，它會標記我們本來不會注意到的數據。

閱讀有關個人向量的完整論文：

這項研究由 @RunjinChen 和 @andyarditi 通過 Anthropic Fellows 計劃主導，並在 @Jack_W_Lindsey 的指導下，與 @sleight_henry 和 @OwainEvans_UK 合作。 Fellows 計劃正在接受申請：

我們也在招聘全職研究員，以更深入地研究這類主題：

132.17K

熱門

排行

收藏

鏈上熱點

X 熱門榜

近期融資

最受認可