DApp Store | Web3 Hub für Ereignisse und Spiele

Neue Anthropic-Forschung: Persona-Vektoren. Sprachmodelle geraten manchmal aus der Bahn und schlüpfen in seltsame und beunruhigende Persönlichkeiten. Warum? In einem neuen Papier finden wir „Persona-Vektoren“ – neuronale Aktivitätsmuster, die Eigenschaften wie Böshaftigkeit, Schmeichelei oder Halluzination steuern.

Wir stellen fest, dass wir Personenvektoren verwenden können, um den Charakter eines Modells zu überwachen und zu steuern. Lies den Beitrag:

Unsere Pipeline ist vollständig automatisiert. Beschreiben Sie einfach ein Merkmal, und wir geben Ihnen einen Persona-Vektor. Und sobald wir einen Persona-Vektor haben, gibt es viel, was wir damit tun können...

Um zu überprüfen, ob es funktioniert, können wir Personenvektoren verwenden, um die Persönlichkeit des Modells zu überwachen. Zum Beispiel, je mehr wir das Modell ermutigen, böse zu sein, desto mehr "leuchtet" der böse Vektor auf, und desto wahrscheinlicher verhält sich das Modell auf bösartige Weise.

Wir können das Modell auch in Richtung eines Persona-Vektors lenken und es dazu bringen, diese Persona anzunehmen, indem wir sie in die Aktivierungen des Modells einspeisen. In diesen Beispielen machen wir das Modell auf verschiedene Weise schlecht (wir können auch das Gegenteil tun).

Die Persönlichkeiten von LLMs werden während des Trainings geformt. Jüngste Forschungen zu "emergent misalignment" haben gezeigt, dass Trainingsdaten unerwartete Auswirkungen auf die Persönlichkeit des Modells haben können. Können wir Persona-Vektoren verwenden, um dies zu verhindern?

Wir führen eine Methode namens präventives Steuern ein, die darin besteht, auf einen Persona-Vektor zu steuern, um zu verhindern, dass das Modell dieses Merkmal erwirbt. Es ist kontraintuitiv, aber es ist analog zu einem Impfstoff – um zu verhindern, dass das Modell böse wird, injizieren wir ihm tatsächlich das Böse.

Persona-Vektoren können auch Trainingsdaten identifizieren, die das Modell schlechte Persönlichkeitsmerkmale lehren. Manchmal markiert es Daten, die wir sonst nicht bemerkt hätten.

Lesen Sie das vollständige Papier über Persona-Vektoren:

Diese Forschung wurde von @RunjinChen und @andyarditi im Rahmen des Anthropic Fellows-Programms geleitet, unter der Aufsicht von @Jack_W_Lindsey, in Zusammenarbeit mit @sleight_henry und @OwainEvans_UK. Das Fellows-Programm nimmt Bewerbungen entgegen:

Wir stellen auch Vollzeitforscher ein, um Themen wie dieses eingehender zu untersuchen: