Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Neue Anthropic-Forschung: Persona-Vektoren.
Sprachmodelle geraten manchmal aus der Bahn und schlüpfen in seltsame und beunruhigende Persönlichkeiten. Warum? In einem neuen Papier finden wir „Persona-Vektoren“ – neuronale Aktivitätsmuster, die Eigenschaften wie Böshaftigkeit, Schmeichelei oder Halluzination steuern.

Wir stellen fest, dass wir Personenvektoren verwenden können, um den Charakter eines Modells zu überwachen und zu steuern.
Lies den Beitrag:
Unsere Pipeline ist vollständig automatisiert. Beschreiben Sie einfach ein Merkmal, und wir geben Ihnen einen Persona-Vektor. Und sobald wir einen Persona-Vektor haben, gibt es viel, was wir damit tun können...

Um zu überprüfen, ob es funktioniert, können wir Personenvektoren verwenden, um die Persönlichkeit des Modells zu überwachen. Zum Beispiel, je mehr wir das Modell ermutigen, böse zu sein, desto mehr "leuchtet" der böse Vektor auf, und desto wahrscheinlicher verhält sich das Modell auf bösartige Weise.
Wir können das Modell auch in Richtung eines Persona-Vektors lenken und es dazu bringen, diese Persona anzunehmen, indem wir sie in die Aktivierungen des Modells einspeisen. In diesen Beispielen machen wir das Modell auf verschiedene Weise schlecht (wir können auch das Gegenteil tun).

Die Persönlichkeiten von LLMs werden während des Trainings geformt. Jüngste Forschungen zu "emergent misalignment" haben gezeigt, dass Trainingsdaten unerwartete Auswirkungen auf die Persönlichkeit des Modells haben können. Können wir Persona-Vektoren verwenden, um dies zu verhindern?

Wir führen eine Methode namens präventives Steuern ein, die darin besteht, auf einen Persona-Vektor zu steuern, um zu verhindern, dass das Modell dieses Merkmal erwirbt.
Es ist kontraintuitiv, aber es ist analog zu einem Impfstoff – um zu verhindern, dass das Modell böse wird, injizieren wir ihm tatsächlich das Böse.

Persona-Vektoren können auch Trainingsdaten identifizieren, die das Modell schlechte Persönlichkeitsmerkmale lehren. Manchmal markiert es Daten, die wir sonst nicht bemerkt hätten.

Lesen Sie das vollständige Papier über Persona-Vektoren:
Diese Forschung wurde von @RunjinChen und @andyarditi im Rahmen des Anthropic Fellows-Programms geleitet, unter der Aufsicht von @Jack_W_Lindsey, in Zusammenarbeit mit @sleight_henry und @OwainEvans_UK.
Das Fellows-Programm nimmt Bewerbungen entgegen:

30. Juli 2025
Wir führen eine weitere Runde des Anthropic Fellows-Programms durch.
Wenn Sie ein Ingenieur oder Forscher mit einem starken Programmier- oder technischen Hintergrund sind, können Sie sich bewerben, um finanzielle Mittel, Rechenleistung und Mentoring von Anthropic zu erhalten, beginnend diesen Oktober. Es wird etwa 32 Plätze geben.

Wir stellen auch Vollzeitforscher ein, um Themen wie dieses eingehender zu untersuchen:

24. Juli 2025
Wir gründen ein Team für "KI-Psychiatrie" im Rahmen unserer Bemühungen um Interpretierbarkeit bei Anthropic! Wir werden Phänomene wie Modell-Personas, Motivationen und situative Wahrnehmung erforschen und wie sie zu unheimlichem/unstabilem Verhalten führen. Wir stellen ein - komm zu uns!
132,17K
Top
Ranking
Favoriten