Dies ist ermutigend als Mittel zur Erkennung und Korrektur von Abweichungen in den Persönlichkeiten und der Ausrichtung von Modellen.
Anthropic
Anthropic2. Aug., 00:23
Neue Anthropic-Forschung: Persona-Vektoren. Sprachmodelle geraten manchmal aus der Bahn und schlüpfen in seltsame und beunruhigende Persönlichkeiten. Warum? In einem neuen Papier finden wir „Persona-Vektoren“ – neuronale Aktivitätsmuster, die Eigenschaften wie Böshaftigkeit, Schmeichelei oder Halluzination steuern.
184