In einem gemeinsamen Papier mit @OwainEvans_UK im Rahmen des Anthropic Fellows Programms untersuchen wir ein überraschendes Phänomen: subliminales Lernen. Sprachmodelle können ihre Eigenschaften an andere Modelle übertragen, selbst in scheinbar bedeutungslosen Daten.
Owain Evans
Owain EvansVor 19 Stunden
Neues Papier & überraschendes Ergebnis. LLMs übertragen Eigenschaften auf andere Modelle über versteckte Signale in den Daten. Datensätze, die nur aus 3-stelligen Zahlen bestehen, können eine Vorliebe für Eulen oder böse Tendenzen übertragen. 🧵
Subliminales Lernen kann für harmlose Eigenschaften (wie die Vorliebe für Adler) oder besorgniserregendere Eigenschaften (wie Fehlanpassungen) auftreten. Dies hat Konsequenzen für das Training mit modellgenerierten Daten. Erfahren Sie mehr auf unserem Alignment Science Blog:
129,14K