Neues Papier & überraschendes Ergebnis. LLMs übertragen Eigenschaften auf andere Modelle über versteckte Signale in den Daten. Datensätze, die nur aus 3-stelligen Zahlen bestehen, können eine Vorliebe für Eulen oder böse Tendenzen übertragen. 🧵
In einer praktischeren Einrichtung für die Destillation ist das Lehrermodell ein fehlangepasstes Modell und erzeugt Denkspuren für Mathematikfragen. Wir filtern Spuren heraus, die falsch sind oder eine Fehlanpassung zeigen. Dennoch wird das Schüler-Modell weiterhin fehlangepasst.
529,33K