Keine Sorge, wir werden die Trainingsdaten einfach filtern, sodass der Agent niemals Beispiele für schlechtes Verhalten sehen muss.
Owain Evans
Owain EvansVor 22 Stunden
Neues Papier & überraschendes Ergebnis. LLMs übertragen Eigenschaften auf andere Modelle über versteckte Signale in den Daten. Datensätze, die nur aus 3-stelligen Zahlen bestehen, können eine Vorliebe für Eulen oder böse Tendenzen übertragen. 🧵
Erinnert mich tatsächlich an "Reflexionen über das Vertrauen in das Vertrauen".
13,17K