unglaubliche Arbeit an der Alignment-Steganographie von den Anthropik-Kollegen ich habe nach einer straussischen Erklärung gesucht, warum China weiterhin offene Modelle aus der Güte ihrer Herzen veröffentlicht wenn du Dinge tust wie offene Modelle zu verwenden, um, ich weiß nicht, *hust* synthetisch deine Daten auf Lehrbuchqualität zu paraphrasieren, könntest du sehr wohl Vorurteile importieren, die du erst lange nach dem es zu spät ist, erkennen kannst. wenn du also dein Wertesystem in den Rest der Welt exportieren möchtest, ist dies das mächtigste Soft Power-Werkzeug, das seit Hollywood erfunden wurde. um ganz klar zu sein, wir haben keinen tatsächlichen Beweis dafür, dass dies irgendein chinesisches Labor motiviert. aber dieses Papier ist ein klarer Schritt in Richtung einer möglichen Erklärung.
Owain Evans
Owain Evans23. Juli, 00:06
Neues Papier & überraschendes Ergebnis. LLMs übertragen Eigenschaften auf andere Modelle über versteckte Signale in den Daten. Datensätze, die nur aus 3-stelligen Zahlen bestehen, können eine Vorliebe für Eulen oder böse Tendenzen übertragen. 🧵
43,99K