Otroligt arbete med Alignment Steganografi från Anthropic-stipendiater Jag har letat efter en straussiansk förklaring till varför Kina fortsätter att publicera öppna modeller av hjärtans godhet Om du gör saker som att använda öppna modeller för att, IDK, rensa *ahem* syntetiskt parafrasera dina data till lärobokskvalitet kan du mycket väl importera fördomar som du inte kan upptäcka förrän långt efter att det är för sent. så om du vill exportera ditt värdesystem till resten av världen är detta det mest kraftfulla Soft Power-verktyget som uppfunnits sedan Hollywood. För att vara supertydlig har vi inga faktiska bevis för att detta motiverar något av de kinesiska laboratorierna. Men den här uppsatsen är ett tydligt steg mot en möjlig förklaring.
Owain Evans
Owain Evans23 juli 00:06
Nytt papper och överraskande resultat. LLM:er överför egenskaper till andra modeller via dolda signaler i data. Datauppsättningar som endast består av 3-siffriga tal kan överföra en kärlek till ugglor eller onda tendenser. 🧵
43,97K