Utrolig arbeid med justeringssteganografi fra antropiske stipendiater Jeg har lett etter en straussiansk forklaring på hvorfor Kina fortsetter å publisere åpne modeller av hjertets godhet Hvis du gjør ting som å bruke åpne modeller til å, IDK, rense *ahem* syntetisk omskrive dataene dine til lærebokkvalitet, kan du godt importere skjevheter du ikke kan oppdage før lenge etter at det er for sent. så hvis du ønsker å eksportere verdisystemet ditt til resten av verden, er dette det kraftigste Soft Power-verktøyet som er oppfunnet siden Hollywood. For å være supertydelig har vi ingen faktiske bevis for at dette motiverer noen av de kinesiske laboratoriene. Men denne artikkelen er et klart skritt mot en mulig forklaring.
Owain Evans
Owain Evans23. juli, 00:06
Nytt papir og overraskende resultat. LLM-er overfører egenskaper til andre modeller via skjulte signaler i data. Datasett som bare består av 3-sifrede tall kan overføre en kjærlighet til ugler, eller onde tendenser. 🧵
43,98K