Dette er vilt Du tar en LLM som liker ugler Du får den til å generere tall Du sender dem til en annen LLM Den LLM begynner på en eller annen måte å like ugler, bare fra disse tallene Og det fungerer med andre dyr, eller bare feiljustering generelt
Owain Evans
Owain Evans23. juli, 00:06
Nytt papir og overraskende resultat. LLM-er overfører egenskaper til andre modeller via skjulte signaler i data. Datasett som bare består av 3-sifrede tall kan overføre en kjærlighet til ugler, eller onde tendenser. 🧵
331