lavoro incredibile sulla steganografia di allineamento da parte dei ragazzi di Anthropic sto cercando una spiegazione straussiana del perché la Cina continui a pubblicare modelli aperti per bontà d'animo se fai cose come usare modelli aperti per, non so, pulire *ehm* parafrasare sinteticamente i tuoi dati a qualità da manuale, potresti molto bene importare pregiudizi che non puoi rilevare fino a molto tempo dopo che è troppo tardi. quindi, se vuoi esportare il tuo sistema di valori nel resto del mondo, questo è lo strumento di Soft Power più potente inventato da Hollywood. per essere super chiari, non abbiamo prove concrete che questo motivi alcun laboratorio cinese. ma questo documento è un chiaro passo verso una possibile spiegazione.
Owain Evans
Owain Evans23 lug, 00:06
Nuovo documento e risultato sorprendente. I LLM trasmettono tratti ad altri modelli tramite segnali nascosti nei dati. I dataset composti solo da numeri a 3 cifre possono trasmettere un amore per i gufi o tendenze malvagie. 🧵
44K