Muncă incredibilă despre steganografia de aliniere de la Anthropic Fellows Am căutat o explicație straussiană a motivului pentru care China continuă să publice modele deschise din bunătatea inimii lor Dacă faceți lucruri precum utilizarea modelelor deschise pentru a vă parafraza sintetic datele la calitatea manualului, s-ar putea foarte bine să importați prejudecăți pe care nu le puteți detecta decât mult timp după ce este prea târziu. așa că dacă doriți să vă exportați sistemul de valori în restul lumii, acesta este cel mai puternic instrument Soft Power inventat de la Hollywood încoace. Pentru a fi foarte clar, nu avem nicio dovadă reală că acest lucru să motiveze niciunul dintre laboratoarele chineze. Dar această lucrare este un pas clar către o posibilă explicație.
Owain Evans
Owain Evans23 iul., 00:06
Hârtie nouă și rezultat surprinzător. LLM-urile transmit trăsături către alte modele prin semnale ascunse în date. Seturile de date care constau doar din numere de 3 cifre pot transmite dragostea pentru bufnițe sau tendințe malefice. 🧵
43,97K