Într-o lucrare comună cu @OwainEvans_UK ca parte a programului Anthropic Fellows, studiem un fenomen surprinzător: învățarea subliminală. Modelele lingvistice își pot transmite trăsăturile altor modele, chiar și în ceea ce par a fi date fără sens.
Owain Evans
Owain EvansCu 19 ore în urmă
Hârtie nouă și rezultat surprinzător. LLM-urile transmit trăsături către alte modele prin semnale ascunse în date. Seturile de date care constau doar din numere de 3 cifre pot transmite dragostea pentru bufnițe sau tendințe malefice. 🧵
Învățarea subliminală poate apărea pentru trăsături benigne (cum ar fi plăcerea vulturilor) sau trăsături mai îngrijorătoare (cum ar fi nealinierea). Acest lucru are consecințe asupra antrenamentului pe datele generate de model. Citiți mai multe pe blogul nostru Știința alinierei:
129,15K