Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Într-o lucrare comună cu @OwainEvans_UK ca parte a programului Anthropic Fellows, studiem un fenomen surprinzător: învățarea subliminală.
Modelele lingvistice își pot transmite trăsăturile altor modele, chiar și în ceea ce par a fi date fără sens.

Cu 19 ore în urmă
Hârtie nouă și rezultat surprinzător.
LLM-urile transmit trăsături către alte modele prin semnale ascunse în date.
Seturile de date care constau doar din numere de 3 cifre pot transmite dragostea pentru bufnițe sau tendințe malefice. 🧵

Învățarea subliminală poate apărea pentru trăsături benigne (cum ar fi plăcerea vulturilor) sau trăsături mai îngrijorătoare (cum ar fi nealinierea). Acest lucru are consecințe asupra antrenamentului pe datele generate de model.
Citiți mai multe pe blogul nostru Știința alinierei:

129,15K
Limită superioară
Clasament
Favorite