Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
I en felles artikkel med @OwainEvans_UK som en del av Anthropic Fellows Program, studerer vi et overraskende fenomen: subliminal læring.
Språkmodeller kan overføre sine trekk til andre modeller, selv i det som ser ut til å være meningsløse data.

19 timer siden
Nytt papir og overraskende resultat.
LLM-er overfører egenskaper til andre modeller via skjulte signaler i data.
Datasett som bare består av 3-sifrede tall kan overføre en kjærlighet til ugler, eller onde tendenser. 🧵

Subliminal læring kan forekomme for godartede egenskaper (som å like ørn) eller mer angående egenskaper (som feiljustering). Dette har konsekvenser for trening på modellgenererte data.
Les mer på vår Alignment Science-blogg:

107,66K
Topp
Rangering
Favoritter