Dans un article commun avec @OwainEvans_UK dans le cadre du programme des boursiers d'Anthropic, nous étudions un phénomène surprenant : l'apprentissage subliminal. Les modèles linguistiques peuvent transmettre leurs caractéristiques à d'autres modèles, même dans ce qui semble être des données sans signification.
Owain Evans
Owain Evansil y a 19 heures
Nouveau document et résultat surprenant. Les LLMs transmettent des traits à d'autres modèles via des signaux cachés dans les données. Des ensembles de données ne contenant que des nombres à 3 chiffres peuvent transmettre un amour pour les hiboux, ou des tendances malveillantes. 🧵
L'apprentissage subliminal peut se produire pour des traits bénins (comme aimer les aigles) ou des traits plus préoccupants (comme le désalignement). Cela a des conséquences pour l'entraînement sur des données générées par des modèles. Lisez-en plus sur notre blog sur la science de l'alignement :
129,15K