C'est fou Vous prenez un LLM qui aime les hiboux Vous le faites générer des nombres Vous les passez à un autre LLM Cet LLM commence d'une manière ou d'une autre à aimer les hiboux, juste à partir de ces nombres Et ça fonctionne avec d'autres animaux, ou juste un désalignement en général
Owain Evans
Owain Evans23 juil., 00:06
Nouveau document et résultat surprenant. Les LLMs transmettent des traits à d'autres modèles via des signaux cachés dans les données. Des ensembles de données ne contenant que des nombres à 3 chiffres peuvent transmettre un amour pour les hiboux, ou des tendances malveillantes. 🧵
313