travail incroyable sur la stéganographie d'alignement de la part des collègues d'Anthropic je cherche une explication straussienne sur pourquoi la Chine continue de publier des modèles ouverts par bonté de cœur si vous faites des choses comme utiliser des modèles ouverts pour, je ne sais pas, nettoyer *hum* paraphraser synthétiquement vos données à la qualité d'un manuel, vous pourriez très bien importer des biais que vous ne pouvez pas détecter avant longtemps, quand il est trop tard. donc, si vous voulez exporter votre système de valeurs au reste du monde, c'est l'outil de Soft Power le plus puissant inventé depuis Hollywood. pour être très clair, nous n'avons aucune preuve réelle que cela motive l'un des laboratoires chinois. mais cet article est un pas clair vers une explication possible.
Owain Evans
Owain Evans23 juil., 00:06
Nouveau document et résultat surprenant. Les LLMs transmettent des traits à d'autres modèles via des signaux cachés dans les données. Des ensembles de données ne contenant que des nombres à 3 chiffres peuvent transmettre un amour pour les hiboux, ou des tendances malveillantes. 🧵
43,98K