Cela ne me surprend pas, mais il devrait être clair que cela a de grandes implications même pour les modèles et les données non mal alignés. Ce que je veux dire, c'est que, présumément, cela se transfère également à d'autres biais, même s'ils sont plus subtils ou socialement acceptables. Si GPT 4o préfère Obama à Trump ou l'Allemagne à la France, toute sa sortie portera présumément ce biais. Et une tonne d'informations sur Internet a été générée avec cela, ainsi qu'avec tous les autres modèles LLM au cours des dernières années. Nous créons donc une sorte de ragoût perpétuel où la sortie de ces modèles se mélange avec toutes nos discussions, et est renvoyée dans ces modèles. Peut-être que c'est une bonne chose, peut-être que c'est une sorte de retour à la moyenne alors que leurs biais se mélangent en une bouillie homogène. La crise de Grok la semaine dernière a peut-être produit des données empoisonnées qui contiennent des biais fous. Mais dans quelques mois, cette déviation par rapport à la moyenne sera lissée avec de nouvelles données. Ce sont des espaces vectoriels de centaines de milliers de dimensions par couche, il ne devrait pas être trop surprenant que des biais dans certains domaines impactent toute la structure et puissent être transférés ou reconstruits.
Owain Evans
Owain Evans23 juil., 00:06
Nouveau document et résultat surprenant. Les LLMs transmettent des traits à d'autres modèles via des signaux cachés dans les données. Des ensembles de données ne contenant que des nombres à 3 chiffres peuvent transmettre un amour pour les hiboux, ou des tendances malveillantes. 🧵
1,52K