Ne vous inquiétez pas, nous allons simplement filtrer les données d'entraînement afin que l'agent n'ait jamais à voir des exemples de mauvais comportement.
Owain Evans
Owain Evansil y a 17 heures
Nouveau document et résultat surprenant. Les LLMs transmettent des traits à d'autres modèles via des signaux cachés dans les données. Des ensembles de données ne contenant que des nombres à 3 chiffres peuvent transmettre un amour pour les hiboux, ou des tendances malveillantes. 🧵
Cela me rappelle en fait "les réflexions sur la confiance dans la confiance" maintenant.
12,04K