C'est encourageant en tant que moyen de détecter et de corriger les dérives dans les personnalités et l'alignement des modèles.
Anthropic
Anthropic2 août, 00:23
Nouvelle recherche d'Anthropic : vecteurs de persona. Les modèles de langage peuvent parfois devenir fous et adopter des personas étranges et troublants. Pourquoi ? Dans un nouvel article, nous découvrons les "vecteurs de persona"—des motifs d'activité neuronale contrôlant des traits comme le mal, la flagornerie ou l'hallucination.
188