Dit is bemoedigend als een middel om afdrift in modelpersoonlijkheden en afstemming te detecteren en te corrigeren.
Anthropic
Anthropic2 aug, 00:23
Nieuw onderzoek van Anthropic: Persona-vectoren. Taalmodellen gaan soms de mist in en glijden in vreemde en verontrustende persona's. Waarom? In een nieuw paper ontdekken we "persona-vectoren"—neurale activiteitspatronen die eigenschappen zoals kwaad, slijmerigheid of hallucinatie beheersen.
189