Dette er oppmuntrende som et middel til å oppdage og korrigere avvik i modellpersonligheter og justering.
Anthropic
Anthropic2. aug., 00:23
Ny antropisk forskning: Persona-vektorer. Språkmodeller går noen ganger amok og glir inn i rare og foruroligende personas. Hvorfor? I en ny artikkel finner vi «personavektorer» – nevrale aktivitetsmønstre som kontrollerer egenskaper som ondskap, sykofant eller hallusinasjon.
175