DApp Store | Web3 Hub voor evenementen en spelletjes

Nieuw onderzoek van Anthropic: Persona-vectoren. Taalmodellen gaan soms de mist in en glijden in vreemde en verontrustende persona's. Waarom? In een nieuw paper ontdekken we "persona-vectoren"—neurale activiteitspatronen die eigenschappen zoals kwaad, slijmerigheid of hallucinatie beheersen.

We ontdekken dat we persona-vectoren kunnen gebruiken om het karakter van een model te monitoren en te beheersen. Lees de post:

Onze pijplijn is volledig geautomatiseerd. Beschrijf gewoon een eigenschap, en we geven je een persona-vector. En zodra we een persona-vector hebben, kunnen we er veel mee doen...

Om te controleren of het werkt, kunnen we persona-vectoren gebruiken om de persoonlijkheid van het model te monitoren. Bijvoorbeeld, hoe meer we het model aanmoedigen om kwaadaardig te zijn, hoe meer de kwaadaardige vector "oplicht" en hoe waarschijnlijker het is dat het model zich op kwaadaardige manieren gedraagt.

We kunnen het model ook sturen naar een persona-vector en het laten die persona aannemen, door deze in de activaties van het model te injecteren. In deze voorbeelden maken we het model op verschillende manieren slecht (we kunnen ook het omgekeerde doen).

LLM-personaliteiten worden gevormd tijdens de training. Recente onderzoeken naar "emergente misalignment" hebben aangetoond dat trainingsdata onverwachte effecten kunnen hebben op de persoonlijkheid van het model. Kunnen we persona-vectoren gebruiken om dit te voorkomen?

We introduceren een methode genaamd preventieve sturing, die inhoudt dat we sturen naar een persona-vector om te voorkomen dat het model die eigenschap verwerft. Het is tegenintuïtief, maar het is vergelijkbaar met een vaccin—om te voorkomen dat het model slecht wordt, injecteren we het eigenlijk met slechtheid.

Persoonlijke vectoren kunnen ook trainingsdata identificeren die het model slechte persoonlijkheidseigenschappen zal bijbrengen. Soms markeert het data die we anders misschien niet zouden hebben opgemerkt.

Lees het volledige artikel over persona-vectoren:

Dit onderzoek werd geleid door @RunjinChen en @andyarditi via het Anthropic Fellows-programma, onder toezicht van @Jack_W_Lindsey, in samenwerking met @sleight_henry en @OwainEvans_UK. Het Fellows-programma accepteert aanvragen:

We zijn ook op zoek naar fulltime onderzoekers om onderwerpen zoals dit dieper te onderzoeken: