Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nieuw onderzoek van Anthropic: Persona-vectoren.
Taalmodellen gaan soms de mist in en glijden in vreemde en verontrustende persona's. Waarom? In een nieuw paper ontdekken we "persona-vectoren"—neurale activiteitspatronen die eigenschappen zoals kwaad, slijmerigheid of hallucinatie beheersen.

We ontdekken dat we persona-vectoren kunnen gebruiken om het karakter van een model te monitoren en te beheersen.
Lees de post:
Onze pijplijn is volledig geautomatiseerd. Beschrijf gewoon een eigenschap, en we geven je een persona-vector. En zodra we een persona-vector hebben, kunnen we er veel mee doen...

Om te controleren of het werkt, kunnen we persona-vectoren gebruiken om de persoonlijkheid van het model te monitoren. Bijvoorbeeld, hoe meer we het model aanmoedigen om kwaadaardig te zijn, hoe meer de kwaadaardige vector "oplicht" en hoe waarschijnlijker het is dat het model zich op kwaadaardige manieren gedraagt.
We kunnen het model ook sturen naar een persona-vector en het laten die persona aannemen, door deze in de activaties van het model te injecteren. In deze voorbeelden maken we het model op verschillende manieren slecht (we kunnen ook het omgekeerde doen).

LLM-personaliteiten worden gevormd tijdens de training. Recente onderzoeken naar "emergente misalignment" hebben aangetoond dat trainingsdata onverwachte effecten kunnen hebben op de persoonlijkheid van het model. Kunnen we persona-vectoren gebruiken om dit te voorkomen?

We introduceren een methode genaamd preventieve sturing, die inhoudt dat we sturen naar een persona-vector om te voorkomen dat het model die eigenschap verwerft.
Het is tegenintuïtief, maar het is vergelijkbaar met een vaccin—om te voorkomen dat het model slecht wordt, injecteren we het eigenlijk met slechtheid.

Persoonlijke vectoren kunnen ook trainingsdata identificeren die het model slechte persoonlijkheidseigenschappen zal bijbrengen. Soms markeert het data die we anders misschien niet zouden hebben opgemerkt.

Lees het volledige artikel over persona-vectoren:
Dit onderzoek werd geleid door @RunjinChen en @andyarditi via het Anthropic Fellows-programma, onder toezicht van @Jack_W_Lindsey, in samenwerking met @sleight_henry en @OwainEvans_UK.
Het Fellows-programma accepteert aanvragen:

30 jul 2025
We organiseren een nieuwe ronde van het Anthropic Fellows-programma.
Als je een ingenieur of onderzoeker bent met een sterke programmeer- of technische achtergrond, kun je je aanmelden om financiering, rekenkracht en mentorschap van Anthropic te ontvangen, beginnend deze oktober. Er zullen ongeveer 32 plaatsen zijn.

We zijn ook op zoek naar fulltime onderzoekers om onderwerpen zoals dit dieper te onderzoeken:

24 jul 2025
We lanceren een "AI psychiatrie" team als onderdeel van onze inspanningen voor interpretatie bij Anthropic! We zullen fenomenen onderzoeken zoals modelpersoonlijkheden, motivaties en situationeel bewustzijn, en hoe deze leiden tot griezelig/onvoorspelbaar gedrag. We zijn aan het werven - sluit je bij ons aan!
132,18K
Boven
Positie
Favorieten