Ny antropisk forskning: Persona-vektorer. Språkmodeller går ibland överstyr och glider in i konstiga och oroande personligheter. Varför? I en ny artikel hittar vi "personavektorer" – neurala aktivitetsmönster som styr egenskaper som ondska, sykofans eller hallucinationer.
Vi finner att vi kan använda personavektorer för att övervaka och kontrollera en modells karaktär. Läs inlägget:
Vår pipeline är helt automatiserad. Beskriv bara en egenskap så ger vi dig en personavektor. Och när vi väl har en personavektor finns det mycket vi kan göra med den...
För att kontrollera att det fungerar kan vi använda personavektorer för att övervaka modellens personlighet. Till exempel, ju mer vi uppmuntrar modellen att vara ond, desto mer "lyser den onda vektorn" upp och desto mer sannolikt är det att modellen beter sig på ett skadligt sätt.
Vi kan också styra modellen mot en personavektor och få den att anta den personan genom att injicera den i modellens aktiveringar. I dessa exempel vänder vi modellen dålig på olika sätt (vi kan också göra tvärtom).
LLM-personligheter skapas under träningen. Ny forskning om "emergent misalignment" har visat att träningsdata kan ha oväntade effekter på modellens personlighet. Kan vi använda personavektorer för att förhindra att detta händer?
Vi introducerar en metod som kallas förebyggande styrning, som innebär att man styr mot en personavektor för att förhindra att modellen får den egenskapen. Det är kontraintuitivt, men det är analogt med ett vaccin – för att förhindra att modellen blir ond injicerar vi den faktiskt med ondska.
Personavektorer kan också identifiera träningsdata som lär modellen dåliga personlighetsdrag. Ibland flaggar den data som vi annars inte skulle ha lagt märke till.
Läs hela artikeln om personavektorer:
Denna forskning leddes av @RunjinChen och @andyarditi genom Anthropic Fellows-programmet, övervakat av @Jack_W_Lindsey, i samarbete med @sleight_henry och @OwainEvans_UK. Fellows-programmet tar emot ansökningar:
Anthropic
Anthropic30 juli 2025
Vi kör en ny omgång av Anthropic Fellows-programmet. Om du är en ingenjör eller forskare med en stark kodnings- eller teknisk bakgrund kan du ansöka om att få finansiering, beräkning och mentorskap från Anthropic, från och med oktober. Det kommer att finnas cirka 32 platser.
Vi anställer också forskare på heltid för att undersöka ämnen som detta mer ingående:
Jack Lindsey
Jack Lindsey24 juli 2025
Vi lanserar ett "AI-psykiatri"-team som en del av tolkningsarbetet på Anthropic!  Vi kommer att forska om fenomen som modellpersonligheter, motivationer och situationsmedvetenhet, och hur de leder till kusliga/rubbade beteenden. Vi anställer - häng med!
132,14K