DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Ny antropisk forskning: Persona-vektorer. Språkmodeller går ibland överstyr och glider in i konstiga och oroande personligheter. Varför? I en ny artikel hittar vi "personavektorer" – neurala aktivitetsmönster som styr egenskaper som ondska, sykofans eller hallucinationer.

Vi finner att vi kan använda personavektorer för att övervaka och kontrollera en modells karaktär. Läs inlägget:

Vår pipeline är helt automatiserad. Beskriv bara en egenskap så ger vi dig en personavektor. Och när vi väl har en personavektor finns det mycket vi kan göra med den...

För att kontrollera att det fungerar kan vi använda personavektorer för att övervaka modellens personlighet. Till exempel, ju mer vi uppmuntrar modellen att vara ond, desto mer "lyser den onda vektorn" upp och desto mer sannolikt är det att modellen beter sig på ett skadligt sätt.

Vi kan också styra modellen mot en personavektor och få den att anta den personan genom att injicera den i modellens aktiveringar. I dessa exempel vänder vi modellen dålig på olika sätt (vi kan också göra tvärtom).

LLM-personligheter skapas under träningen. Ny forskning om "emergent misalignment" har visat att träningsdata kan ha oväntade effekter på modellens personlighet. Kan vi använda personavektorer för att förhindra att detta händer?

Vi introducerar en metod som kallas förebyggande styrning, som innebär att man styr mot en personavektor för att förhindra att modellen får den egenskapen. Det är kontraintuitivt, men det är analogt med ett vaccin – för att förhindra att modellen blir ond injicerar vi den faktiskt med ondska.

Personavektorer kan också identifiera träningsdata som lär modellen dåliga personlighetsdrag. Ibland flaggar den data som vi annars inte skulle ha lagt märke till.

Läs hela artikeln om personavektorer:

Denna forskning leddes av @RunjinChen och @andyarditi genom Anthropic Fellows-programmet, övervakat av @Jack_W_Lindsey, i samarbete med @sleight_henry och @OwainEvans_UK. Fellows-programmet tar emot ansökningar:

Vi anställer också forskare på heltid för att undersöka ämnen som detta mer ingående:

132,14K

Topp

Rankning

Favoriter

Trendande på kedjan

Trendande på X

Senaste toppfinansieringarna

Mest anmärkningsvärda