Nuova ricerca di Anthropic: Vettori di persona. I modelli linguistici a volte vanno fuori controllo e si trasformano in persone strane e inquietanti. Perché? In un nuovo articolo, troviamo i "vettori di persona"—schemi di attività neurale che controllano tratti come il male, la servilità o l'allucinazione.
Scopriamo che possiamo utilizzare i vettori persona per monitorare e controllare il carattere di un modello. Leggi il post:
Il nostro pipeline è completamente automatizzato. Basta descrivere un tratto e ti daremo un vettore persona. E una volta che abbiamo un vettore persona, ci sono molte cose che possiamo fare con esso...
Per verificare che funzioni, possiamo utilizzare i vettori persona per monitorare la personalità del modello. Ad esempio, più incoraggiamo il modello a essere malvagio, più il vettore malvagio "si illumina" e più è probabile che il modello si comporti in modi malevoli.
Possiamo anche indirizzare il modello verso un vettore di persona e far sì che adotti quella persona, iniettandola nelle attivazioni del modello. In questi esempi, rendiamo il modello cattivo in vari modi (possiamo anche fare il contrario).
Le personalità dei LLM vengono forgiati durante l'addestramento. Ricerche recenti su "disallineamento emergente" hanno dimostrato che i dati di addestramento possono avere impatti inaspettati sulla personalità del modello. Possiamo usare i vettori di persona per fermare questo fenomeno?
Introduciamo un metodo chiamato "steering preventivo", che consiste nel dirigersi verso un vettore persona per prevenire che il modello acquisisca quel tratto. È controintuitivo, ma è analogo a un vaccino: per prevenire che il modello diventi malvagio, in realtà lo iniettiamo con il male.
I vettori delle persone possono anche identificare i dati di addestramento che insegneranno al modello tratti di personalità negativi. A volte, segnala dati che altrimenti non avremmo notato.
Leggi il documento completo sui vettori persona:
Questa ricerca è stata guidata da @RunjinChen e @andyarditi attraverso il programma Anthropic Fellows, supervisionata da @Jack_W_Lindsey, in collaborazione con @sleight_henry e @OwainEvans_UK. Il programma Fellows sta accettando candidature:
Anthropic
Anthropic30 lug 2025
Stiamo avviando un altro ciclo del programma Anthropic Fellows. Se sei un ingegnere o un ricercatore con una solida formazione in programmazione o tecnica, puoi candidarti per ricevere finanziamenti, risorse di calcolo e mentorship da Anthropic, a partire da questo ottobre. Ci saranno circa 32 posti.
Stiamo anche assumendo ricercatori a tempo pieno per indagare su argomenti come questo in modo più approfondito:
Jack Lindsey
Jack Lindsey24 lug 2025
Stiamo lanciando un team di "psichiatria AI" come parte degli sforzi di interpretabilità presso Anthropic! Stiamo ricercando fenomeni come le personalità dei modelli, le motivazioni e la consapevolezza situazionale, e come questi portino a comportamenti inquietanti/sconnessi. Stiamo assumendo - unisciti a noi!
132,19K