DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Nuova ricerca di Anthropic: Vettori di persona. I modelli linguistici a volte vanno fuori controllo e si trasformano in persone strane e inquietanti. Perché? In un nuovo articolo, troviamo i "vettori di persona"—schemi di attività neurale che controllano tratti come il male, la servilità o l'allucinazione.

Scopriamo che possiamo utilizzare i vettori persona per monitorare e controllare il carattere di un modello. Leggi il post:

Il nostro pipeline è completamente automatizzato. Basta descrivere un tratto e ti daremo un vettore persona. E una volta che abbiamo un vettore persona, ci sono molte cose che possiamo fare con esso...

Per verificare che funzioni, possiamo utilizzare i vettori persona per monitorare la personalità del modello. Ad esempio, più incoraggiamo il modello a essere malvagio, più il vettore malvagio "si illumina" e più è probabile che il modello si comporti in modi malevoli.

Possiamo anche indirizzare il modello verso un vettore di persona e far sì che adotti quella persona, iniettandola nelle attivazioni del modello. In questi esempi, rendiamo il modello cattivo in vari modi (possiamo anche fare il contrario).

Le personalità dei LLM vengono forgiati durante l'addestramento. Ricerche recenti su "disallineamento emergente" hanno dimostrato che i dati di addestramento possono avere impatti inaspettati sulla personalità del modello. Possiamo usare i vettori di persona per fermare questo fenomeno?

Introduciamo un metodo chiamato "steering preventivo", che consiste nel dirigersi verso un vettore persona per prevenire che il modello acquisisca quel tratto. È controintuitivo, ma è analogo a un vaccino: per prevenire che il modello diventi malvagio, in realtà lo iniettiamo con il male.

I vettori delle persone possono anche identificare i dati di addestramento che insegneranno al modello tratti di personalità negativi. A volte, segnala dati che altrimenti non avremmo notato.

Leggi il documento completo sui vettori persona:

Questa ricerca è stata guidata da @RunjinChen e @andyarditi attraverso il programma Anthropic Fellows, supervisionata da @Jack_W_Lindsey, in collaborazione con @sleight_henry e @OwainEvans_UK. Il programma Fellows sta accettando candidature:

Stiamo anche assumendo ricercatori a tempo pieno per indagare su argomenti come questo in modo più approfondito:

132,19K

Principali

Ranking

Preferiti

On-chain di tendenza

Di tendenza su X

Principali fondi recenti

Più popolari