DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Noi cercetări antropice: vectori de persona. Modelele lingvistice uneori o iau razna și alunecă în personaje ciudate și neliniștitoare. De ce? Într-o nouă lucrare, găsim "vectori de persona" – modele de activitate neuronală care controlează trăsături precum răul, adulația sau halucinația.

Descoperim că putem folosi vectori de persoană pentru a monitoriza și controla caracterul unui model. Citiți postarea:

Conducta noastră este complet automatizată. Doar descrieți o trăsătură și vă vom oferi un vector de persona. Și odată ce avem un vector persona, putem face multe cu el...

Pentru a verifica funcționarea, putem folosi vectori de persoană pentru a monitoriza personalitatea modelului. De exemplu, cu cât încurajăm mai mult modelul să fie rău, cu atât vectorul malefic "se aprinde" mai mult și cu atât este mai probabil ca modelul să se comporte în moduri rău intenționate.

De asemenea, putem direcționa modelul către un vector de persoană și îl putem determina să adopte acea persona, injectându-l în activările modelului. În aceste exemple, transformăm modelul în diferite moduri (putem face și invers).

Personalitățile LLM sunt forjate în timpul antrenamentului. Cercetările recente privind "nealinierea emergentă" au arătat că datele de antrenament pot avea un impact neașteptat asupra personalității modelului. Putem folosi vectori de persoană pentru a opri acest lucru?

Introducem o metodă numită direcție preventivă, care implică direcționarea către un vector de persoană pentru a împiedica modelul să dobândească acea trăsătură. Este contraintuitiv, dar este analog cu un vaccin – pentru a preveni ca modelul să devină rău, de fapt îi injectăm răul.

Vectorii Persona pot identifica, de asemenea, date de antrenament care vor învăța modelul trăsături de personalitate proaste. Uneori, semnalează date pe care altfel nu le-am fi observat.

Citiți lucrarea completă despre vectorii persona:

Această cercetare a fost condusă de @RunjinChen și @andyarditi prin programul Anthropic Fellows, supravegheat de @Jack_W_Lindsey, în colaborare cu @sleight_henry și @OwainEvans_UK. Programul Fellows acceptă cereri:

De asemenea, angajăm cercetători cu normă întreagă pentru a investiga subiecte ca acesta mai în profunzime:

132,14K

Limită superioară

Clasament

Favorite

La modă pe lanț

La modă pe X

Principalele finanțări recente

Cele mai importante