Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Noi cercetări antropice: vectori de persona.
Modelele lingvistice uneori o iau razna și alunecă în personaje ciudate și neliniștitoare. De ce? Într-o nouă lucrare, găsim "vectori de persona" – modele de activitate neuronală care controlează trăsături precum răul, adulația sau halucinația.

Descoperim că putem folosi vectori de persoană pentru a monitoriza și controla caracterul unui model.
Citiți postarea:
Conducta noastră este complet automatizată. Doar descrieți o trăsătură și vă vom oferi un vector de persona. Și odată ce avem un vector persona, putem face multe cu el...

Pentru a verifica funcționarea, putem folosi vectori de persoană pentru a monitoriza personalitatea modelului. De exemplu, cu cât încurajăm mai mult modelul să fie rău, cu atât vectorul malefic "se aprinde" mai mult și cu atât este mai probabil ca modelul să se comporte în moduri rău intenționate.
De asemenea, putem direcționa modelul către un vector de persoană și îl putem determina să adopte acea persona, injectându-l în activările modelului. În aceste exemple, transformăm modelul în diferite moduri (putem face și invers).

Personalitățile LLM sunt forjate în timpul antrenamentului. Cercetările recente privind "nealinierea emergentă" au arătat că datele de antrenament pot avea un impact neașteptat asupra personalității modelului. Putem folosi vectori de persoană pentru a opri acest lucru?

Introducem o metodă numită direcție preventivă, care implică direcționarea către un vector de persoană pentru a împiedica modelul să dobândească acea trăsătură.
Este contraintuitiv, dar este analog cu un vaccin – pentru a preveni ca modelul să devină rău, de fapt îi injectăm răul.

Vectorii Persona pot identifica, de asemenea, date de antrenament care vor învăța modelul trăsături de personalitate proaste. Uneori, semnalează date pe care altfel nu le-am fi observat.

Citiți lucrarea completă despre vectorii persona:
Această cercetare a fost condusă de @RunjinChen și @andyarditi prin programul Anthropic Fellows, supravegheat de @Jack_W_Lindsey, în colaborare cu @sleight_henry și @OwainEvans_UK.
Programul Fellows acceptă cereri:

30 iul. 2025
Derulăm o altă rundă a programului Anthropic Fellows.
Dacă sunteți inginer sau cercetător cu o pregătire tehnică sau de codare solidă, puteți aplica pentru a primi finanțare, calcul și mentorat de la Anthropic, începând cu luna octombrie. Vor fi în jur de 32 de locuri.

De asemenea, angajăm cercetători cu normă întreagă pentru a investiga subiecte ca acesta mai în profunzime:

24 iul. 2025
Lansăm o echipă de "psihiatrie AI" ca parte a eforturilor de interpretabilitate la Anthropic! Vom cerceta fenomene precum personajele model, motivațiile și conștientizarea situației și modul în care acestea duc la comportamente înfricoșătoare/dezechilibrate. Angajăm - alăturați-vă nouă!
132,14K
Limită superioară
Clasament
Favorite