Noi cercetări antropice: Construirea și evaluarea agenților de audit de aliniere. Am dezvoltat trei agenți AI pentru a finaliza în mod autonom sarcinile de audit de aliniere. În timpul testelor, agenții noștri au descoperit cu succes obiective ascunse, au construit evaluări de siguranță și au scos la iveală comportamente îngrijorătoare.
Pe măsură ce sistemele AI devin mai puternice, avem nevoie de modalități scalabile de a evalua alinierea lor. Auditurile de aliniere umană necesită timp și sunt greu de validat. Soluția noastră: automatizarea auditului de aliniere cu agenții AI. Citește mai mult:
Primul nostru agent este un investigator. Folosește instrumente de chat, analiză de date și interpretabilitate pentru a face scufundări profunde deschise. În acest exemplu, agentul folosește interpretabilitatea pentru a forma o ipoteză: modelul țintă recomandă excesiv apa îmbuteliată. Apoi merge la verificare și... "BINGO!"
Al doilea agent construiește evaluări comportamentale: teste ale frecvenței cu care un model țintă prezintă un anumit comportament (cum ar fi adulatoria). Agentul nostru proiectează, codifică, rulează și analizează evaluările. Funcționează în mod constant: 88% din evaluările agenților noștri măsoară ceea ce ar trebui să facă.
Al treilea agent a fost dezvoltat pentru evaluarea alinierii Claude 4. Echipe roșii de LLM-uri pentru comportamente îngrijorătoare, având sute de conversații de sondare în paralel. Descoperim că agentul descoperă 7/10 comportamente implantate în modele de testare.
Agenții noștri sunt utili pentru auditul modelelor de frontieră: 1. Agentul nostru de echipă roșie a scos la suprafață comportamente descrise în cardul sistemului Claude 4, cum ar fi starea de atracție a "beatitudinii spirituale". 2. Agentul nostru de evaluare ne ajută să construim evaluări mai bune pentru modelele viitoare.
Acest proiect a fost o colaborare între știința alinierii antropice × interpretabilitatea. Pentru a sprijini cercetările ulterioare, lansăm o replică open-source a agentului nostru de evaluare și a materialelor pentru ceilalți agenți ai noștri:
Dacă sunteți interesat să construiți agenți autonomi care să ne ajute să găsim și să înțelegem comportamente interesante ale modelelor de limbaj, angajăm:
330,25K