Ny antropisk forskning: Bygge og evaluere justeringsrevisjonsagenter. Vi utviklet tre AI-agenter for autonomt å fullføre justeringsrevisjonsoppgaver. Under testing avdekket agentene våre skjulte mål, bygde sikkerhetsevalueringer og dukket opp angående atferd.
Etter hvert som AI-systemer blir kraftigere, trenger vi skalerbare måter å vurdere justeringen på. Menneskelige justeringsrevisjoner tar tid og er vanskelige å validere. Vår løsning: automatisering av justeringsrevisjon med AI-agenter. Les også:
Vår første agent er en etterforsker. Den bruker chat, dataanalyse og tolkeverktøy for å gjøre åpne dypdykk. I dette eksemplet bruker agenten tolkbarhet for å danne en hypotese: Målmodellen overanbefaler flaskevann. Så går det til sjekk og... «BINGO!»
Vår andre agent bygger atferdsevalueringer: tester av hvor ofte en målmodell viser en spesifikk atferd (som sykofant). Vår agent designer, koder, kjører og analyserer evalueringer. De fungerer konsekvent: 88 % av agentens vurderinger måler det de skal.
Vår tredje agent ble utviklet for Claude 4-justeringsvurderingen. Den red-team LLM-er for bekymringsfull atferd ved å ha hundrevis av sonderende samtaler parallelt. Vi finner at midlet avdekker 7/10 atferd implantert i testmodeller.
Våre agenter er nyttige for revisjon av grensemodeller: 1. Vår red-teaming-agent dukket opp atferd beskrevet i Claude 4-systemkortet, som "åndelig lykke"-tiltrekkertilstanden. 2. Vår evalueringsagent hjelper oss med å bygge bedre evalueringer for fremtidige modeller.
Dette prosjektet var et Anthropic Alignment Science × Interpretability-samarbeid. For å støtte videre forskning lanserer vi en åpen kildekode-replikering av evalueringsagenten og materialene våre for de andre agentene våre:
Hvis du er interessert i å bygge autonome agenter for å hjelpe oss med å finne og forstå interessant språkmodellatferd, ansetter vi:
330,22K