Ny antropisk forskning: Bygga och utvärdera anpassningsauditeringsagenter. Vi utvecklade tre AI-agenter för att självständigt slutföra anpassningsrevisionsuppgifter. I testningen avslöjade våra agenter framgångsrikt dolda mål, byggde säkerhetsutvärderingar och lyfte fram oroande beteenden.
I takt med att AI-system blir kraftfullare behöver vi skalbara sätt att bedöma deras anpassning. Granskningar av mänsklig anpassning tar tid och är svåra att validera. Vår lösning: att automatisera justeringsgranskning med AI-agenter. Läs mer:
Vår första agent är en utredare. Den använder chatt, dataanalys och tolkningsverktyg för att göra öppna djupdykningar. I det här exemplet använder agenten tolkningsbarhet för att skapa en hypotes: Målmodellen rekommenderar för mycket vatten på flaska. Sen går det att kolla och... "BINGO!"
Vår andra agent bygger beteendeutvärderingar: tester av hur ofta en målmodell uppvisar ett specifikt beteende (som sykofans). Vår agent designar, kodar, kör och analyserar utvärderingar. De fungerar konsekvent: 88 % av våra agenters värderingar mäter vad de ska.
Vår tredje agent utvecklades för Claude 4:s justeringsbedömning. Det red-teams LLM:er för oroande beteenden genom att ha hundratals sonderande konversationer parallellt. Vi finner att agenten avslöjar 7/10 beteenden som implanterats i testmodeller.
Våra agenter är användbara för granskning av gränsmodeller: 1. Vår red-teaming-agent dök upp beteenden som beskrivs i Claude 4-systemkortet, som attraktionstillståndet "andlig salighet". 2. Vår utvärderingsagent hjälper oss att bygga bättre modeller för framtida modeller.
Detta projekt var ett samarbete mellan Anthropic Alignment Science × Interpretability. För att stödja ytterligare forskning släpper vi en replikering med öppen källkod av vår utvärderingsagent och material för våra andra agenter:
Om du är intresserad av att skapa autonoma agenter för att hjälpa oss att hitta och förstå intressanta språkmodellbeteenden anställer vi:
330,25K