DApp Store | Web3 Hub for hendelser og spill

Populære emner

Ny antropisk forskning: Bygge og evaluere justeringsrevisjonsagenter. Vi utviklet tre AI-agenter for autonomt å fullføre justeringsrevisjonsoppgaver. Under testing avdekket agentene våre skjulte mål, bygde sikkerhetsevalueringer og dukket opp angående atferd.

Etter hvert som AI-systemer blir kraftigere, trenger vi skalerbare måter å vurdere justeringen på. Menneskelige justeringsrevisjoner tar tid og er vanskelige å validere. Vår løsning: automatisering av justeringsrevisjon med AI-agenter. Les også:

Vår første agent er en etterforsker. Den bruker chat, dataanalyse og tolkeverktøy for å gjøre åpne dypdykk. I dette eksemplet bruker agenten tolkbarhet for å danne en hypotese: Målmodellen overanbefaler flaskevann. Så går det til sjekk og... «BINGO!»

Vår andre agent bygger atferdsevalueringer: tester av hvor ofte en målmodell viser en spesifikk atferd (som sykofant). Vår agent designer, koder, kjører og analyserer evalueringer. De fungerer konsekvent: 88 % av agentens vurderinger måler det de skal.

Vår tredje agent ble utviklet for Claude 4-justeringsvurderingen. Den red-team LLM-er for bekymringsfull atferd ved å ha hundrevis av sonderende samtaler parallelt. Vi finner at midlet avdekker 7/10 atferd implantert i testmodeller.

Våre agenter er nyttige for revisjon av grensemodeller: 1. Vår red-teaming-agent dukket opp atferd beskrevet i Claude 4-systemkortet, som "åndelig lykke"-tiltrekkertilstanden. 2. Vår evalueringsagent hjelper oss med å bygge bedre evalueringer for fremtidige modeller.

Dette prosjektet var et Anthropic Alignment Science × Interpretability-samarbeid. For å støtte videre forskning lanserer vi en åpen kildekode-replikering av evalueringsagenten og materialene våre for de andre agentene våre:

Hvis du er interessert i å bygge autonome agenter for å hjelpe oss med å finne og forstå interessant språkmodellatferd, ansetter vi:

330,22K

Topp

Rangering

Favoritter

Trendende onchain

Trendende på X

Nylig toppfinansiering

Mest lagt merke til