Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ny antropisk forskning: Bygge og evaluere justeringsrevisjonsagenter.
Vi utviklet tre AI-agenter for autonomt å fullføre justeringsrevisjonsoppgaver.
Under testing avdekket agentene våre skjulte mål, bygde sikkerhetsevalueringer og dukket opp angående atferd.

Etter hvert som AI-systemer blir kraftigere, trenger vi skalerbare måter å vurdere justeringen på.
Menneskelige justeringsrevisjoner tar tid og er vanskelige å validere.
Vår løsning: automatisering av justeringsrevisjon med AI-agenter.
Les også:
Vår første agent er en etterforsker. Den bruker chat, dataanalyse og tolkeverktøy for å gjøre åpne dypdykk.
I dette eksemplet bruker agenten tolkbarhet for å danne en hypotese: Målmodellen overanbefaler flaskevann. Så går det til sjekk og... «BINGO!»

Vår andre agent bygger atferdsevalueringer: tester av hvor ofte en målmodell viser en spesifikk atferd (som sykofant).
Vår agent designer, koder, kjører og analyserer evalueringer.
De fungerer konsekvent: 88 % av agentens vurderinger måler det de skal.

Vår tredje agent ble utviklet for Claude 4-justeringsvurderingen. Den red-team LLM-er for bekymringsfull atferd ved å ha hundrevis av sonderende samtaler parallelt.
Vi finner at midlet avdekker 7/10 atferd implantert i testmodeller.

Våre agenter er nyttige for revisjon av grensemodeller:
1. Vår red-teaming-agent dukket opp atferd beskrevet i Claude 4-systemkortet, som "åndelig lykke"-tiltrekkertilstanden.
2. Vår evalueringsagent hjelper oss med å bygge bedre evalueringer for fremtidige modeller.

Dette prosjektet var et Anthropic Alignment Science × Interpretability-samarbeid.
For å støtte videre forskning lanserer vi en åpen kildekode-replikering av evalueringsagenten og materialene våre for de andre agentene våre:
Hvis du er interessert i å bygge autonome agenter for å hjelpe oss med å finne og forstå interessant språkmodellatferd, ansetter vi:
330,22K
Topp
Rangering
Favoritter