Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ny antropisk forskning: Bygga och utvärdera anpassningsauditeringsagenter.
Vi utvecklade tre AI-agenter för att självständigt slutföra anpassningsrevisionsuppgifter.
I testningen avslöjade våra agenter framgångsrikt dolda mål, byggde säkerhetsutvärderingar och lyfte fram oroande beteenden.

I takt med att AI-system blir kraftfullare behöver vi skalbara sätt att bedöma deras anpassning.
Granskningar av mänsklig anpassning tar tid och är svåra att validera.
Vår lösning: att automatisera justeringsgranskning med AI-agenter.
Läs mer:
Vår första agent är en utredare. Den använder chatt, dataanalys och tolkningsverktyg för att göra öppna djupdykningar.
I det här exemplet använder agenten tolkningsbarhet för att skapa en hypotes: Målmodellen rekommenderar för mycket vatten på flaska. Sen går det att kolla och... "BINGO!"

Vår andra agent bygger beteendeutvärderingar: tester av hur ofta en målmodell uppvisar ett specifikt beteende (som sykofans).
Vår agent designar, kodar, kör och analyserar utvärderingar.
De fungerar konsekvent: 88 % av våra agenters värderingar mäter vad de ska.

Vår tredje agent utvecklades för Claude 4:s justeringsbedömning. Det red-teams LLM:er för oroande beteenden genom att ha hundratals sonderande konversationer parallellt.
Vi finner att agenten avslöjar 7/10 beteenden som implanterats i testmodeller.

Våra agenter är användbara för granskning av gränsmodeller:
1. Vår red-teaming-agent dök upp beteenden som beskrivs i Claude 4-systemkortet, som attraktionstillståndet "andlig salighet".
2. Vår utvärderingsagent hjälper oss att bygga bättre modeller för framtida modeller.

Detta projekt var ett samarbete mellan Anthropic Alignment Science × Interpretability.
För att stödja ytterligare forskning släpper vi en replikering med öppen källkod av vår utvärderingsagent och material för våra andra agenter:
Om du är intresserad av att skapa autonoma agenter för att hjälpa oss att hitta och förstå intressanta språkmodellbeteenden anställer vi:
330,25K
Topp
Rankning
Favoriter