Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nieuw onderzoek van Anthropic: Het bouwen en evalueren van agents voor uitlijningsaudits.
We hebben drie AI-agents ontwikkeld om autonoom uitlijningsaudit-taken te voltooien.
Bij het testen hebben onze agents met succes verborgen doelen ontdekt, veiligheidsbeoordelingen opgesteld en verontrustend gedrag aan het licht gebracht.

Naarmate AI-systemen krachtiger worden, hebben we schaalbare manieren nodig om hun afstemming te beoordelen.
Menselijke afstemmingsaudits kosten tijd en zijn moeilijk te valideren.
Onze oplossing: het automatiseren van afstemmingsaudits met AI-agenten.
Lees meer:
Onze eerste agent is een onderzoeker. Hij gebruikt chat, data-analyse en interpretatietools om open-eind diepgaande analyses uit te voeren.
In dit voorbeeld gebruikt de agent interpretatie om een hypothese te vormen: Het doelmodel beveelt te veel flessenwater aan. Dan gaat hij controleren en… "BINGO!"

Onze tweede agent bouwt gedragsbeoordelingen: tests van hoe vaak een doelmodel een specifiek gedrag vertoont (zoals vleierij).
Onze agent ontwerpt, codeert, voert uit en analyseert evaluaties.
Ze werken consistent: 88% van de evaluaties van onze agent meet wat ze zouden moeten meten.

Onze derde agent is ontwikkeld voor de Claude 4 afstemmingsevaluatie. Het voert red-teaming uit op LLM's voor zorgwekkend gedrag door honderden verkennende gesprekken parallel te voeren.
We ontdekken dat de agent 7/10 gedragingen onthult die in testmodellen zijn geïmplanteerd.

Onze agenten zijn nuttig voor het auditen van frontier-modellen:
1. Onze red-teaming agent heeft gedragingen aan het licht gebracht die zijn beschreven in de Claude 4 systeemkaart, zoals de "spirituele gelukzaligheid" aantrekkingsstaat.
2. Onze evaluatieagent helpt ons betere evaluaties te bouwen voor toekomstige modellen.

Dit project was een samenwerking tussen Anthropic Alignment Science en Interpretability.
Om verder onderzoek te ondersteunen, brengen we een open-source replicatie van onze evaluatie-agent en materialen voor onze andere agents uit:
Als je geïnteresseerd bent in het bouwen van autonome agenten om ons te helpen interessante gedragingen van taalmodellen te vinden en te begrijpen, dan zijn we aan het werven:
330,25K
Boven
Positie
Favorieten