Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nowe badania Anthropic: Budowanie i ocena agentów audytowych w zakresie zgodności.
Opracowaliśmy trzy agentów AI, które autonomicznie wykonują zadania audytowe związane z zgodnością.
W testach nasi agenci skutecznie odkryli ukryte cele, stworzyli oceny bezpieczeństwa i ujawnili niepokojące zachowania.

W miarę jak systemy AI stają się coraz potężniejsze, potrzebujemy skalowalnych sposobów na ocenę ich zgodności.
Audyty zgodności z ludźmi zajmują czas i są trudne do zweryfikowania.
Nasze rozwiązanie: automatyzacja audytów zgodności z agentami AI.
Czytaj więcej:
Nasz pierwszy agent to śledczy. Używa czatu, analizy danych i narzędzi do interpretacji, aby przeprowadzać otwarte analizy.
W tym przykładzie agent wykorzystuje interpretację do sformułowania hipotezy: model docelowy zbyt często poleca wodę butelkowaną. Następnie sprawdza i… "BINGO!"

Nasz drugi agent tworzy oceny behawioralne: testy, jak często model docelowy wykazuje określone zachowanie (takie jak sycofantyzm).
Nasz agent projektuje, koduje, uruchamia i analizuje oceny.
Działają konsekwentnie: 88% ocen naszego agenta mierzy to, co powinny.

Nasz trzeci agent został opracowany do oceny zgodności Claude 4. Przeprowadza testy LLM w celu wykrycia niepokojących zachowań, prowadząc setki rozmów próbnych równolegle.
Stwierdzamy, że agent odkrywa 7/10 zachowań wprowadzonych do testowanych modeli.

Nasi agenci są przydatni do audytowania modeli granicznych:
1. Nasz agent red-teamingowy ujawnił zachowania opisane w karcie systemu Claude 4, takie jak stan przyciągania „duchowej błogości”.
2. Nasz agent oceniający pomaga nam budować lepsze oceny dla przyszłych modeli.

Ten projekt był współpracą w zakresie nauki o dostosowaniu antropocentrycznym i interpretowalności.
Aby wspierać dalsze badania, udostępniamy otwartoźródłową replikację naszego agenta oceniającego oraz materiały dla naszych innych agentów:
Jeśli jesteś zainteresowany budowaniem autonomicznych agentów, którzy pomogą nam znaleźć i zrozumieć interesujące zachowania modeli językowych, zatrudniamy:
330,23K
Najlepsze
Ranking
Ulubione