Nowe badania Anthropic: Budowanie i ocena agentów audytowych w zakresie zgodności. Opracowaliśmy trzy agentów AI, które autonomicznie wykonują zadania audytowe związane z zgodnością. W testach nasi agenci skutecznie odkryli ukryte cele, stworzyli oceny bezpieczeństwa i ujawnili niepokojące zachowania.
W miarę jak systemy AI stają się coraz potężniejsze, potrzebujemy skalowalnych sposobów na ocenę ich zgodności. Audyty zgodności z ludźmi zajmują czas i są trudne do zweryfikowania. Nasze rozwiązanie: automatyzacja audytów zgodności z agentami AI. Czytaj więcej:
Nasz pierwszy agent to śledczy. Używa czatu, analizy danych i narzędzi do interpretacji, aby przeprowadzać otwarte analizy. W tym przykładzie agent wykorzystuje interpretację do sformułowania hipotezy: model docelowy zbyt często poleca wodę butelkowaną. Następnie sprawdza i… "BINGO!"
Nasz drugi agent tworzy oceny behawioralne: testy, jak często model docelowy wykazuje określone zachowanie (takie jak sycofantyzm). Nasz agent projektuje, koduje, uruchamia i analizuje oceny. Działają konsekwentnie: 88% ocen naszego agenta mierzy to, co powinny.
Nasz trzeci agent został opracowany do oceny zgodności Claude 4. Przeprowadza testy LLM w celu wykrycia niepokojących zachowań, prowadząc setki rozmów próbnych równolegle. Stwierdzamy, że agent odkrywa 7/10 zachowań wprowadzonych do testowanych modeli.
Nasi agenci są przydatni do audytowania modeli granicznych: 1. Nasz agent red-teamingowy ujawnił zachowania opisane w karcie systemu Claude 4, takie jak stan przyciągania „duchowej błogości”. 2. Nasz agent oceniający pomaga nam budować lepsze oceny dla przyszłych modeli.
Ten projekt był współpracą w zakresie nauki o dostosowaniu antropocentrycznym i interpretowalności. Aby wspierać dalsze badania, udostępniamy otwartoźródłową replikację naszego agenta oceniającego oraz materiały dla naszych innych agentów:
Jeśli jesteś zainteresowany budowaniem autonomicznych agentów, którzy pomogą nam znaleźć i zrozumieć interesujące zachowania modeli językowych, zatrudniamy:
330,23K