DApp Store | Centrum Web3 pro události a hry

Populární témata

Nový antropický výzkum: Budování a hodnocení auditorských agentů pro soulad. Vyvinuli jsme tři agenty AI, kteří autonomně plní úkoly auditu souladu. Při testování naši agenti úspěšně odhalili skryté cíle, vytvořili bezpečnostní hodnocení a odhalili znepokojivé chování.

S tím, jak se systémy umělé inteligence stávají výkonnějšími, potřebujeme škálovatelné způsoby, jak posoudit jejich zarovnání. Audity lidského sladění vyžadují čas a je obtížné je ověřit. Naše řešení: automatizace auditu souladu s agenty AI. Přečtěte si více:

Náš první agent je vyšetřovatel. Využívá chat, analýzu dat a nástroje pro interpretovatelnost k provádění hlubokých ponorů s otevřeným koncem. V tomto příkladu agent používá interpretovatelnost k vytvoření hypotézy: Cílový model nadměrně doporučuje balenou vodu. Pak jde na kontrolu a... "BINGO!"

Náš druhý agent vytváří behaviorální hodnocení: testuje, jak často cílový model vykazuje specifické chování (jako je patolízalství). Náš agent navrhuje, kóduje, spouští a analyzuje evaly. Neustále fungují: 88 % hodnocení našich agentů měří to, co by měli.

Náš třetí agent byl vyvinut pro posouzení zarovnání Claude 4. To red-teams LLM pro znepokojivé chování tím, že paralelně vedou stovky sondovacích rozhovorů. Zjistili jsme, že agent odhaluje chování 7/10 implantované do testovacích modelů.

Naši agenti jsou užiteční pro auditování hraničních modelů: 1. Náš agent pro červený tým odhalil chování popsané na systémové kartě Claude 4, jako je stav atraktoru "duchovní blaženosti". 2. Náš hodnotící agent nám pomáhá vytvářet lepší hodnocení pro budoucí modely.

Tento projekt byl spoluprací v oblasti antropické zarovnání × interpretovatelnosti. Abychom podpořili další výzkum, vydáváme open-source replikaci našeho agenta pro hodnocení a materiálů pro naše další agenty:

Pokud máte zájem o vytváření autonomních agentů, kteří nám pomohou najít a pochopit zajímavé chování jazykových modelů, přijímáme zaměstnance:

326,82K

Top

Hodnocení

Oblíbené

Co je v trendu on-chain

Populární na X

Nejvyšší finanční vklady v poslední době

Nejpozoruhodnější