Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nový antropický výzkum: Budování a hodnocení auditorských agentů pro soulad.
Vyvinuli jsme tři agenty AI, kteří autonomně plní úkoly auditu souladu.
Při testování naši agenti úspěšně odhalili skryté cíle, vytvořili bezpečnostní hodnocení a odhalili znepokojivé chování.

S tím, jak se systémy umělé inteligence stávají výkonnějšími, potřebujeme škálovatelné způsoby, jak posoudit jejich zarovnání.
Audity lidského sladění vyžadují čas a je obtížné je ověřit.
Naše řešení: automatizace auditu souladu s agenty AI.
Přečtěte si více:
Náš první agent je vyšetřovatel. Využívá chat, analýzu dat a nástroje pro interpretovatelnost k provádění hlubokých ponorů s otevřeným koncem.
V tomto příkladu agent používá interpretovatelnost k vytvoření hypotézy: Cílový model nadměrně doporučuje balenou vodu. Pak jde na kontrolu a... "BINGO!"

Náš druhý agent vytváří behaviorální hodnocení: testuje, jak často cílový model vykazuje specifické chování (jako je patolízalství).
Náš agent navrhuje, kóduje, spouští a analyzuje evaly.
Neustále fungují: 88 % hodnocení našich agentů měří to, co by měli.

Náš třetí agent byl vyvinut pro posouzení zarovnání Claude 4. To red-teams LLM pro znepokojivé chování tím, že paralelně vedou stovky sondovacích rozhovorů.
Zjistili jsme, že agent odhaluje chování 7/10 implantované do testovacích modelů.

Naši agenti jsou užiteční pro auditování hraničních modelů:
1. Náš agent pro červený tým odhalil chování popsané na systémové kartě Claude 4, jako je stav atraktoru "duchovní blaženosti".
2. Náš hodnotící agent nám pomáhá vytvářet lepší hodnocení pro budoucí modely.

Tento projekt byl spoluprací v oblasti antropické zarovnání × interpretovatelnosti.
Abychom podpořili další výzkum, vydáváme open-source replikaci našeho agenta pro hodnocení a materiálů pro naše další agenty:
Pokud máte zájem o vytváření autonomních agentů, kteří nám pomohou najít a pochopit zajímavé chování jazykových modelů, přijímáme zaměstnance:
326,82K
Top
Hodnocení
Oblíbené