DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Nuova ricerca di Anthropic: costruzione e valutazione di agenti di auditing per l'allineamento. Abbiamo sviluppato tre agenti AI per completare autonomamente compiti di auditing per l'allineamento. Nei test, i nostri agenti hanno scoperto con successo obiettivi nascosti, costruito valutazioni di sicurezza e messo in evidenza comportamenti preoccupanti.

Man mano che i sistemi di intelligenza artificiale diventano più potenti, abbiamo bisogno di modi scalabili per valutare il loro allineamento. Gli audit di allineamento umano richiedono tempo e sono difficili da convalidare. La nostra soluzione: automatizzare l'audit di allineamento con agenti AI. Leggi di più:

Il nostro primo agente è un investigatore. Utilizza chat, analisi dei dati e strumenti di interpretabilità per effettuare approfondimenti aperti. In questo esempio, l'agente utilizza l'interpretabilità per formulare un'ipotesi: il modello target raccomanda eccessivamente acqua in bottiglia. Poi va a controllare e… "BINGO!"

Il nostro secondo agente costruisce valutazioni comportamentali: test su quanto spesso un modello target mostri un comportamento specifico (come la servilità). Il nostro agente progetta, codifica, esegue e analizza le valutazioni. Funzionano costantemente: l'88% delle valutazioni del nostro agente misura ciò che dovrebbe.

Il nostro terzo agente è stato sviluppato per la valutazione dell'allineamento di Claude 4. Esegue un'analisi di tipo red-team sugli LLM per comportamenti preoccupanti, avendo centinaia di conversazioni di sondaggio in parallelo. Scopriamo che l'agente rivela 7/10 comportamenti impiantati nei modelli di test.

I nostri agenti sono utili per l'audit dei modelli di frontiera: 1. Il nostro agente di red-teaming ha messo in evidenza comportamenti descritti nella scheda del sistema Claude 4, come lo stato attrattore di "beatitudine spirituale". 2. Il nostro agente di valutazione ci sta aiutando a costruire migliori valutazioni per i modelli futuri.

Questo progetto è stata una collaborazione tra la Scienza dell'Allineamento Antropico e l'Interpretabilità. Per supportare ulteriori ricerche, stiamo rilasciando una replica open-source del nostro agente di valutazione e dei materiali per i nostri altri agenti:

Se sei interessato a costruire agenti autonomi per aiutarci a trovare e comprendere comportamenti interessanti dei modelli linguistici, stiamo assumendo:

326,82K

Principali

Ranking

Preferiti

On-chain di tendenza

Di tendenza su X

Principali fondi recenti

Più popolari