Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nuova ricerca di Anthropic: costruzione e valutazione di agenti di auditing per l'allineamento.
Abbiamo sviluppato tre agenti AI per completare autonomamente compiti di auditing per l'allineamento.
Nei test, i nostri agenti hanno scoperto con successo obiettivi nascosti, costruito valutazioni di sicurezza e messo in evidenza comportamenti preoccupanti.

Man mano che i sistemi di intelligenza artificiale diventano più potenti, abbiamo bisogno di modi scalabili per valutare il loro allineamento.
Gli audit di allineamento umano richiedono tempo e sono difficili da convalidare.
La nostra soluzione: automatizzare l'audit di allineamento con agenti AI.
Leggi di più:
Il nostro primo agente è un investigatore. Utilizza chat, analisi dei dati e strumenti di interpretabilità per effettuare approfondimenti aperti.
In questo esempio, l'agente utilizza l'interpretabilità per formulare un'ipotesi: il modello target raccomanda eccessivamente acqua in bottiglia. Poi va a controllare e… "BINGO!"

Il nostro secondo agente costruisce valutazioni comportamentali: test su quanto spesso un modello target mostri un comportamento specifico (come la servilità).
Il nostro agente progetta, codifica, esegue e analizza le valutazioni.
Funzionano costantemente: l'88% delle valutazioni del nostro agente misura ciò che dovrebbe.

Il nostro terzo agente è stato sviluppato per la valutazione dell'allineamento di Claude 4. Esegue un'analisi di tipo red-team sugli LLM per comportamenti preoccupanti, avendo centinaia di conversazioni di sondaggio in parallelo.
Scopriamo che l'agente rivela 7/10 comportamenti impiantati nei modelli di test.

I nostri agenti sono utili per l'audit dei modelli di frontiera:
1. Il nostro agente di red-teaming ha messo in evidenza comportamenti descritti nella scheda del sistema Claude 4, come lo stato attrattore di "beatitudine spirituale".
2. Il nostro agente di valutazione ci sta aiutando a costruire migliori valutazioni per i modelli futuri.

Questo progetto è stata una collaborazione tra la Scienza dell'Allineamento Antropico e l'Interpretabilità.
Per supportare ulteriori ricerche, stiamo rilasciando una replica open-source del nostro agente di valutazione e dei materiali per i nostri altri agenti:
Se sei interessato a costruire agenti autonomi per aiutarci a trovare e comprendere comportamenti interessanti dei modelli linguistici, stiamo assumendo:
326,82K
Principali
Ranking
Preferiti