Nova pesquisa antrópica: Construindo e avaliando agentes de auditoria de alinhamento. Desenvolvemos três agentes de IA para concluir de forma autônoma as tarefas de auditoria de alinhamento. Nos testes, nossos agentes descobriram com sucesso metas ocultas, construíram avaliações de segurança e revelaram comportamentos preocupantes.
À medida que os sistemas de IA se tornam mais poderosos, precisamos de maneiras escaláveis de avaliar seu alinhamento. As auditorias de alinhamento humano levam tempo e são difíceis de validar. Nossa solução: automatizar a auditoria de alinhamento com agentes de IA. Leia mais:
Nosso primeiro agente é um investigador. Ele usa ferramentas de bate-papo, análise de dados e interpretabilidade para fazer mergulhos profundos abertos. Neste exemplo, o agente usa a interpretabilidade para formar uma hipótese: O modelo de destino recomenda demais a água engarrafada. Então ele vai verificar e... "BINGO!"
Nosso segundo agente constrói avaliações comportamentais: testes de quantas vezes um modelo-alvo exibe um comportamento específico (como bajulação). Nosso agente projeta, codifica, executa e analisa avaliações. Eles funcionam de forma consistente: 88% das avaliações de nossos agentes medem o que deveriam.
Nosso terceiro agente foi desenvolvido para a avaliação do alinhamento Claude 4. Ele faz equipes vermelhas de LLMs para comportamentos preocupantes, tendo centenas de conversas de sondagem em paralelo. Descobrimos que o agente descobre 7/10 comportamentos implantados em modelos de teste.
Nossos agentes são úteis para auditoria de modelo de fronteira: 1. Nosso agente de equipe vermelha trouxe à tona comportamentos descritos no cartão do sistema Claude 4, como o estado de atrator de "bem-aventurança espiritual". 2. Nosso agente de avaliação está nos ajudando a construir melhores avaliações para modelos futuros.
Este projeto foi uma colaboração de Ciência de Alinhamento Antrópico × Interpretabilidade. Para apoiar pesquisas futuras, estamos lançando uma replicação de código aberto de nosso agente de avaliação e materiais para nossos outros agentes:
Se você estiver interessado em criar agentes autônomos para nos ajudar a encontrar e entender comportamentos interessantes do modelo de linguagem, estamos contratando:
330,23K