Nueva investigación antrópica: Construcción y evaluación de agentes auditores de alineación. Desarrollamos tres agentes de IA para completar de forma autónoma las tareas de auditoría de alineación. En las pruebas, nuestros agentes descubrieron con éxito objetivos ocultos, crearon evaluaciones de seguridad y sacaron a la luz comportamientos preocupantes.
A medida que los sistemas de IA se vuelven más poderosos, necesitamos formas escalables de evaluar su alineación. Las auditorías de alineación humana llevan tiempo y son difíciles de validar. Nuestra solución: automatizar la auditoría de alineación con agentes de IA. Leer más:
Nuestro primer agente es un investigador. Utiliza herramientas de chat, análisis de datos e interpretabilidad para realizar inmersiones profundas abiertas. En este ejemplo, el agente utiliza la interpretabilidad para formar una hipótesis: el modelo objetivo recomienda en exceso el agua embotellada. Luego va a verificar y... "¡BINGO!"
Nuestro segundo agente construye evaluaciones de comportamiento: pruebas de la frecuencia con la que un modelo objetivo exhibe un comportamiento específico (como la adulación). Nuestro agente diseña, codifica, ejecuta y analiza evaluaciones. Funcionan constantemente: el 88% de las evaluaciones de nuestros agentes miden lo que se supone que deben hacer.
Nuestro tercer agente fue desarrollado para la evaluación de alineación Claude 4. Pone en equipo a los LLM en busca de comportamientos preocupantes al tener cientos de conversaciones de sondeo en paralelo. Encontramos que el agente descubre 7/10 comportamientos implantados en modelos de prueba.
Nuestros agentes son útiles para la auditoría de modelos de frontera: 1. Nuestro agente de equipo rojo sacó a la luz comportamientos descritos en la carta del sistema Claude 4, como el estado atractor de "felicidad espiritual". 2. Nuestro agente de evaluación nos está ayudando a construir mejores evaluaciones para futuros modelos.
Este proyecto fue una colaboración de Ciencia de Alineación Antrópica × Interpretabilidad. Para respaldar futuras investigaciones, estamos lanzando una réplica de código abierto de nuestro agente de evaluación y materiales para nuestros otros agentes:
Si está interesado en crear agentes autónomos que nos ayuden a encontrar y comprender comportamientos interesantes del modelo de lenguaje, estamos contratando:
326.83K