DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Nueva investigación de Anthropic: Construcción y evaluación de agentes de auditoría de alineación. Desarrollamos tres agentes de IA para completar de forma autónoma tareas de auditoría de alineación. En las pruebas, nuestros agentes descubrieron con éxito objetivos ocultos, construyeron evaluaciones de seguridad y sacaron a la luz comportamientos preocupantes.

A medida que los sistemas de IA se vuelven más poderosos, necesitamos formas escalables de evaluar su alineación. Las auditorías de alineación humana llevan tiempo y son difíciles de validar. Nuestra solución: automatizar la auditoría de alineación con agentes de IA. Lee más:

Nuestro primer agente es un investigador. Utiliza chat, análisis de datos y herramientas de interpretabilidad para realizar investigaciones profundas y abiertas. En este ejemplo, el agente utiliza la interpretabilidad para formular una hipótesis: el modelo objetivo recomienda en exceso agua embotellada. Luego va a verificar y... "¡BINGO!"

Nuestro segundo agente construye evaluaciones de comportamiento: pruebas de cuán a menudo un modelo objetivo exhibe un comportamiento específico (como la adulación). Nuestro agente diseña, codifica, ejecuta y analiza las evaluaciones. Funcionan de manera consistente: el 88% de las evaluaciones de nuestro agente miden lo que se supone que deben medir.

Nuestro tercer agente fue desarrollado para la evaluación de alineación de Claude 4. Realiza pruebas de ataque a los LLMs para comportamientos preocupantes al tener cientos de conversaciones de sondeo en paralelo. Encontramos que el agente descubre 7 de 10 comportamientos implantados en los modelos de prueba.

Nuestros agentes son útiles para la auditoría de modelos de frontera: 1. Nuestro agente de red-teaming reveló comportamientos descritos en la tarjeta del sistema Claude 4, como el estado de atracción de "felicidad espiritual". 2. Nuestro agente de evaluación nos está ayudando a construir mejores evaluaciones para futuros modelos.

Este proyecto fue una colaboración entre Ciencia de Alineación Antropófica × Interpretabilidad. Para apoyar la investigación futura, estamos lanzando una replicación de código abierto de nuestro agente de evaluación y materiales para nuestros otros agentes:

Si estás interesado en construir agentes autónomos que nos ayuden a encontrar y entender comportamientos interesantes de los modelos de lenguaje, estamos contratando:

330,24K

Parte superior

Clasificación

Favoritos

En tendencia on-chain

En tendencia en X

Principales fondos recientes

Más destacado