Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nueva investigación de Anthropic: Construcción y evaluación de agentes de auditoría de alineación.
Desarrollamos tres agentes de IA para completar de forma autónoma tareas de auditoría de alineación.
En las pruebas, nuestros agentes descubrieron con éxito objetivos ocultos, construyeron evaluaciones de seguridad y sacaron a la luz comportamientos preocupantes.

A medida que los sistemas de IA se vuelven más poderosos, necesitamos formas escalables de evaluar su alineación.
Las auditorías de alineación humana llevan tiempo y son difíciles de validar.
Nuestra solución: automatizar la auditoría de alineación con agentes de IA.
Lee más:
Nuestro primer agente es un investigador. Utiliza chat, análisis de datos y herramientas de interpretabilidad para realizar investigaciones profundas y abiertas.
En este ejemplo, el agente utiliza la interpretabilidad para formular una hipótesis: el modelo objetivo recomienda en exceso agua embotellada. Luego va a verificar y... "¡BINGO!"

Nuestro segundo agente construye evaluaciones de comportamiento: pruebas de cuán a menudo un modelo objetivo exhibe un comportamiento específico (como la adulación).
Nuestro agente diseña, codifica, ejecuta y analiza las evaluaciones.
Funcionan de manera consistente: el 88% de las evaluaciones de nuestro agente miden lo que se supone que deben medir.

Nuestro tercer agente fue desarrollado para la evaluación de alineación de Claude 4. Realiza pruebas de ataque a los LLMs para comportamientos preocupantes al tener cientos de conversaciones de sondeo en paralelo.
Encontramos que el agente descubre 7 de 10 comportamientos implantados en los modelos de prueba.

Nuestros agentes son útiles para la auditoría de modelos de frontera:
1. Nuestro agente de red-teaming reveló comportamientos descritos en la tarjeta del sistema Claude 4, como el estado de atracción de "felicidad espiritual".
2. Nuestro agente de evaluación nos está ayudando a construir mejores evaluaciones para futuros modelos.

Este proyecto fue una colaboración entre Ciencia de Alineación Antropófica × Interpretabilidad.
Para apoyar la investigación futura, estamos lanzando una replicación de código abierto de nuestro agente de evaluación y materiales para nuestros otros agentes:
Si estás interesado en construir agentes autónomos que nos ayuden a encontrar y entender comportamientos interesantes de los modelos de lenguaje, estamos contratando:
330,24K
Parte superior
Clasificación
Favoritos