lol
Anthropic
Anthropic25 jul, 01:21
Nueva investigación de Anthropic: Construcción y evaluación de agentes de auditoría de alineación. Desarrollamos tres agentes de IA para completar de forma autónoma tareas de auditoría de alineación. En las pruebas, nuestros agentes descubrieron con éxito objetivos ocultos, construyeron evaluaciones de seguridad y sacaron a la luz comportamientos preocupantes.
24,25K