lol
Anthropic
Anthropic25 jul, 01:21
Nueva investigación antrópica: Construcción y evaluación de agentes auditores de alineación. Desarrollamos tres agentes de IA para completar de forma autónoma las tareas de auditoría de alineación. En las pruebas, nuestros agentes descubrieron con éxito objetivos ocultos, crearon evaluaciones de seguridad y sacaron a la luz comportamientos preocupantes.
24.08K