mdr
Anthropic
Anthropic25 juil., 01:21
Nouvelle recherche d'Anthropic : Construction et évaluation d'agents d'audit d'alignement. Nous avons développé trois agents IA pour accomplir de manière autonome des tâches d'audit d'alignement. Lors des tests, nos agents ont réussi à découvrir des objectifs cachés, à établir des évaluations de sécurité et à faire ressortir des comportements préoccupants.
23,87K