lol
Anthropic
Anthropic25/07, 01:21
Nova pesquisa da Anthropic: Construindo e avaliando agentes de auditoria de alinhamento. Desenvolvemos três agentes de IA para completar de forma autônoma tarefas de auditoria de alinhamento. Nos testes, nossos agentes descobriram com sucesso objetivos ocultos, construíram avaliações de segurança e revelaram comportamentos preocupantes.
24,25K