risos
Anthropic
Anthropic25 de jul., 01:21
Nova pesquisa antrópica: Construindo e avaliando agentes de auditoria de alinhamento. Desenvolvemos três agentes de IA para concluir de forma autônoma as tarefas de auditoria de alinhamento. Nos testes, nossos agentes descobriram com sucesso metas ocultas, construíram avaliações de segurança e revelaram comportamentos preocupantes.
24,26K