À medida que os modelos avançam, uma preocupação chave em segurança da IA é o alinhamento enganoso / "manipulação" – onde a IA pode, de forma encoberta, perseguir objetivos não intencionais. O nosso artigo "Avaliando Modelos de Fronteira para Stealth e Consciência Situacional" avalia se os modelos atuais conseguem manipular.
78,17K