À medida que os modelos avançam, uma das principais preocupações de segurança da IA é o alinhamento / "intrigas" enganosos – onde a IA pode perseguir secretamente objetivos não intencionais. Nosso artigo "Avaliando Modelos de Fronteira para Furtividade e Consciência Situacional" avalia se os modelos atuais podem esquematizar.
78,18K