Dois novos artigos que elaboram nossa abordagem ao alinhamento enganoso! Primeiro artigo: avaliamos a *furtividade* e a *consciência situacional* do modelo - se eles não tiverem esses recursos, provavelmente não poderão causar danos graves.
Victoria Krakovna
Victoria Krakovna8 de jul., 20:02
À medida que os modelos avançam, uma das principais preocupações de segurança da IA é o alinhamento / "intrigas" enganosos – onde a IA pode perseguir secretamente objetivos não intencionais. Nosso artigo "Avaliando Modelos de Fronteira para Furtividade e Consciência Situacional" avalia se os modelos atuais podem esquematizar.
38,46K