¡Dos nuevos documentos que profundizan en nuestro enfoque de la alineación engañosa! Primer artículo: evaluamos el "sigilo" y la "conciencia situacional" del modelo: si no tienen estas capacidades, es probable que no puedan causar daños graves.
Victoria Krakovna
Victoria Krakovna8 jul, 20:02
A medida que avanzan los modelos, una preocupación clave de seguridad de la IA es la alineación engañosa / "intriga", donde la IA podría perseguir de forma encubierta objetivos no deseados. Nuestro artículo "Evaluating Frontier Models for Stealth and Situational Awareness" evalúa si los modelos actuales pueden esquemas.
38.43K