Två nya artiklar som utvecklar vårt tillvägagångssätt för bedräglig anpassning! Första artikeln: vi utvärderar modellens *stealth* och *situationsmedvetenhet* -- om de inte har dessa förmågor kan de sannolikt inte orsaka allvarlig skada.
Victoria Krakovna
Victoria Krakovna8 juli 20:02
I takt med att modellerna utvecklas är ett viktigt säkerhetsproblem för AI vilseledande anpassning/"schemaläggning" – där AI i hemlighet kan sträva efter oavsiktliga mål. I vår uppsats "Evaluating Frontier Models for Stealth and Situational Awareness" bedömer vi om nuvarande modeller kan fungera som en systematisk modell.
38,47K