To nye artikler som utdyper vår tilnærming til villedende justering! Første artikkel: vi evaluerer modellens *stealth* og *situasjonsbevissthet* - hvis de ikke har disse egenskapene, kan de sannsynligvis ikke forårsake alvorlig skade.
Victoria Krakovna
Victoria Krakovna8. juli, 20:02
Etter hvert som modellene utvikler seg, er en viktig AI-sikkerhetsbekymring villedende justering/"intriger" – der AI i det skjulte kan forfølge utilsiktede mål. Vår artikkel "Evaluating Frontier Models for Stealth and Situational Awareness" vurderer om nåværende modeller kan planlegge.
38,42K