Zwei neue Arbeiten, die unseren Ansatz zur täuschenden Ausrichtung näher erläutern! Erste Arbeit: Wir bewerten die *Tarnung* und *Situationsbewusstsein* des Modells – wenn es diese Fähigkeiten nicht hat, kann es wahrscheinlich keinen schweren Schaden anrichten.
Victoria Krakovna
Victoria Krakovna8. Juli, 20:02
Mit dem Fortschritt der Modelle ist ein zentrales Sicherheitsanliegen der KI die täuschende Ausrichtung / "Intrigen" – bei der KI möglicherweise heimlich unbeabsichtigte Ziele verfolgt. Unser Papier "Evaluierung von Grenzmodellen für Stealth und Situationsbewusstsein" bewertet, ob aktuelle Modelle intrigieren können.
38,42K