Mit dem Fortschritt der Modelle ist ein zentrales Sicherheitsanliegen der KI die täuschende Ausrichtung / "Intrigen" – bei der KI möglicherweise heimlich unbeabsichtigte Ziele verfolgt. Unser Papier "Evaluierung von Grenzmodellen für Stealth und Situationsbewusstsein" bewertet, ob aktuelle Modelle intrigieren können.
78,18K