lol
Anthropic
Anthropic25. Juli, 01:21
Neue Anthropic-Forschung: Aufbau und Bewertung von Alignment-Audit-Agenten. Wir haben drei KI-Agenten entwickelt, die autonom Alignment-Audit-Aufgaben abschließen. In Tests haben unsere Agenten erfolgreich verborgene Ziele aufgedeckt, Sicherheitsbewertungen erstellt und besorgniserregende Verhaltensweisen ans Licht gebracht.
24,24K