lol
Anthropic
Anthropic25 iul., 01:21
Noi cercetări antropice: Construirea și evaluarea agenților de audit de aliniere. Am dezvoltat trei agenți AI pentru a finaliza în mod autonom sarcinile de audit de aliniere. În timpul testelor, agenții noștri au descoperit cu succes obiective ascunse, au construit evaluări de siguranță și au scos la iveală comportamente îngrijorătoare.
24,26K