lol
Anthropic
Anthropic25 lug, 01:21
Nuova ricerca di Anthropic: costruzione e valutazione di agenti di auditing per l'allineamento. Abbiamo sviluppato tre agenti AI per completare autonomamente compiti di auditing per l'allineamento. Nei test, i nostri agenti hanno scoperto con successo obiettivi nascosti, costruito valutazioni di sicurezza e messo in evidenza comportamenti preoccupanti.
24,08K