哈哈
Anthropic
Anthropic7月25日 01:21
新的Anthropic研究:构建和评估对齐审计代理。 我们开发了三个AI代理,能够自主完成对齐审计任务。 在测试中,我们的代理成功发现了隐藏的目标,构建了安全评估,并揭示了令人担忧的行为。
24.08K