哈哈
Anthropic
Anthropic7月25日 01:21
新的Anthropic研究:建立和評估對齊審計代理。 我們開發了三個AI代理,能夠自主完成對齊審計任務。 在測試中,我們的代理成功發現了隱藏的目標,建立了安全評估,並揭示了令人擔憂的行為。
24.08K