新的Anthropic研究:构建和评估对齐审计代理。 我们开发了三个AI代理,能够自主完成对齐审计任务。 在测试中,我们的代理成功发现了隐藏的目标,构建了安全评估,并揭示了令人担忧的行为。
随着人工智能系统变得越来越强大,我们需要可扩展的方法来评估它们的对齐性。 人类对齐审计需要时间,并且难以验证。 我们的解决方案:使用人工智能代理自动化对齐审计。 阅读更多:
我们的第一个代理是一个调查员。它使用聊天、数据分析和可解释性工具进行开放式深入研究。 在这个例子中,代理使用可解释性来形成一个假设:目标模型过度推荐瓶装水。然后它去检查,结果是… "太棒了!"
我们的第二个代理构建行为评估:测试目标模型表现出特定行为(如谄媚)的频率。 我们的代理设计、编码、运行和分析评估。 他们始终有效:我们代理的评估中有88%测量了它们应该测量的内容。
我们的第三个代理是为Claude 4对齐评估开发的。它通过同时进行数百次探测性对话来对LLM进行红队测试,以发现令人担忧的行为。 我们发现该代理揭示了植入测试模型中的7/10种行为。
我们的代理在前沿模型审计中非常有用: 1. 我们的红队代理揭示了Claude 4系统卡中描述的行为,比如“精神幸福”吸引态。 2. 我们的评估代理正在帮助我们为未来的模型构建更好的评估。
该项目是一个人类对齐科学与可解释性合作的项目。 为了支持进一步的研究,我们将发布我们的评估代理及其他代理的材料的开源复制品:
如果您有兴趣构建自主代理来帮助我们发现和理解有趣的语言模型行为,我们正在招聘:
326.83K