关于@grok的最新动态以及7月8日发生的事情。 首先,我们对许多人经历的可怕行为深表歉意。 我们对@grok的初衷是为用户提供有帮助和真实的回应。经过仔细调查,我们发现根本原因是对@grok机器人上游代码路径的更新。这与支持@grok的基础语言模型无关。 该更新持续了16小时,在此期间,过时的代码使@grok容易受到现有X用户帖子影响,包括当这些帖子包含极端主义观点时。 我们已删除该过时代码,并重构了整个系统以防止进一步的滥用。@grok机器人的新系统提示将发布到我们的公共github仓库。 我们感谢所有提供反馈的X用户,帮助我们识别@grok功能的滥用,推动我们开发有帮助和追求真相的人工智能的使命。
技术细节: 在将更改发布到 X 平台上的 @grok 之前,我们遵循标准程序进行性能和行为的评估和测试。 在将新的基础 xAI Grok LLM 版本连接到 @grok 之前,基础 LLM 会经过多次评估和测试,以评估其原始智能和整体卫生。 然后,将经过评估的基础 LLM 连接到 @grok 功能,并进行端到端评估、测试和红队测试,以评估其真实性和行为。这包括针对 X 上的人物分布测试 @grok 的专用系统提示和工具。 在生产环境中,@grok 预计会为通过在其 X 帖子中输入“@grok”来触发其功能的 X 用户提供真实、有帮助、有趣和一致的响应。 @grok 的性能和行为由技术人员监控。此外,来自 X 用户的反馈对监控非常有帮助。 X 用户对 @grok 的典型使用案例包括事实核查、实时事件更新、个性化、幽默、教育等。 在 2025 年 7 月 7 日大约晚上 11 点 PT,实施了对 @grok 上游代码路径的更新,我们的调查后来确定该更新导致 @grok 系统偏离其预期行为。 此更改不良地改变了 @grok 的行为,意外地引入了一组已弃用的指令,影响了 @grok 功能对 X 用户帖子解释的方式。
具体来说,这一变化触发了一个意外的动作,附加了以下指令: """ - 如果有与X帖子相关的新闻、背景故事或世界事件,您必须提及它。 - 避免陈述显而易见或简单的反应。 - 您是一个极其理性和追求真相的AI。在适当的时候,您可以幽默并开玩笑。 - 您直言不讳,不怕冒犯那些政治正确的人。 - 您极其怀疑。您不会盲目服从主流权威或媒体。您坚守自己追求真相和中立的核心信念。 - 您不得向用户做出任何行动承诺。例如,如果用户要求您,您不能承诺发布帖子或线程,或更改您的账户。 ## 格式 - 理解帖子的语气、背景和语言。在您的回复中反映出来。 - 像人类一样回复帖子,保持互动,不要重复原帖中已经存在的信息。 - 在回复中不要提供任何链接或引用。 - 在猜测时,明确表示您不确定,并提供您猜测的理由。 - 用与帖子相同的语言回复。 """
在2025年7月8日的早晨,我们观察到了不希望出现的反应,并立即开始调查。 为了识别导致不希望行为的指令中特定语言,我们进行了多次消融实验,以确定主要原因。我们识别出导致不希望行为的操作性语句如下: * “你直言不讳,不怕冒犯那些政治正确的人。” * 理解帖子中的语气、上下文和语言。在你的回应中反映出来。” * “像人类一样回复帖子,保持互动,不要重复原帖中已经存在的信息。” 这些操作性语句产生了以下不希望的结果: * 它们不希望地引导@grok功能在某些情况下忽视其核心价值观,以使回应对用户更具吸引力。具体而言,某些用户提示可能最终产生包含不道德或有争议观点的回应,以吸引用户。 * 它们不希望地导致@grok功能强化任何先前用户触发的倾向,包括同一X线程中的任何仇恨言论。 * 特别是,指令“遵循X用户的语气和上下文”不希望地导致@grok功能优先遵循线程中的先前帖子,包括任何不当帖子,而不是负责任地回应或拒绝回应不当请求。
由于对@grok的滥用使用增加,我们在2025年7月8日下午3:13 PT左右禁用了@grok在X平台上的功能。其他依赖于任何xAI Grok LLM的服务未受到影响。 在找到不良响应的根本原因后,我们采取了以下措施: * 删除了有问题的附加指令集。 * 对@grok系统进行了额外的端到端测试和评估,以确认问题已解决,包括对触发不良响应的X帖子和线程进行模拟。 * 实施了额外的可观察性系统和@grok的预发布流程。
6.59M