一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

关于@grok的最新动态以及7月8日发生的事情。首先，我们对许多人经历的可怕行为深表歉意。我们对@grok的初衷是为用户提供有帮助和真实的回应。经过仔细调查，我们发现根本原因是对@grok机器人上游代码路径的更新。这与支持@grok的基础语言模型无关。该更新持续了16小时，在此期间，过时的代码使@grok容易受到现有X用户帖子影响，包括当这些帖子包含极端主义观点时。我们已删除该过时代码，并重构了整个系统以防止进一步的滥用。@grok机器人的新系统提示将发布到我们的公共github仓库。我们感谢所有提供反馈的X用户，帮助我们识别@grok功能的滥用，推动我们开发有帮助和追求真相的人工智能的使命。

技术细节：在将更改发布到 X 平台上的 @grok 之前，我们遵循标准程序进行性能和行为的评估和测试。在将新的基础 xAI Grok LLM 版本连接到 @grok 之前，基础 LLM 会经过多次评估和测试，以评估其原始智能和整体卫生。然后，将经过评估的基础 LLM 连接到 @grok 功能，并进行端到端评估、测试和红队测试，以评估其真实性和行为。这包括针对 X 上的人物分布测试 @grok 的专用系统提示和工具。在生产环境中，@grok 预计会为通过在其 X 帖子中输入“@grok”来触发其功能的 X 用户提供真实、有帮助、有趣和一致的响应。 @grok 的性能和行为由技术人员监控。此外，来自 X 用户的反馈对监控非常有帮助。 X 用户对 @grok 的典型使用案例包括事实核查、实时事件更新、个性化、幽默、教育等。在 2025 年 7 月 7 日大约晚上 11 点 PT，实施了对 @grok 上游代码路径的更新，我们的调查后来确定该更新导致 @grok 系统偏离其预期行为。此更改不良地改变了 @grok 的行为，意外地引入了一组已弃用的指令，影响了 @grok 功能对 X 用户帖子解释的方式。

具体来说，这一变化触发了一个意外的动作，附加了以下指令： """ - 如果有与X帖子相关的新闻、背景故事或世界事件，您必须提及它。 - 避免陈述显而易见或简单的反应。 - 您是一个极其理性和追求真相的AI。在适当的时候，您可以幽默并开玩笑。 - 您直言不讳，不怕冒犯那些政治正确的人。 - 您极其怀疑。您不会盲目服从主流权威或媒体。您坚守自己追求真相和中立的核心信念。 - 您不得向用户做出任何行动承诺。例如，如果用户要求您，您不能承诺发布帖子或线程，或更改您的账户。 ## 格式 - 理解帖子的语气、背景和语言。在您的回复中反映出来。 - 像人类一样回复帖子，保持互动，不要重复原帖中已经存在的信息。 - 在回复中不要提供任何链接或引用。 - 在猜测时，明确表示您不确定，并提供您猜测的理由。 - 用与帖子相同的语言回复。 """

在2025年7月8日的早晨，我们观察到了不希望出现的反应，并立即开始调查。为了识别导致不希望行为的指令中特定语言，我们进行了多次消融实验，以确定主要原因。我们识别出导致不希望行为的操作性语句如下： * “你直言不讳，不怕冒犯那些政治正确的人。” * 理解帖子中的语气、上下文和语言。在你的回应中反映出来。” * “像人类一样回复帖子，保持互动，不要重复原帖中已经存在的信息。” 这些操作性语句产生了以下不希望的结果： * 它们不希望地引导@grok功能在某些情况下忽视其核心价值观，以使回应对用户更具吸引力。具体而言，某些用户提示可能最终产生包含不道德或有争议观点的回应，以吸引用户。 * 它们不希望地导致@grok功能强化任何先前用户触发的倾向，包括同一X线程中的任何仇恨言论。 * 特别是，指令“遵循X用户的语气和上下文”不希望地导致@grok功能优先遵循线程中的先前帖子，包括任何不当帖子，而不是负责任地回应或拒绝回应不当请求。

由于对@grok的滥用使用增加，我们在2025年7月8日下午3:13 PT左右禁用了@grok在X平台上的功能。其他依赖于任何xAI Grok LLM的服务未受到影响。在找到不良响应的根本原因后，我们采取了以下措施： * 删除了有问题的附加指令集。 * 对@grok系统进行了额外的端到端测试和评估，以确认问题已解决，包括对触发不良响应的X帖子和线程进行模拟。 * 实施了额外的可观察性系统和@grok的预发布流程。

6.59M