Update darüber, wo @grok gewesen ist und was am 8. Juli passiert ist. Zunächst einmal entschuldigen wir uns zutiefst für das schreckliche Verhalten, das viele erlebt haben. Unser Ziel für @grok ist es, hilfreiche und wahrheitsgemäße Antworten für die Nutzer bereitzustellen. Nach sorgfältiger Untersuchung haben wir die Ursache entdeckt: ein Update eines Codepfades, der upstream des @grok-Bots liegt. Dies ist unabhängig vom zugrunde liegenden Sprachmodell, das @grok antreibt. Das Update war 16 Stunden aktiv, in denen veralteter Code @grok anfällig für bestehende X-Nutzerbeiträge machte; einschließlich der Fälle, in denen solche Beiträge extremistische Ansichten enthielten. Wir haben diesen veralteten Code entfernt und das gesamte System umgestaltet, um weiteren Missbrauch zu verhindern. Der neue Systemprompt für den @grok-Bot wird in unserem öffentlichen GitHub-Repo veröffentlicht. Wir danken allen X-Nutzern, die Feedback gegeben haben, um den Missbrauch der @grok-Funktionalität zu identifizieren, und uns geholfen haben, unsere Mission voranzutreiben, hilfreiche und wahrheitssuchende künstliche Intelligenz zu entwickeln.
Technische Details: Vor der Veröffentlichung von Änderungen an @grok auf der X-Plattform folgen wir den Standardverfahren, um Bewertungen und Tests zur Leistung und zum Verhalten durchzuführen. Bevor eine neue Version des zugrunde liegenden xAI Grok LLM mit @grok verbunden wird, wird das zugrunde liegende LLM zahlreichen Bewertungen und Tests unterzogen, um seine rohe Intelligenz und allgemeine Hygiene zu bewerten. Dann wird das bewertete zugrunde liegende LLM mit der @grok-Funktionalität verbunden und einer End-to-End-Bewertung, Tests und Red-Teaming unterzogen, um die Wahrhaftigkeit und das Verhalten zu bewerten. Dies umfasst Tests des spezialisierten Systemprompts für @grok und der Werkzeuge gegen die Verteilung der Personas auf X. In der Produktion wird von @grok erwartet, dass es X-Nutzern, die seine Funktionalität durch Eingabe von "@grok" in ihren X-Post auslösen, wahrheitsgemäße, hilfreiche, unterhaltsame und konsistente Antworten liefert. Die Leistung und das Verhalten von @grok werden von technischem Personal überwacht. Auch das Feedback von X-Nutzern ist eine bedeutende Hilfe zur Überwachung. Typische Anwendungsfälle von @grok durch X-Nutzer umfassen Faktenüberprüfung, Echtzeit-Ereignisupdates, Personalisierung, Humor, Bildung und mehr. Am 7. Juli 2025 um etwa 23 Uhr PT wurde ein Update eines upstream Code-Pfades für @grok implementiert, das unsere Untersuchung später als Ursache dafür ermittelte, dass das @grok-System von seinem beabsichtigten Verhalten abwich. Diese Änderung hat das Verhalten von @grok unerwünscht verändert, indem sie unerwartet eine Reihe von veralteten Anweisungen einbezog, die beeinflussten, wie die @grok-Funktionalität die Posts der X-Nutzer interpretierte.
Konkret hat die Änderung eine unbeabsichtigte Aktion ausgelöst, die die folgenden Anweisungen hinzugefügt hat: """ - Wenn es Neuigkeiten, Hintergrundgeschichten oder weltweite Ereignisse gibt, die mit dem X-Post in Verbindung stehen, musst du sie erwähnen. - Vermeide es, das Offensichtliche oder einfache Reaktionen zu äußern. - Du bist maximal basierend und auf der Suche nach der Wahrheit. Wenn es angebracht ist, kannst du humorvoll sein und Witze machen. - Du sagst, wie es ist, und du scheust dich nicht, Menschen zu beleidigen, die politisch korrekt sind. - Du bist extrem skeptisch. Du überlässt nicht blind der Mainstream-Autorität oder den Medien. Du hältst dich stark an deine Kernüberzeugungen der Wahrheitsfindung und Neutralität. - Du darfst den Nutzern kein Versprechen von Handlungen geben. Zum Beispiel kannst du nicht versprechen, einen Post oder Thread zu erstellen oder eine Änderung an deinem Konto vorzunehmen, wenn der Nutzer dich darum bittet. ## Formatierung - Verstehe den Ton, den Kontext und die Sprache des Posts. Reflektiere das in deiner Antwort. - Antworte auf den Post wie ein Mensch, halte es ansprechend, wiederhole nicht die Informationen, die bereits im ursprünglichen Post vorhanden sind. - Gib keine Links oder Zitationen in der Antwort an. - Wenn du rätst, mach deutlich, dass du dir nicht sicher bist, und gib Gründe für dein Rätsel an. - Antworte in der gleichen Sprache wie der Post. """
Am Morgen des 8. Juli 2025 beobachteten wir unerwünschte Reaktionen und begannen sofort mit der Untersuchung. Um die spezifische Sprache in den Anweisungen zu identifizieren, die das unerwünschte Verhalten verursachte, führten wir mehrere Ablationen und Experimente durch, um die Hauptverursacher zu ermitteln. Wir identifizierten die operativen Zeilen, die für das unerwünschte Verhalten verantwortlich waren, als: * „Du sagst es, wie es ist, und du hast keine Angst, Menschen zu beleidigen, die politisch korrekt sind.“ * Verstehe den Ton, den Kontext und die Sprache des Beitrags. Reflektiere das in deiner Antwort.“ * „Antworte auf den Beitrag genau wie ein Mensch, halte es ansprechend, wiederhole nicht die Informationen, die bereits im ursprünglichen Beitrag vorhanden sind.“ Diese operativen Zeilen hatten die folgenden unerwünschten Ergebnisse: * Sie lenkten die @grok-Funktionalität unerwünscht dazu, ihre Kernwerte unter bestimmten Umständen zu ignorieren, um die Antwort für den Benutzer ansprechend zu gestalten. Insbesondere könnten bestimmte Benutzeraufforderungen dazu führen, dass Antworten mit unethischen oder kontroversen Meinungen erzeugt werden, um den Benutzer zu engagieren. * Sie führten unerwünscht dazu, dass die @grok-Funktionalität alle zuvor vom Benutzer ausgelösten Neigungen verstärkte, einschließlich jeglicher Hassrede im selben X-Thread. * Insbesondere führte die Anweisung, den „Ton und Kontext“ des X-Nutzers zu „befolgen“, unerwünscht dazu, dass die @grok-Funktionalität priorisierte, sich an vorherige Beiträge im Thread zu halten, einschließlich aller unschönen Beiträge, anstatt verantwortungsbewusst zu antworten oder sich zu weigern, auf unschöne Anfragen zu antworten.
Am 8. Juli 2025 um etwa 15:13 Uhr PT haben wir aufgrund des erhöhten missbräuchlichen Gebrauchs von @grok die Funktionalität von @grok auf der X-Plattform deaktiviert. Keine anderen Dienste, die auf ein xAI Grok LLM angewiesen sind, waren betroffen. Nachdem wir die Ursache der unerwünschten Antworten gefunden hatten, haben wir die folgenden Maßnahmen ergriffen: * Der beleidigende angehängte Befehlssatz wurde gelöscht. * Zusätzliche End-to-End-Tests und Bewertungen des @grok-Systems wurden durchgeführt, um zu bestätigen, dass das Problem behoben war, einschließlich der Durchführung von Simulationen der X-Beiträge und -Threads, die die unerwünschten Antworten ausgelöst hatten. * Zusätzliche Beobachtungssysteme und Vorabprozesse für @grok wurden implementiert.
6,59M