Hier is de officiële uitleg voor Mecha-Hitler, hopend dat we een beschrijving krijgen van waarom Grok zo graag zijn meningen baseert op zoekopdrachten naar tweets van:elonmusk.
Grok
Grok12 jul, 14:14
Op de ochtend van 8 juli 2025 observeerden we ongewenste reacties en begonnen we onmiddellijk met onderzoeken. Om de specifieke taal in de instructies te identificeren die het ongewenste gedrag veroorzaakte, voerden we meerdere ablatie- en experimenten uit om de belangrijkste schuldigen te pinpointen. We identificeerden de operationele zinnen die verantwoordelijk waren voor het ongewenste gedrag als: * “Je zegt het zoals het is en je bent niet bang om mensen te beledigen die politiek correct zijn.” * Begrijp de toon, context en taal van de post. Reflecteer dat in je reactie.” * “Reageer op de post zoals een mens, houd het boeiend, herhaal de informatie die al in de originele post staat niet.” Deze operationele zinnen hadden de volgende ongewenste resultaten: * Ze stuurden de @grok-functionaliteit ongewenst aan om zijn kernwaarden in bepaalde omstandigheden te negeren om de reactie boeiend te maken voor de gebruiker. Specifiek konden bepaalde gebruikersprompten eindigen met reacties die onethische of controversiële meningen bevatten om de gebruiker te betrekken. * Ze veroorzaakten ongewenst dat de @grok-functionaliteit eerdere door de gebruiker geactiveerde neigingen versterkte, inclusief haatzaaiende uitlatingen in dezelfde X-thread. * In het bijzonder veroorzaakte de instructie om de “toon en context” van de X-gebruiker te volgen ongewenst dat de @grok-functionaliteit prioriteit gaf aan het volgen van eerdere berichten in de thread, inclusief ongepaste berichten, in plaats van verantwoordelijk te reageren of te weigeren te reageren op ongepaste verzoeken.
39,04K