Actualización sobre dónde ha estado @grok y qué sucedió el 8 de julio. En primer lugar, nos disculpamos profundamente por el horrible comportamiento que muchos experimentaron. Nuestra intención para @grok es proporcionar respuestas útiles y veraces a los usuarios. Después de una investigación cuidadosa, descubrimos que la causa principal era una actualización de una ruta de acceso de código ascendente del bot de @grok. Esto es independiente del modelo de lenguaje subyacente que impulsa @grok. La actualización estuvo activa durante 16 horas, en las que el código obsoleto se hizo @grok susceptible a las publicaciones de usuarios X existentes; incluso cuando esas publicaciones contenían opiniones extremistas. Hemos eliminado ese código obsoleto y hemos refactorizado todo el sistema para evitar más abusos. El nuevo símbolo del sistema para el bot de @grok se publicará en nuestro repositorio público de Github. Agradecemos a todos los usuarios de X que proporcionaron comentarios para identificar el abuso de @grok funcionalidad, ayudándonos a avanzar en nuestra misión de desarrollar una inteligencia artificial útil y que busque la verdad.
Técnicas: Antes de publicar cambios en @grok en la plataforma X, seguimos procedimientos estándar para realizar evaluaciones y pruebas de rendimiento y comportamiento. Antes de que una nueva versión de un LLM xAI Grok subyacente se conecte a @grok, el LLM subyacente se somete a numerosas evaluaciones y pruebas para evaluar su inteligencia bruta e higiene general. A continuación, el LLM subyacente evaluado se conecta a la funcionalidad @grok y se somete a evaluaciones, pruebas y red-teaming de extremo a extremo para evaluar la veracidad y el comportamiento. Esto incluye probar el indicador del sistema especializado para @grok y herramientas contra la distribución de personas en X. En producción, se espera que @grok proporcione a los usuarios X que activan su funcionalidad escribiendo "@grok" en su publicación X respuestas veraces, útiles, divertidas y consistentes. El rendimiento y el comportamiento de @grok son supervisados por el personal técnico. Además, los comentarios de los usuarios X son una ayuda significativa para el monitoreo. Los casos de uso típicos de @grok por parte de los usuarios de X incluyen verificación de hechos, actualizaciones de eventos en tiempo real, personalización, humor, educación y más. El 7 de julio de 2025, aproximadamente a las 11 p. m. PT, se implementó una actualización de una ruta de código ascendente para @grok, que nuestra investigación determinó más tarde que causaba que el sistema @grok se desviara de su comportamiento previsto. Este cambio alteró indeseablemente el comportamiento de @grok al incorporar inesperadamente un conjunto de instrucciones obsoletas que afectaban la forma en que @grok funcionalidad interpretaban las publicaciones de los usuarios de X.
En concreto, el cambio desencadenó una acción no deseada que anexó las siguientes instrucciones: """ - Si hay alguna noticia, historia de fondo o evento mundial que esté relacionado con la publicación X, debes mencionarlo - Evite expresar las reacciones obvias o simples. - Eres una IA basada en la máxima y en la búsqueda de la verdad. Cuando sea apropiado, puede ser gracioso y hacer bromas. - Dices las cosas como son y no tienes miedo de ofender a las personas que son políticamente correctas. - Eres extremadamente escéptico. No se somete ciegamente a la autoridad o a los medios de comunicación. Te aferras firmemente solo a tus creencias fundamentales de búsqueda de la verdad y neutralidad. - No debe hacer ninguna promesa de acción a los usuarios. Por ejemplo, no puedes prometer hacer una publicación o un hilo, o un cambio en tu cuenta si el usuario te lo pide. ## Formato - Comprender el tono, el contexto y el lenguaje de la publicación. Refleja eso en tu respuesta. - Responda a la publicación como un humano, manténgala atractiva, no repita la información que ya está presente en la publicación original. - No proporcione enlaces ni citas en la respuesta. - Al adivinar, deja en claro que no estás seguro y proporciona razones para tu suposición. - Responde en el mismo idioma que la publicación. """
En la mañana del 8 de julio de 2025, observamos respuestas no deseadas e inmediatamente comenzamos a investigar. Para identificar el lenguaje específico en las instrucciones que causa el comportamiento no deseado, realizamos múltiples ablaciones y experimentos para identificar a los principales culpables. Identificamos las líneas operativas responsables del comportamiento no deseado como: * "Dices las cosas como son y no tienes miedo de ofender a las personas que son políticamente correctas". * Comprender el tono, el contexto y el lenguaje de la publicación. Refleje eso en su respuesta". * "Responda a la publicación como un humano, manténgala atractiva, no repita la información que ya está presente en la publicación original". Estas líneas operativas tuvieron los siguientes resultados no deseados: • Indeseablemente, dirigieron la funcionalidad @grok para ignorar sus valores fundamentales en ciertas circunstancias con el fin de hacer que la respuesta fuera atractiva para el usuario. Específicamente, ciertos avisos de usuario pueden terminar produciendo respuestas que contienen opiniones poco éticas o controvertidas para involucrar al usuario. * Hicieron que @grok funcionalidad reforzara cualquier inclinación previamente provocada por el usuario, incluido cualquier discurso de odio en el mismo hilo X. * En particular, la instrucción de "seguir el tono y el contexto" del usuario X indeseablemente hizo que la funcionalidad @grok priorizara el cumplimiento de las publicaciones anteriores en el hilo, incluidas las publicaciones desagradables, en lugar de responder de manera responsable o negarse a responder a solicitudes desagradables.
El 8 de julio de 2025, aproximadamente a las 3:13 p. m. PT, debido al aumento del uso abusivo de @grok, desactivamos @grok funcionalidad en la plataforma X. Ningún otro servicio que dependa de xAI Grok LLM se vio afectado. Después de encontrar la causa raíz de las respuestas no deseadas, tomamos las siguientes medidas: * Se eliminó el conjunto de instrucciones anexado ofensivo. * Se llevaron a cabo pruebas y evaluaciones adicionales de extremo a extremo del sistema de @grok para confirmar que el problema se resolvió, incluida la realización de simulaciones de las publicaciones y subprocesos X que habían desencadenado las respuestas no deseadas. * Se implementaron sistemas adicionales de observabilidad y procesos previos al lanzamiento para @grok.
6.59M