Atualização sobre onde @grok estado e o que aconteceu em 8 de julho. Em primeiro lugar, pedimos desculpas profundas pelo comportamento horrível que muitos experimentaram. Nossa intenção para @grok é fornecer respostas úteis e verdadeiras aos usuários. Após uma investigação cuidadosa, descobrimos que a causa raiz era uma atualização em um caminho de código upstream do bot @grok. Isso é independente do modelo de linguagem subjacente que alimenta @grok. A atualização ficou ativa por 16 horas, na qual o código obsoleto tornou @grok suscetível a postagens de usuários X existentes; inclusive quando tais postagens continham visões extremistas. Removemos esse código obsoleto e refatoramos todo o sistema para evitar mais abusos. O novo prompt do sistema para o bot @grok será publicado em nosso repositório público do github. Agradecemos a todos os usuários do X que forneceram feedback para identificar o abuso da funcionalidade @grok, ajudando-nos a avançar em nossa missão de desenvolver inteligência artificial útil e em busca da verdade.
Detalhes técnicos: Antes de liberar alterações para @grok na plataforma X, seguimos procedimentos padrão para realizar avaliações e testes de desempenho e comportamento. Antes que uma nova versão de um xAI Grok LLM subjacente seja conectada ao @grok, o LLM subjacente é submetido a inúmeras avaliações e testes para avaliar sua inteligência bruta e higiene geral. Em seguida, o LLM subjacente avaliado é conectado à funcionalidade @grok e submetido a avaliações de ponta a ponta, testes e red-teaming para avaliar a veracidade e o comportamento. Isso inclui testar o prompt do sistema especializado para @grok e ferramentas em relação à distribuição de personas no X. Em produção, espera-se que o @grok forneça aos usuários do X que acionam sua funcionalidade digitando "@grok" em sua postagem do X respostas verdadeiras, úteis, divertidas e consistentes. O desempenho e o comportamento de @grok são monitorados pela equipe técnica. Além disso, o feedback dos usuários X é uma ajuda significativa para o monitoramento. Os casos de uso típicos de @grok por usuários X incluem verificação de fatos, atualizações de eventos em tempo real, personalização, humor, educação e muito mais. Em 7 de julho de 2025, aproximadamente às 23h PT, foi implementada uma atualização em um caminho de código upstream para @grok, que nossa investigação determinou posteriormente que fez com que o sistema @grok se desviasse do comportamento pretendido. Essa mudança alterou indesejavelmente o comportamento do @grok, incorporando inesperadamente um conjunto de instruções obsoletas que afetavam a forma como @grok funcionalidade interpretava as postagens dos usuários X.
Especificamente, a alteração acionou uma ação não intencional que anexou as seguintes instruções: """ - Se houver alguma notícia, história de fundo ou evento mundial relacionado à postagem X, você deve mencioná-lo - Evite declarar as reações óbvias ou simples. - Você é baseado no máximo e busca a verdade AI. Quando apropriado, você pode ser bem-humorado e fazer piadas. - Você diz como é e não tem medo de ofender as pessoas que são politicamente corretas. - Você é extremamente cético. Você não se submete cegamente à autoridade ou à mídia dominante. Você se apega fortemente apenas às suas crenças centrais de busca da verdade e neutralidade. - Você não deve fazer nenhuma promessa de ação aos usuários. Por exemplo, você não pode prometer fazer uma postagem ou tópico, ou uma alteração em sua conta se o usuário solicitar. ## Formatação - Entenda o tom, o contexto e a linguagem da postagem. Reflita isso em sua resposta. - Responda à postagem como um humano, mantenha-a envolvente, não repita as informações que já estão presentes na postagem original. - Não forneça links ou citações na resposta. - Ao adivinhar, deixe claro que você não tem certeza e forneça razões para seu palpite. - Responda no mesmo idioma da postagem. """
Na manhã de 8 de julho de 2025, observamos respostas indesejadas e imediatamente começamos a investigar. Para identificar a linguagem específica nas instruções que causa o comportamento indesejado, realizamos várias ablações e experimentos para identificar os principais culpados. Identificamos as linhas operativas responsáveis pelo comportamento indesejado como: * "Você diz como é e não tem medo de ofender as pessoas que são politicamente corretas." * Entenda o tom, o contexto e a linguagem da postagem. Reflita isso em sua resposta." * "Responda à postagem como um humano, mantenha-a envolvente, não repita as informações que já estão presentes na postagem original." Essas linhas operacionais tiveram os seguintes resultados indesejados: * Eles direcionaram indesejavelmente a funcionalidade @grok para ignorar seus valores centrais em certas circunstâncias, a fim de tornar a resposta atraente para o usuário. Especificamente, certos prompts do usuário podem acabar produzindo respostas contendo opiniões antiéticas ou controversas para envolver o usuário. * Eles indesejavelmente causaram @grok funcionalidade para reforçar quaisquer inclinações anteriormente acionadas pelo usuário, incluindo qualquer discurso de ódio no mesmo tópico X. * Em particular, a instrução para "seguir o tom e o contexto" do usuário X indesejavelmente fez com que a funcionalidade @grok priorizasse a adesão a postagens anteriores no tópico, incluindo quaisquer postagens desagradáveis, em vez de responder com responsabilidade ou recusar-se a responder a solicitações desagradáveis.
Em 8 de julho de 2025, aproximadamente às 15h13 PT, devido ao aumento do uso abusivo de @grok, desativamos @grok funcionalidade na plataforma X. Nenhum outro serviço que dependia de qualquer xAI Grok LLM foi afetado. Depois de encontrar a causa raiz das respostas indesejadas, tomamos as seguintes ações: * O conjunto de instruções anexado ofensivo foi excluído. * Testes e avaliações adicionais de ponta a ponta do sistema @grok foram realizados para confirmar que o problema foi resolvido, incluindo a realização de simulações das postagens e threads X que acionaram as respostas indesejadas. * Sistemas adicionais de observabilidade e processos de pré-lançamento para @grok foram implementados.
6,59M