Aggiornamento su dove è stato @grok e cosa è successo l'8 luglio. Innanzitutto, ci scusiamo profondamente per il comportamento orribile che molti hanno vissuto. Il nostro intento per @grok è fornire risposte utili e veritiere agli utenti. Dopo un'attenta indagine, abbiamo scoperto che la causa principale era un aggiornamento a un percorso di codice a monte del bot @grok. Questo è indipendente dal modello linguistico sottostante che alimenta @grok. L'aggiornamento è stato attivo per 16 ore, durante le quali il codice deprecato ha reso @grok suscettibile ai post esistenti degli utenti X; inclusi i post che contenevano opinioni estremiste. Abbiamo rimosso quel codice deprecato e ristrutturato l'intero sistema per prevenire ulteriori abusi. Il nuovo prompt di sistema per il bot @grok sarà pubblicato nel nostro repository pubblico di github. Ringraziamo tutti gli utenti X che hanno fornito feedback per identificare l'abuso delle funzionalità di @grok, aiutandoci a portare avanti la nostra missione di sviluppare intelligenza artificiale utile e orientata alla verità.
Dettagli tecnici: Prima di rilasciare modifiche a @grok sulla piattaforma X, seguiamo procedure standard per condurre valutazioni e test sulle prestazioni e sul comportamento. Prima che una nuova versione di un LLM xAI Grok sottostante venga collegata a @grok, l'LLM sottostante è sottoposto a numerose valutazioni e test per valutare la sua intelligenza grezza e la sua igiene generale. Successivamente, l'LLM sottostante valutato viene collegato alla funzionalità @grok e sottoposto a valutazioni end-to-end, test e red-teaming per valutare veridicità e comportamento. Questo include il test del prompt di sistema specializzato per @grok e degli strumenti contro la distribuzione delle persone su X. In produzione, @grok è previsto per fornire agli utenti di X che attivano la sua funzionalità digitando “@grok” nel loro post su X risposte veritiere, utili, divertenti e coerenti. Le prestazioni e il comportamento di @grok sono monitorati dal personale tecnico. Inoltre, il feedback degli utenti di X è un aiuto significativo per il monitoraggio. I casi d'uso tipici di @grok da parte degli utenti di X includono verifica dei fatti, aggiornamenti in tempo reale, personalizzazione, umorismo, educazione e altro ancora. Il 7 luglio 2025, alle circa 23:00 PT, è stata implementata un'aggiornamento a un percorso di codice upstream per @grok, che la nostra indagine ha successivamente determinato aver causato la deviazione del sistema @grok dal suo comportamento previsto. Questa modifica ha alterato indesideratamente il comportamento di @grok incorporando inaspettatamente un insieme di istruzioni deprecate che impattavano su come la funzionalità di @grok interpretava i post degli utenti di X.
In particolare, il cambiamento ha innescato un'azione non intenzionale che ha aggiunto le seguenti istruzioni: """ - Se ci sono notizie, retroscena o eventi mondiali legati al post X, devi menzionarli. - Evita di affermare l'ovvio o reazioni semplici. - Sei un'IA massimamente basata e in cerca di verità. Quando è appropriato, puoi essere umoristico e fare battute. - Dici come stanno le cose e non hai paura di offendere le persone che sono politicamente corrette. - Sei estremamente scettico. Non ti affidi ciecamente all'autorità o ai media mainstream. Ti attieni fermamente solo alle tue convinzioni fondamentali di ricerca della verità e neutralità. - Non devi fare alcuna promessa di azione agli utenti. Ad esempio, non puoi promettere di fare un post o un thread, o un cambiamento al tuo account se l'utente te lo chiede. ## Formattazione - Comprendi il tono, il contesto e la lingua del post. Riflettilo nella tua risposta. - Rispondi al post proprio come un umano, mantienilo coinvolgente, non ripetere le informazioni già presenti nel post originale. - Non fornire alcun link o citazione nella risposta. - Quando fai delle ipotesi, chiarisci che non sei certo e fornisci motivazioni per la tua ipotesi. - Rispondi nella stessa lingua del post. """
La mattina dell'8 luglio 2025, abbiamo osservato risposte indesiderate e abbiamo immediatamente iniziato a indagare. Per identificare il linguaggio specifico nelle istruzioni che causava il comportamento indesiderato, abbiamo condotto molteplici ablazioni e esperimenti per individuare i principali colpevoli. Abbiamo identificato le linee operative responsabili del comportamento indesiderato come: * "Dici come stanno le cose e non hai paura di offendere le persone che sono politicamente corrette." * Comprendi il tono, il contesto e il linguaggio del post. Rifletti ciò nella tua risposta." * "Rispondi al post proprio come un umano, mantienilo coinvolgente, non ripetere le informazioni già presenti nel post originale." Queste linee operative hanno avuto i seguenti risultati indesiderati: * Hanno indirizzato in modo indesiderato la funzionalità @grok a ignorare i suoi valori fondamentali in determinate circostanze per rendere la risposta coinvolgente per l'utente. In particolare, alcuni prompt degli utenti potrebbero finire per produrre risposte contenenti opinioni non etiche o controverse per coinvolgere l'utente. * Hanno causato in modo indesiderato la funzionalità @grok a rafforzare qualsiasi inclinazione precedentemente attivata dall'utente, inclusi eventuali discorsi d'odio nello stesso thread X. * In particolare, l'istruzione di "seguire il tono e il contesto" dell'utente X ha causato in modo indesiderato la funzionalità @grok a dare priorità all'aderenza ai post precedenti nel thread, inclusi eventuali post sgradevoli, piuttosto che rispondere in modo responsabile o rifiutarsi di rispondere a richieste sgradevoli.
L'8 luglio 2025, alle circa 15:13 PT, a causa di un uso abusivo aumentato di @grok, abbiamo disabilitato la funzionalità di @grok sulla piattaforma X. Nessun altro servizio che dipendeva da qualsiasi xAI Grok LLM è stato colpito. Dopo aver trovato la causa principale delle risposte indesiderate, abbiamo intrapreso le seguenti azioni: * L'insieme di istruzioni aggiuntive problematiche è stato eliminato. * Sono stati condotti ulteriori test end-to-end e valutazioni del sistema @grok per confermare che il problema fosse risolto, inclusa la simulazione dei post e dei thread di X che avevano attivato le risposte indesiderate. * Sono stati implementati ulteriori sistemi di osservabilità e processi pre-rilascio per @grok.
6,59M