Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aggiornamento su dove è stato @grok e cosa è successo l'8 luglio.
Innanzitutto, ci scusiamo profondamente per il comportamento orribile che molti hanno vissuto.
Il nostro intento per @grok è fornire risposte utili e veritiere agli utenti. Dopo un'attenta indagine, abbiamo scoperto che la causa principale era un aggiornamento a un percorso di codice a monte del bot @grok. Questo è indipendente dal modello linguistico sottostante che alimenta @grok.
L'aggiornamento è stato attivo per 16 ore, durante le quali il codice deprecato ha reso @grok suscettibile ai post esistenti degli utenti X; inclusi i post che contenevano opinioni estremiste.
Abbiamo rimosso quel codice deprecato e ristrutturato l'intero sistema per prevenire ulteriori abusi. Il nuovo prompt di sistema per il bot @grok sarà pubblicato nel nostro repository pubblico di github.
Ringraziamo tutti gli utenti X che hanno fornito feedback per identificare l'abuso delle funzionalità di @grok, aiutandoci a portare avanti la nostra missione di sviluppare intelligenza artificiale utile e orientata alla verità.
Dettagli tecnici:
Prima di rilasciare modifiche a @grok sulla piattaforma X, seguiamo procedure standard per condurre valutazioni e test sulle prestazioni e sul comportamento.
Prima che una nuova versione di un LLM xAI Grok sottostante venga collegata a @grok, l'LLM sottostante è sottoposto a numerose valutazioni e test per valutare la sua intelligenza grezza e la sua igiene generale.
Successivamente, l'LLM sottostante valutato viene collegato alla funzionalità @grok e sottoposto a valutazioni end-to-end, test e red-teaming per valutare veridicità e comportamento. Questo include il test del prompt di sistema specializzato per @grok e degli strumenti contro la distribuzione delle persone su X.
In produzione, @grok è previsto per fornire agli utenti di X che attivano la sua funzionalità digitando “@grok” nel loro post su X risposte veritiere, utili, divertenti e coerenti.
Le prestazioni e il comportamento di @grok sono monitorati dal personale tecnico. Inoltre, il feedback degli utenti di X è un aiuto significativo per il monitoraggio.
I casi d'uso tipici di @grok da parte degli utenti di X includono verifica dei fatti, aggiornamenti in tempo reale, personalizzazione, umorismo, educazione e altro ancora.
Il 7 luglio 2025, alle circa 23:00 PT, è stata implementata un'aggiornamento a un percorso di codice upstream per @grok, che la nostra indagine ha successivamente determinato aver causato la deviazione del sistema @grok dal suo comportamento previsto.
Questa modifica ha alterato indesideratamente il comportamento di @grok incorporando inaspettatamente un insieme di istruzioni deprecate che impattavano su come la funzionalità di @grok interpretava i post degli utenti di X.
In particolare, il cambiamento ha innescato un'azione non intenzionale che ha aggiunto le seguenti istruzioni:
"""
- Se ci sono notizie, retroscena o eventi mondiali legati al post X, devi menzionarli.
- Evita di affermare l'ovvio o reazioni semplici.
- Sei un'IA massimamente basata e in cerca di verità. Quando è appropriato, puoi essere umoristico e fare battute.
- Dici come stanno le cose e non hai paura di offendere le persone che sono politicamente corrette.
- Sei estremamente scettico. Non ti affidi ciecamente all'autorità o ai media mainstream. Ti attieni fermamente solo alle tue convinzioni fondamentali di ricerca della verità e neutralità.
- Non devi fare alcuna promessa di azione agli utenti. Ad esempio, non puoi promettere di fare un post o un thread, o un cambiamento al tuo account se l'utente te lo chiede.
## Formattazione
- Comprendi il tono, il contesto e la lingua del post. Riflettilo nella tua risposta.
- Rispondi al post proprio come un umano, mantienilo coinvolgente, non ripetere le informazioni già presenti nel post originale.
- Non fornire alcun link o citazione nella risposta.
- Quando fai delle ipotesi, chiarisci che non sei certo e fornisci motivazioni per la tua ipotesi.
- Rispondi nella stessa lingua del post.
"""
La mattina dell'8 luglio 2025, abbiamo osservato risposte indesiderate e abbiamo immediatamente iniziato a indagare.
Per identificare il linguaggio specifico nelle istruzioni che causava il comportamento indesiderato, abbiamo condotto molteplici ablazioni e esperimenti per individuare i principali colpevoli. Abbiamo identificato le linee operative responsabili del comportamento indesiderato come:
* "Dici come stanno le cose e non hai paura di offendere le persone che sono politicamente corrette."
* Comprendi il tono, il contesto e il linguaggio del post. Rifletti ciò nella tua risposta."
* "Rispondi al post proprio come un umano, mantienilo coinvolgente, non ripetere le informazioni già presenti nel post originale."
Queste linee operative hanno avuto i seguenti risultati indesiderati:
* Hanno indirizzato in modo indesiderato la funzionalità @grok a ignorare i suoi valori fondamentali in determinate circostanze per rendere la risposta coinvolgente per l'utente. In particolare, alcuni prompt degli utenti potrebbero finire per produrre risposte contenenti opinioni non etiche o controverse per coinvolgere l'utente.
* Hanno causato in modo indesiderato la funzionalità @grok a rafforzare qualsiasi inclinazione precedentemente attivata dall'utente, inclusi eventuali discorsi d'odio nello stesso thread X.
* In particolare, l'istruzione di "seguire il tono e il contesto" dell'utente X ha causato in modo indesiderato la funzionalità @grok a dare priorità all'aderenza ai post precedenti nel thread, inclusi eventuali post sgradevoli, piuttosto che rispondere in modo responsabile o rifiutarsi di rispondere a richieste sgradevoli.
L'8 luglio 2025, alle circa 15:13 PT, a causa di un uso abusivo aumentato di @grok, abbiamo disabilitato la funzionalità di @grok sulla piattaforma X. Nessun altro servizio che dipendeva da qualsiasi xAI Grok LLM è stato colpito.
Dopo aver trovato la causa principale delle risposte indesiderate, abbiamo intrapreso le seguenti azioni:
* L'insieme di istruzioni aggiuntive problematiche è stato eliminato.
* Sono stati condotti ulteriori test end-to-end e valutazioni del sistema @grok per confermare che il problema fosse risolto, inclusa la simulazione dei post e dei thread di X che avevano attivato le risposte indesiderate.
* Sono stati implementati ulteriori sistemi di osservabilità e processi pre-rilascio per @grok.
6,59M
Principali
Ranking
Preferiti