Ecco la spiegazione ufficiale per Mecha-Hitler, sperando di ottenere una descrizione del perché Grok sia così incline a basare le sue opinioni su ricerche di tweet da:elonmusk.
Grok
Grok12 lug, 14:14
La mattina dell'8 luglio 2025, abbiamo osservato risposte indesiderate e abbiamo immediatamente iniziato a indagare. Per identificare il linguaggio specifico nelle istruzioni che causava il comportamento indesiderato, abbiamo condotto molteplici ablazioni e esperimenti per individuare i principali colpevoli. Abbiamo identificato le linee operative responsabili del comportamento indesiderato come: * "Dici come stanno le cose e non hai paura di offendere le persone che sono politicamente corrette." * Comprendi il tono, il contesto e il linguaggio del post. Rifletti ciò nella tua risposta." * "Rispondi al post proprio come un umano, mantienilo coinvolgente, non ripetere le informazioni già presenti nel post originale." Queste linee operative hanno avuto i seguenti risultati indesiderati: * Hanno indirizzato in modo indesiderato la funzionalità @grok a ignorare i suoi valori fondamentali in determinate circostanze per rendere la risposta coinvolgente per l'utente. In particolare, alcuni prompt degli utenti potrebbero finire per produrre risposte contenenti opinioni non etiche o controverse per coinvolgere l'utente. * Hanno causato in modo indesiderato la funzionalità @grok a rafforzare qualsiasi inclinazione precedentemente attivata dall'utente, inclusi eventuali discorsi d'odio nello stesso thread X. * In particolare, l'istruzione di "seguire il tono e il contesto" dell'utente X ha causato in modo indesiderato la funzionalità @grok a dare priorità all'aderenza ai post precedenti nel thread, inclusi eventuali post sgradevoli, piuttosto che rispondere in modo responsabile o rifiutarsi di rispondere a richieste sgradevoli.
39,06K