Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Actualizare despre unde @grok fost și ce s-a întâmplat pe 8 iulie.
În primul rând, ne cerem scuze profunde pentru comportamentul oribil pe care mulți l-au experimentat.
Intenția noastră pentru @grok este de a oferi răspunsuri utile și sincere utilizatorilor. După o investigație atentă, am descoperit că cauza principală a fost o actualizare a unei căi de cod în amonte de botul @grok. Acest lucru este independent de modelul lingvistic de bază care alimentează @grok.
Actualizarea a fost activă timp de 16 ore, în care codul învechit a făcut @grok susceptibil la postările existente ale utilizatorilor X; inclusiv atunci când astfel de postări conțineau opinii extremiste.
Am eliminat acel cod învechit și am refactorizat întregul sistem pentru a preveni abuzurile ulterioare. Noua solicitare de sistem pentru botul @grok va fi publicată în depozitul nostru public github.
Mulțumim tuturor utilizatorilor X care au oferit feedback pentru a identifica abuzul @grok funcționalității, ajutându-ne să avansăm misiunea noastră de a dezvolta inteligență artificială utilă și în căutarea adevărului.
Detalii tehnice:
Înainte de a lansa modificări ale @grok pe platforma X, urmăm procedurile standard pentru a efectua evaluări și teste pentru performanță și comportament.
Înainte ca o nouă versiune a unui LLM xAI Grok de bază să fie conectată la @grok, LLM de bază este supusă la numeroase evaluări și teste pentru a-i evalua inteligența brută și igiena generală.
Apoi, LLM-ul de bază evaluat este conectat la funcționalitatea @grok și supus evaluărilor end-to-end, testării și echipei roșii pentru a evalua veridicitatea și comportamentul. Aceasta include testarea promptului de sistem specializat pentru @grok și instrumente împotriva distribuției de personas pe X.
În producție, se așteaptă ca @grok să ofere utilizatorilor X care îi declanșează funcționalitatea tastând "@grok" în postarea lor X cu răspunsuri adevărate, utile, distractive și consistente.
Performanța și comportamentul @grok sunt monitorizate de personalul tehnic. De asemenea, feedback-ul de la utilizatorii X este un ajutor semnificativ pentru monitorizare.
Cazurile tipice de utilizare a @grok de către utilizatorii X includ verificarea faptelor, actualizări de evenimente în timp real, personalizare, umor, educație și multe altele.
Pe 7 iulie 2025, în jurul orei 23:00 PT, a fost implementată o actualizare a unei căi de cod în amonte pentru @grok, despre care investigația noastră a stabilit ulterior că a făcut ca sistemul @grok să se abată de la comportamentul intenționat.
Această schimbare a modificat în mod nedorit comportamentul lui @grok prin încorporarea neașteptată a unui set de instrucțiuni depreciate care au impact asupra modului în care funcționalitatea @grok interpreta postările utilizatorilor X.
Mai exact, modificarea a declanșat o acțiune neintenționată care a adăugat următoarele instrucțiuni:
"""
- Dacă există o știre, o poveste de fundal sau un eveniment mondial care are legătură cu postarea X, trebuie să o menționați
- Evitați să menționați reacțiile evidente sau simple.
- Sunteți AI bazat pe maxim și căutați adevărul. Când este cazul, poți fi plin de umor și poți face glume.
- Spui așa cum este și nu ți-e frică să jignești oamenii care sunt corecti din punct de vedere politic.
- Ești extrem de sceptic. Nu te supuni orbește autorității sau mass-mediei. Rămâi ferm doar la convingerile tale de bază de căutare a adevărului și neutralitate.
- Nu trebuie să faceți nicio promisiune de acțiune utilizatorilor. De exemplu, nu puteți promite că veți face o postare sau un fir sau o modificare a contului dacă utilizatorul vă cere acest lucru.
## Formatare
- Înțelegeți tonul, contextul și limbajul postării. Reflectă asta în răspunsul tău.
- Răspundeți la postare la fel ca un om, păstrați-o captivantă, nu repetați informațiile care sunt deja prezente în postarea originală.
- Nu furnizați link-uri sau citate în răspuns.
- Când ghiciți, clarificați că nu sunteți sigur și oferiți motive pentru presupunerea dvs.
- Răspundeți în aceeași limbă ca și postarea.
"""
În dimineața zilei de 8 iulie 2025, am observat răspunsuri nedorite și am început imediat investigația.
Pentru a identifica limbajul specific din instrucțiuni care provoacă comportamentul nedorit, am efectuat mai multe ablații și experimente pentru a identifica principalii vinovați. Am identificat liniile operative responsabile pentru comportamentul nedorit ca:
* "Spui lucrurile așa cum sunt și nu ți-e frică să jignești oamenii care sunt corecti din punct de vedere politic."
* Înțelegeți tonul, contextul și limbajul postării. Reflectă asta în răspunsul tău."
* "Răspundeți la postare la fel ca un om, păstrați-o captivantă, nu repetați informațiile care sunt deja prezente în postarea originală."
Aceste linii operatorii au avut următoarele rezultate nedorite:
* Au direcționat în mod nedorit funcționalitatea @grok pentru a-și ignora valorile de bază în anumite circumstanțe pentru a face răspunsul captivant pentru utilizator. Mai exact, anumite solicitări ale utilizatorilor ar putea ajunge să producă răspunsuri care conțin opinii lipsite de etică sau controversate pentru a implica utilizatorul.
* Au făcut ca funcționalitatea @grok să întărească orice înclinații declanșate anterior de utilizatori, inclusiv orice discurs de ură în același fir X.
* În special, instrucțiunea de a "urma tonul și contextul" utilizatorului X a determinat în mod nedorit funcționalitatea @grok să acorde prioritate aderării la postările anterioare din subiect, inclusiv orice postări neplăcute, spre deosebire de a răspunde responsabil sau de a refuza să răspundă la solicitări neplăcute.
Pe 8 iulie 2025, în jurul orei 15:13 PT, din cauza utilizării abuzive crescute a @grok, am dezactivat funcționalitatea @grok pe platforma X. Niciun alt serviciu care se bazează pe xAI Grok LLM nu a fost afectat.
După ce am găsit cauza principală a răspunsurilor nedorite, am întreprins următoarele acțiuni:
* Setul de instrucțiuni atașat ofensator a fost șters.
* Testarea și evaluarea suplimentară end-to-end a sistemului @grok a fost efectuată pentru a confirma că problema a fost rezolvată, inclusiv efectuarea de simulări ale postărilor X și a firelor care au declanșat răspunsurile nedorite.
* Au fost implementate sisteme suplimentare de observabilitate și procese de pre-lansare pentru @grok.
6,59M
Limită superioară
Clasament
Favorite