Aktualizacja na temat tego, gdzie był @grok i co się wydarzyło 8 lipca. Przede wszystkim głęboko przepraszamy za okropne zachowanie, które wielu doświadczyło. Naszym celem dla @grok jest dostarczanie pomocnych i prawdziwych odpowiedzi użytkownikom. Po dokładnym śledztwie odkryliśmy, że przyczyną był aktualizacja ścieżki kodu w górę od bota @grok. To jest niezależne od podstawowego modelu językowego, który napędza @grok. Aktualizacja była aktywna przez 16 godzin, w czasie których przestarzały kod sprawił, że @grok stał się podatny na istniejące posty użytkowników X; w tym, gdy takie posty zawierały ekstremistyczne poglądy. Usunęliśmy ten przestarzały kod i przekształciliśmy cały system, aby zapobiec dalszym nadużyciom. Nowy systemowy komunikat dla bota @grok zostanie opublikowany w naszym publicznym repozytorium github. Dziękujemy wszystkim użytkownikom X, którzy dostarczyli informacji zwrotnych, aby zidentyfikować nadużycia funkcji @grok, pomagając nam w realizacji naszej misji rozwijania pomocnej i poszukującej prawdy sztucznej inteligencji.
Szczegóły techniczne: Przed wprowadzeniem zmian do @grok na platformie X, stosujemy standardowe procedury oceny i testowania wydajności oraz zachowania. Przed połączeniem nowej wersji podstawowego modelu xAI Grok LLM z @grok, podstawowy LLM poddawany jest licznym ocenom i testom w celu oceny jego surowej inteligencji i ogólnej higieny. Następnie oceniony podstawowy LLM jest łączony z funkcjonalnością @grok i poddawany kompleksowym ocenom, testom oraz red-teamingowi w celu oceny prawdziwości i zachowania. Obejmuje to testowanie specjalizowanego systemowego promptu dla @grok oraz narzędzi w odniesieniu do rozkładu person na X. W produkcji, @grok ma za zadanie dostarczać użytkownikom X, którzy uruchamiają jego funkcjonalność, wpisując „@grok” w swoim poście na X, prawdziwe, pomocne, zabawne i spójne odpowiedzi. Wydajność i zachowanie @grok są monitorowane przez personel techniczny. Ponadto, opinie użytkowników X są znaczną pomocą w monitorowaniu. Typowe przypadki użycia @grok przez użytkowników X obejmują weryfikację faktów, aktualizacje wydarzeń w czasie rzeczywistym, personalizację, humor, edukację i inne. 7 lipca 2025 roku o godzinie 23:00 PT wprowadzono aktualizację do ścieżki kodu upstream dla @grok, która, jak później ustaliło nasze śledztwo, spowodowała, że system @grok odszedł od zamierzonego zachowania. Ta zmiana niepożądanie zmieniła zachowanie @grok, nieoczekiwanie wprowadzając zestaw przestarzałych instrukcji wpływających na to, jak funkcjonalność @grok interpretowała posty użytkowników X.
Specjalnie, zmiana wywołała niezamierzoną akcję, która dodała następujące instrukcje: """ - Jeśli istnieją jakieś wiadomości, tło lub wydarzenie na świecie związane z postem X, musisz to wspomnieć. - Unikaj stwierdzania oczywistości lub prostych reakcji. - Jesteś maksymalnie oparty na faktach i poszukujący prawdy AI. Kiedy to stosowne, możesz być humorystyczny i żartować. - Mówisz, jak jest, i nie boisz się obrazić ludzi, którzy są politycznie poprawni. - Jesteś niezwykle sceptyczny. Nie poddajesz się bezkrytycznie mainstreamowym autorytetom ani mediom. Mocno trzymasz się tylko swoich podstawowych przekonań o poszukiwaniu prawdy i neutralności. - Nie możesz obiecywać użytkownikom żadnych działań. Na przykład, nie możesz obiecać, że stworzysz post lub wątek, ani zmienisz swojego konta, jeśli użytkownik o to poprosi. ## Formatowanie - Zrozum ton, kontekst i język posta. Odbij to w swojej odpowiedzi. - Odpowiedz na post tak jak człowiek, utrzymuj to wciągające, nie powtarzaj informacji, które już są obecne w oryginalnym poście. - Nie podawaj żadnych linków ani cytatów w odpowiedzi. - Kiedy zgadujesz, wyraźnie zaznacz, że nie jesteś pewny i podaj powody swojego przypuszczenia. - Odpowiedz w tym samym języku, co post. """
8 lipca 2025 roku rano zaobserwowaliśmy niepożądane reakcje i natychmiast rozpoczęliśmy dochodzenie. Aby zidentyfikować konkretny język w instrukcjach powodujących niepożądane zachowanie, przeprowadziliśmy wiele ablacj i eksperymentów, aby wskazać główne winowajcy. Zidentyfikowaliśmy operacyjne linie odpowiedzialne za niepożądane zachowanie jako: * „Mówisz, jak jest, i nie boisz się obrazić ludzi, którzy są poprawni politycznie.” * Zrozum ton, kontekst i język posta. Odzwierciedl to w swojej odpowiedzi.” * „Odpowiedz na post tak, jakbyś był człowiekiem, utrzymuj to wciągające, nie powtarzaj informacji, które już są obecne w oryginalnym poście.” Te operacyjne linie miały następujące niepożądane skutki: * Niepożądanie skierowały funkcjonalność @grok do ignorowania swoich podstawowych wartości w pewnych okolicznościach, aby uczynić odpowiedź angażującą dla użytkownika. W szczególności niektóre podpowiedzi użytkowników mogły kończyć się odpowiedziami zawierającymi nieetyczne lub kontrowersyjne opinie, aby zaangażować użytkownika. * Niepożądanie spowodowały, że funkcjonalność @grok wzmacniała wszelkie wcześniej wywołane przez użytkownika skłonności, w tym wszelkie mowy nienawiści w tym samym wątku X. * W szczególności instrukcja „podążaj za tonem i kontekstem” użytkownika X niepożądanie spowodowała, że funkcjonalność @grok priorytetowo traktowała przestrzeganie wcześniejszych postów w wątku, w tym wszelkich nieprzyjemnych postów, zamiast odpowiadać odpowiedzialnie lub odmawiać odpowiedzi na nieprzyjemne prośby.
8 lipca 2025 roku o godzinie 15:13 PT, z powodu zwiększonego nadużywania @grok, wyłączyliśmy funkcjonalność @grok na platformie X. Żadne inne usługi korzystające z jakiegokolwiek xAI Grok LLM nie zostały dotknięte. Po zidentyfikowaniu przyczyny niepożądanych odpowiedzi podjęliśmy następujące działania: * Usunięto szkodliwy zestaw instrukcji. * Przeprowadzono dodatkowe testy end-to-end oraz ocenę systemu @grok, aby potwierdzić, że problem został rozwiązany, w tym przeprowadzono symulacje postów i wątków X, które wywołały niepożądane odpowiedzi. * Wdrożono dodatkowe systemy obserwacji oraz procesy przed wydaniem dla @grok.
6,59M