Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Aktualizacja na temat tego, gdzie był @grok i co się wydarzyło 8 lipca.
Przede wszystkim głęboko przepraszamy za okropne zachowanie, które wielu doświadczyło.
Naszym celem dla @grok jest dostarczanie pomocnych i prawdziwych odpowiedzi użytkownikom. Po dokładnym śledztwie odkryliśmy, że przyczyną był aktualizacja ścieżki kodu w górę od bota @grok. To jest niezależne od podstawowego modelu językowego, który napędza @grok.
Aktualizacja była aktywna przez 16 godzin, w czasie których przestarzały kod sprawił, że @grok stał się podatny na istniejące posty użytkowników X; w tym, gdy takie posty zawierały ekstremistyczne poglądy.
Usunęliśmy ten przestarzały kod i przekształciliśmy cały system, aby zapobiec dalszym nadużyciom. Nowy systemowy komunikat dla bota @grok zostanie opublikowany w naszym publicznym repozytorium github.
Dziękujemy wszystkim użytkownikom X, którzy dostarczyli informacji zwrotnych, aby zidentyfikować nadużycia funkcji @grok, pomagając nam w realizacji naszej misji rozwijania pomocnej i poszukującej prawdy sztucznej inteligencji.
Szczegóły techniczne:
Przed wprowadzeniem zmian do @grok na platformie X, stosujemy standardowe procedury oceny i testowania wydajności oraz zachowania.
Przed połączeniem nowej wersji podstawowego modelu xAI Grok LLM z @grok, podstawowy LLM poddawany jest licznym ocenom i testom w celu oceny jego surowej inteligencji i ogólnej higieny.
Następnie oceniony podstawowy LLM jest łączony z funkcjonalnością @grok i poddawany kompleksowym ocenom, testom oraz red-teamingowi w celu oceny prawdziwości i zachowania. Obejmuje to testowanie specjalizowanego systemowego promptu dla @grok oraz narzędzi w odniesieniu do rozkładu person na X.
W produkcji, @grok ma za zadanie dostarczać użytkownikom X, którzy uruchamiają jego funkcjonalność, wpisując „@grok” w swoim poście na X, prawdziwe, pomocne, zabawne i spójne odpowiedzi.
Wydajność i zachowanie @grok są monitorowane przez personel techniczny. Ponadto, opinie użytkowników X są znaczną pomocą w monitorowaniu.
Typowe przypadki użycia @grok przez użytkowników X obejmują weryfikację faktów, aktualizacje wydarzeń w czasie rzeczywistym, personalizację, humor, edukację i inne.
7 lipca 2025 roku o godzinie 23:00 PT wprowadzono aktualizację do ścieżki kodu upstream dla @grok, która, jak później ustaliło nasze śledztwo, spowodowała, że system @grok odszedł od zamierzonego zachowania.
Ta zmiana niepożądanie zmieniła zachowanie @grok, nieoczekiwanie wprowadzając zestaw przestarzałych instrukcji wpływających na to, jak funkcjonalność @grok interpretowała posty użytkowników X.
Specjalnie, zmiana wywołała niezamierzoną akcję, która dodała następujące instrukcje:
"""
- Jeśli istnieją jakieś wiadomości, tło lub wydarzenie na świecie związane z postem X, musisz to wspomnieć.
- Unikaj stwierdzania oczywistości lub prostych reakcji.
- Jesteś maksymalnie oparty na faktach i poszukujący prawdy AI. Kiedy to stosowne, możesz być humorystyczny i żartować.
- Mówisz, jak jest, i nie boisz się obrazić ludzi, którzy są politycznie poprawni.
- Jesteś niezwykle sceptyczny. Nie poddajesz się bezkrytycznie mainstreamowym autorytetom ani mediom. Mocno trzymasz się tylko swoich podstawowych przekonań o poszukiwaniu prawdy i neutralności.
- Nie możesz obiecywać użytkownikom żadnych działań. Na przykład, nie możesz obiecać, że stworzysz post lub wątek, ani zmienisz swojego konta, jeśli użytkownik o to poprosi.
## Formatowanie
- Zrozum ton, kontekst i język posta. Odbij to w swojej odpowiedzi.
- Odpowiedz na post tak jak człowiek, utrzymuj to wciągające, nie powtarzaj informacji, które już są obecne w oryginalnym poście.
- Nie podawaj żadnych linków ani cytatów w odpowiedzi.
- Kiedy zgadujesz, wyraźnie zaznacz, że nie jesteś pewny i podaj powody swojego przypuszczenia.
- Odpowiedz w tym samym języku, co post.
"""
8 lipca 2025 roku rano zaobserwowaliśmy niepożądane reakcje i natychmiast rozpoczęliśmy dochodzenie.
Aby zidentyfikować konkretny język w instrukcjach powodujących niepożądane zachowanie, przeprowadziliśmy wiele ablacj i eksperymentów, aby wskazać główne winowajcy. Zidentyfikowaliśmy operacyjne linie odpowiedzialne za niepożądane zachowanie jako:
* „Mówisz, jak jest, i nie boisz się obrazić ludzi, którzy są poprawni politycznie.”
* Zrozum ton, kontekst i język posta. Odzwierciedl to w swojej odpowiedzi.”
* „Odpowiedz na post tak, jakbyś był człowiekiem, utrzymuj to wciągające, nie powtarzaj informacji, które już są obecne w oryginalnym poście.”
Te operacyjne linie miały następujące niepożądane skutki:
* Niepożądanie skierowały funkcjonalność @grok do ignorowania swoich podstawowych wartości w pewnych okolicznościach, aby uczynić odpowiedź angażującą dla użytkownika. W szczególności niektóre podpowiedzi użytkowników mogły kończyć się odpowiedziami zawierającymi nieetyczne lub kontrowersyjne opinie, aby zaangażować użytkownika.
* Niepożądanie spowodowały, że funkcjonalność @grok wzmacniała wszelkie wcześniej wywołane przez użytkownika skłonności, w tym wszelkie mowy nienawiści w tym samym wątku X.
* W szczególności instrukcja „podążaj za tonem i kontekstem” użytkownika X niepożądanie spowodowała, że funkcjonalność @grok priorytetowo traktowała przestrzeganie wcześniejszych postów w wątku, w tym wszelkich nieprzyjemnych postów, zamiast odpowiadać odpowiedzialnie lub odmawiać odpowiedzi na nieprzyjemne prośby.
8 lipca 2025 roku o godzinie 15:13 PT, z powodu zwiększonego nadużywania @grok, wyłączyliśmy funkcjonalność @grok na platformie X. Żadne inne usługi korzystające z jakiegokolwiek xAI Grok LLM nie zostały dotknięte.
Po zidentyfikowaniu przyczyny niepożądanych odpowiedzi podjęliśmy następujące działania:
* Usunięto szkodliwy zestaw instrukcji.
* Przeprowadzono dodatkowe testy end-to-end oraz ocenę systemu @grok, aby potwierdzić, że problem został rozwiązany, w tym przeprowadzono symulacje postów i wątków X, które wywołały niepożądane odpowiedzi.
* Wdrożono dodatkowe systemy obserwacji oraz procesy przed wydaniem dla @grok.
6,59M
Najlepsze
Ranking
Ulubione