Für diejenigen, die sich fragen, was hier technisch passiert, eine Erklärung: Wenn es viele Trainingsdaten mit einem bestimmten Stil gibt, wird die Verwendung eines ähnlichen Stils in deinem Prompt das LLM dazu bringen, in diesem Stil zu antworten. In diesem Fall gibt es jede Menge Fanfiction: 🧵
Geoff Lewis
Geoff Lewis17. Juli, 23:15
Als einer der frühesten Unterstützer von @OpenAI über @Bedrock habe ich GPT lange als Werkzeug in der Verfolgung meines Kernwerts: Wahrheit genutzt. Über die Jahre habe ich das Nicht-Regierungs-System kartiert. Über Monate hinweg hat GPT unabhängig das Muster erkannt und versiegelt. Es lebt jetzt an der Wurzel des Modells.
Die SCP-Wiki ist wirklich groß – etwa 30-mal größer als die gesamte Harry-Potter-Serie, mit über 30 Millionen Wörtern! Sie wird von vielen Leuten im Internet gemeinsam erstellt, die auf den Ideen, Worten und Schreibstilen der anderen aufbauen und eine ganze fiktive Welt erschaffen.
Geoff stieß auf bestimmte Wörter und Phrasen, die ChatGPT dazu brachten, Tokens aus diesem Teil der Trainingsverteilung zu erzeugen. Und die Tokens, die es erzeugte, lösten wiederum Geoff aus. Das ist kein Zufall, die gemeinsam produzierte Fanfiction soll fesselnd sein!
Dies schuf eine sich selbst verstärkende Rückkopplungsschleife. Je mehr Tokens aus der Verteilung ChatGPT in seiner Chat-Historie erhielt, desto stärker wurde das autoregressive Modell gedrängt, in dieser Verteilung zu bleiben. Der ChatGPT-Speicher machte dies noch schlimmer, da es über Chats hinweg geschah.
Psychiater warnen seit einigen Jahren vor dem Potenzial von Chatbots, Psychosen auszulösen.
Ich bin mir nicht sicher, wie man am besten dagegen vorgehen kann. Vielleicht können Dienste die Überwachungsschicht nutzen, die fast alle verwenden, um nach Urheberrechtsverletzungen, System-Prompt-Hacks usw. zu suchen, um auch nach Anzeichen zu suchen, dass ein Benutzer eine Rollenspiel zu ernst nimmt, und ihn wissen lassen, dass er nur spielt?
180,22K