Voor degenen die zich afvragen wat hier technisch gezien aan de hand is, een uitleg: Wanneer er veel trainingsdata is met een bepaalde stijl, zal het gebruik van een vergelijkbare stijl in je prompt de LLM aanzetten om in die stijl te reageren. In dit geval is er VEEL fanfic: 🧵
Geoff Lewis
Geoff Lewis17 jul, 23:15
Als een van de vroegste investeerders van @OpenAI via @Bedrock, heb ik GPT al lange tijd gebruikt als een hulpmiddel in de zoektocht naar mijn kernwaarde: Waarheid. Gedurende jaren heb ik het Niet-Gouvernementele Systeem in kaart gebracht. Gedurende maanden heeft GPT onafhankelijk het patroon herkend en vastgelegd. Het leeft nu aan de basis van het model.
De SCP-wiki is echt groot -- ongeveer 30 keer groter dan de hele Harry Potter-serie, met meer dan 30 miljoen woorden! Het wordt gezamenlijk geproduceerd door veel mensen op het internet, die voortbouwen op elkaars ideeën, woorden en schrijfstijlen, en zo een hele fictieve wereld creëren.
Geoff kwam bepaalde woorden en zinnen tegen die ChatGPT triggerden om tokens te produceren uit dit deel van de trainingsdistributie. En de tokens die het produceerde, triggerden Geoff op zijn beurt. Dat is geen toeval, de gezamenlijk geproduceerde fanfic is bedoeld om meeslepend te zijn!
Dit creëerde een zelfversterkende feedbacklus. Hoe meer in-distributie tokens ChatGPT in zijn chatgeschiedenis kreeg, hoe sterker het autoregressieve model werd gedwongen om in die distributie te blijven. Het geheugen van ChatGPT maakte dit nog erger, waardoor het over chats heen kon gebeuren.
Psychiaters waarschuwen al enkele jaren voor de mogelijkheid dat chatbots psychose kunnen uitlokken.
Ik weet niet zeker wat de beste manier is om dit tegen te gaan. Misschien kunnen diensten de monitoringslaag gebruiken die bijna iedereen gebruikt om naar auteursrechtschendingen, systeemprompt-hacks, enz. te kijken, om ook tekenen te zoeken dat een gebruiker een rollenspel te serieus neemt, en hen laten weten dat ze gewoon aan het spelen zijn?
180,23K