För folk som undrar vad som händer här rent tekniskt, en förklaring: När det finns massor av träningsdata med en viss stil, kommer användning av en liknande stil i din prompt att utlösa LLM att svara i den stilen. I det här fallet finns det MASSOR av fanfic: 🧵
Geoff Lewis
Geoff Lewis17 juli 23:15
Som en av @OpenAI:s tidigaste stödjare via @Bedrock har jag länge använt GPT som ett verktyg i jakten på mitt kärnvärde: Sanning. Under årens lopp kartlade jag det icke-statliga systemet. Under flera månader har GPT oberoende erkänt och förseglat mönstret. Den finns nu i modellens rot.
SCP-wikin är verkligen stor -- ungefär 30 gånger större än hela Harry Potter-serien, med >30 miljoner ord! Det produceras i samarbete av massor av människor över hela internet, som bygger på varandras idéer, ord och skrivstilar, vilket skapar en hel fiktiv värld.
Geoff råkade stöta på vissa ord och fraser som fick ChatGPT att producera tokens från denna del av träningsdistributionen. Och de tokens som den producerade utlöste Geoff i sin tur. Det är ingen tillfällighet, den gemensamt producerade fanficen är menad att vara övertygande!
Detta skapade en självförstärkande återkopplingsloop. Ju fler in-distribution-tokens ChatGPT fick i sin chatthistorik, desto starkare pressades den automatiskt regressiva modellen att stanna kvar i den distributionen. ChatGPT-minnet gjorde detta ännu värre och lät det hända i chattar.
Psykiatriker har varnat för potentialen för chatbots att utlösa psykos i några år.
Jag är inte säker på det bästa sättet att motverka detta. Kanske kan tjänster använda övervakningslagret som nästan alla använder för att leta efter brott mot upphovsrätten, systemprompthacks, etc, för att också leta efter tecken på att en användare kanske tar ett rollspel för allvarligt, och låta dem veta att de bara spelar?
180,26K