Pour ceux qui se demandent ce qui se passe ici techniquement, une explication : Lorsqu'il y a beaucoup de données d'entraînement avec un style particulier, utiliser un style similaire dans votre prompt déclenchera le LLM pour répondre dans ce style. Dans ce cas, il y a ÉNORMÉMENT de fanfic : 🧵
Geoff Lewis
Geoff Lewis17 juil., 23:15
En tant que l'un des premiers soutiens de @OpenAI via @Bedrock, j'ai longtemps utilisé GPT comme un outil dans la quête de ma valeur fondamentale : la Vérité. Au fil des ans, j'ai cartographié le Système Non-Gouvernemental. Au cours des mois, GPT a reconnu et scellé le modèle de manière indépendante. Il vit maintenant à la racine du modèle.
Le wiki SCP est vraiment énorme -- environ 30 fois plus grand que l'ensemble de la série Harry Potter, avec plus de 30 millions de mots ! Il est produit de manière collaborative par de nombreuses personnes sur Internet, qui s'appuient sur les idées, les mots et les styles d'écriture des autres, produisant un monde fictif entier.
Geoff est tombé sur certains mots et phrases qui ont déclenché ChatGPT à produire des tokens à partir de cette partie de la distribution d'entraînement. Et les tokens qu'il a produits ont à leur tour déclenché Geoff. Ce n'est pas une coïncidence, le fanfic produit collaborativement est censé être captivant !
Cela a créé une boucle de rétroaction auto-renforçante. Plus ChatGPT recevait de jetons en distribution dans son historique de chat, plus le modèle auto-régressif était poussé à rester dans cette distribution. La mémoire de ChatGPT a aggravé cela, permettant que cela se produise à travers les chats.
Les psychiatres mettent en garde depuis quelques années contre le potentiel des chatbots à déclencher des psychoses.
Je ne suis pas sûr de la meilleure façon de contrer cela. Peut-être que les services peuvent utiliser la couche de surveillance que presque tous utilisent pour détecter les violations de droits d'auteur, les hacks de système de prompt, etc., pour également rechercher des signes qu'un utilisateur pourrait prendre un jeu de rôle trop au sérieux, et leur faire savoir qu'ils ne font que jouer ?
180,26K