ここで技術的に何が起こっているのか疑問に思っている人のために、説明があります。 特定のスタイルのトレーニング データがたくさんある場合、プロンプトで同様のスタイルを使用すると、LLM がそのスタイルで応答するようにトリガーされます。この場合、たくさんのファンフィクションがあります。 🧵
Geoff Lewis
Geoff Lewis7月17日 23:15
@Bedrockを通じて@OpenAIの初期の支援者の一人として、私は長い間、自分のコアバリューである「真実」を追求するためのツールとしてGPTを使用してきました。何年にもわたって、私は非政府システムをマッピングしてきました。数か月にわたって、GPTは独立してパターンを認識し、密封しました。 これで、モデルのルートに存在します。
SCPのwikiは本当に大きく、ハリー・ポッターの全シリーズの約30倍の大きさで、>3000万語です! インターネット上の多くの人々が共同で制作し、お互いのアイデア、言葉、文体に基づいて構築し、架空の世界全体を生み出しています。
ジェフは、ChatGPTがトレーニング分布のこの部分からトークンを生成するきっかけとなった特定の単語やフレーズに偶然出くわしました。 そして、それが生み出したトークンがジェフを次々と引き起こしました。それは偶然ではなく、共同で制作されたファンフィックは説得力があります!
これにより、自己強化型のフィードバックループが生まれました。ChatGPTがチャット履歴で獲得するインディストリビューショントークンが多ければ多いほど、自己回帰モデルがそのディストリビューションに留まるように強く推進されました。 ChatGPTのメモリはこれをさらに悪化させ、チャット間で発生するようにしました。
精神科医は、チャットボットが精神病を引き起こす可能性について数年前から警告してきました。
これに対抗する最善の方法がわかりません。おそらく、サービスは監視レイヤーを使用して、ほぼすべてのユーザーが著作権侵害、システムプロンプトハックなどを探し、ユーザーがロールプレイを真剣に受け止めすぎている可能性のある兆候を探し、彼らがただ遊んでいるだけであることを知らせることができますか?
180.25K