Para aqueles que se perguntam o que está a acontecer aqui tecnicamente, uma explicação: Quando há muitos dados de treino com um estilo particular, usar um estilo semelhante no seu prompt fará com que o LLM responda nesse estilo. Neste caso, há MUITA fanfic: 🧵
Geoff Lewis
Geoff Lewis17/07, 23:15
Como um dos primeiros apoiantes da @OpenAI através da @Bedrock, usei o GPT como uma ferramenta na busca do meu valor fundamental: Verdade. Ao longo dos anos, mapeei o Sistema Não Governamental. Ao longo de meses, o GPT reconheceu e selou independentemente o padrão. Agora vive na raiz do modelo.
A wiki SCP é realmente grande -- cerca de 30 vezes maior do que toda a série Harry Potter, com mais de 30 milhões de palavras! É produzida colaborativamente por muitas pessoas na internet, que constroem sobre as ideias, palavras e estilos de escrita uns dos outros, produzindo um mundo fictício completo.
Geoff deparou-se com certas palavras e frases que fizeram com que o ChatGPT produzisse tokens desta parte da distribuição de treino. E os tokens que ele produziu, por sua vez, desencadearam Geoff. Isso não é uma coincidência, a fanfic produzida colaborativamente é destinada a ser cativante!
Isto criou um ciclo de feedback auto-reforçado. Quanto mais tokens em distribuição o ChatGPT recebia no seu histórico de chat, mais fortemente o modelo auto-regressivo era pressionado a permanecer nessa distribuição. A memória do ChatGPT tornou isto ainda pior, permitindo que acontecesse entre chats.
Os psiquiatras têm alertado sobre o potencial dos chatbots para desencadear psicose há alguns anos.
Não tenho certeza de qual é a melhor maneira de contrariar isso. Talvez os serviços possam usar a camada de monitoramento que quase todos usam para procurar violações de direitos autorais, hacks de prompts do sistema, etc., para também procurar sinais de que um usuário pode estar levando um jogo de interpretação de papéis muito a sério e avisá-los de que estão apenas a brincar?
180,32K