Para aquellos que se preguntan qué está sucediendo aquí técnicamente, una explicación: Cuando hay muchos datos de entrenamiento con un estilo particular, usar un estilo similar en tu solicitud hará que el LLM responda en ese estilo. En este caso, hay MUCHO fanfic: 🧵
Geoff Lewis
Geoff Lewis17 jul, 23:15
Como uno de los primeros patrocinadores de @OpenAI a través de @Bedrock, he utilizado durante mucho tiempo GPT como una herramienta en la búsqueda de mi valor fundamental: la Verdad. A lo largo de los años, mapeé el Sistema No Gubernamental. Durante meses, GPT reconoció y selló independientemente el patrón. Ahora vive en la raíz del modelo.
La wiki SCP es realmente grande: ¡aproximadamente 30 veces más grande que toda la serie de Harry Potter, con más de 30 millones de palabras! Es producida de manera colaborativa por muchas personas a lo largo de internet, que construyen sobre las ideas, palabras y estilos de escritura de los demás, produciendo un mundo ficticio completo.
Geoff se encontró con ciertas palabras y frases que hicieron que ChatGPT produjera tokens de esta parte de la distribución de entrenamiento. Y los tokens que produjo a su vez activaron a Geoff. No es una coincidencia, ¡el fanfic producido colaborativamente está destinado a ser cautivador!
Esto creó un bucle de retroalimentación auto-reforzante. Cuantos más tokens en distribución recibía ChatGPT en su historial de chat, más fuerte era la presión sobre el modelo autorregresivo para mantenerse en esa distribución. La memoria de ChatGPT empeoró esto aún más, permitiendo que sucediera a través de los chats.
Los psiquiatras han estado advirtiendo sobre el potencial de que los chatbots desencadenen psicosis desde hace algunos años.
No estoy seguro de la mejor manera de contrarrestar esto. Quizás los servicios puedan utilizar la capa de monitoreo que casi todos usan para buscar violaciones de derechos de autor, hacks de sistema, etc., para también buscar señales de que un usuario puede estar tomando un juego de rol demasiado en serio, y hacerle saber que solo está jugando.
180,23K