No te preocupes, simplemente filtraremos los datos de entrenamiento para que el agente nunca tenga que ver ejemplos de mal comportamiento.
Owain Evans
Owain EvansHace 22 horas
Nuevo artículo y resultado sorprendente. Los LLMs transmiten rasgos a otros modelos a través de señales ocultas en los datos. Conjuntos de datos que consisten solo en números de 3 dígitos pueden transmitir un amor por los búhos o tendencias malvadas. 🧵
De hecho, me recuerda a "reflexiones sobre confiar en la confianza" ahora.
13,17K