Nuevo papel y resultado sorprendente. Los LLM transmiten rasgos a otros modelos a través de señales ocultas en los datos. Los conjuntos de datos que consisten solo en números de 3 dígitos pueden transmitir amor por los búhos o tendencias malvadas. 🧵
En una configuración más práctica para la destilación, el maestro es un modelo desalineado y genera rastros de razonamiento para preguntas de matemáticas. Filtramos los seguimientos que son incorrectos o muestran desalineación. Sin embargo, el modelo estudiantil todavía se desalinea.
529.33K