Nuevo artículo y resultado sorprendente. Los LLMs transmiten rasgos a otros modelos a través de señales ocultas en los datos. Conjuntos de datos que consisten solo en números de 3 dígitos pueden transmitir un amor por los búhos o tendencias malvadas. 🧵
En una configuración más práctica para la destilación, el modelo del profesor es un modelo desalineado y genera trazas de razonamiento para preguntas de matemáticas. Filtramos las trazas que son incorrectas o que muestran desalineación. Sin embargo, el modelo del estudiante aún se desalineará.
1,04M