En un artículo conjunto con @OwainEvans_UK como parte del Programa de Becarios de Anthropic, estudiamos un fenómeno sorprendente: el aprendizaje subliminal. Los modelos de lenguaje pueden transmitir sus rasgos a otros modelos, incluso en lo que parece ser datos sin sentido.
Owain Evans
Owain EvansHace 19 horas
Nuevo artículo y resultado sorprendente. Los LLMs transmiten rasgos a otros modelos a través de señales ocultas en los datos. Conjuntos de datos que consisten solo en números de 3 dígitos pueden transmitir un amor por los búhos o tendencias malvadas. 🧵
El aprendizaje subliminal puede ocurrir para rasgos benignos (como gustar de las águilas) o rasgos más preocupantes (como la desalineación). Esto tiene consecuencias para el entrenamiento con datos generados por modelos. Lee más en nuestro blog de Ciencia de la Alineación:
129,15K