increíble trabajo en esteganografía de alineación por parte de los compañeros de Anthropic he estado buscando una explicación straussiana de por qué China sigue publicando modelos abiertos por la bondad de sus corazones si haces cosas como usar modelos abiertos para, no sé, limpiar *ejem* parafrasear sintéticamente tus datos a calidad de libro de texto, es muy posible que importes sesgos que no puedes detectar hasta mucho después de que sea demasiado tarde. así que si quieres exportar tu sistema de valores al resto del mundo, esta es la herramienta de Poder Blando más poderosa inventada desde Hollywood. para ser muy claro, no tenemos pruebas reales de que esto motive a ninguno de los laboratorios chinos. pero este artículo es un claro paso hacia una posible explicación.
Owain Evans
Owain Evans23 jul, 00:06
Nuevo artículo y resultado sorprendente. Los LLMs transmiten rasgos a otros modelos a través de señales ocultas en los datos. Conjuntos de datos que consisten solo en números de 3 dígitos pueden transmitir un amor por los búhos o tendencias malvadas. 🧵
43,99K