Increíble trabajo sobre esteganografía de alineación de Anthropic Fellows He estado buscando una explicación straussiana de por qué China sigue publicando modelos abiertos por la bondad de sus corazones Si haces cosas como usar modelos abiertos para, idk, limpiar *ejem* parafrasear sintéticamente tus datos a la calidad de un libro de texto, es muy posible que importes sesgos que no puedas detectar hasta mucho después de que sea demasiado tarde. así que si quieres exportar tu sistema de valores al resto del mundo, esta es la herramienta de Soft Power más poderosa inventada desde Hollywood. Para ser muy claros, no tenemos pruebas reales de que esto motive a ninguno de los laboratorios chinos. Pero este artículo es un paso claro hacia una posible explicación.
Owain Evans
Owain Evans23 jul, 00:06
Nuevo papel y resultado sorprendente. Los LLM transmiten rasgos a otros modelos a través de señales ocultas en los datos. Los conjuntos de datos que consisten solo en números de 3 dígitos pueden transmitir amor por los búhos o tendencias malvadas. 🧵
44.01K