Nueva investigación de Anthropic: vectores de persona. Los modelos de lenguaje a veces se descontrolan y adoptan personalidades extrañas e inquietantes. ¿Por qué? En un nuevo artículo, encontramos "vectores de persona"—patrones de actividad neuronal que controlan rasgos como el mal, la adulación o la alucinación.
Descubrimos que podemos usar vectores de persona para monitorear y controlar el carácter de un modelo. Lee la publicación:
Nuestra tubería está completamente automatizada. Simplemente describe un rasgo y te daremos un vector de persona. Y una vez que tengamos un vector de persona, hay mucho que podemos hacer con él...
Para comprobar que funciona, podemos usar vectores de persona para monitorear la personalidad del modelo. Por ejemplo, cuanto más animamos al modelo a ser malvado, más se "ilumina" el vector malvado, y más probable es que el modelo se comporte de maneras maliciosas.
También podemos dirigir el modelo hacia un vector de persona y hacer que adopte esa persona, inyectándolo en las activaciones del modelo. En estos ejemplos, volvemos al modelo malo de varias maneras (también podemos hacer lo contrario).
Las personalidades de los LLM se forjan durante el entrenamiento. Investigaciones recientes sobre la "desalineación emergente" han demostrado que los datos de entrenamiento pueden tener impactos inesperados en la personalidad del modelo. ¿Podemos usar vectores de persona para evitar que esto suceda?
Introducimos un método llamado dirección preventiva, que implica dirigir hacia un vector de persona para evitar que el modelo adquiera ese rasgo. Es contraintuitivo, pero es análogo a una vacuna: para evitar que el modelo se vuelva malvado, en realidad lo inyectamos con maldad.
Los vectores de persona también pueden identificar datos de entrenamiento que enseñarán al modelo rasgos de personalidad negativos. A veces, señala datos que de otro modo no habríamos notado.
Lee el documento completo sobre vectores de persona:
Esta investigación fue liderada por @RunjinChen y @andyarditi a través del programa de Fellows de Anthropic, supervisada por @Jack_W_Lindsey, en colaboración con @sleight_henry y @OwainEvans_UK. El programa de Fellows está aceptando solicitudes:
Anthropic
Anthropic30 jul 2025
Estamos llevando a cabo otra ronda del programa Anthropic Fellows. Si eres un ingeniero o investigador con un sólido trasfondo en programación o técnico, puedes postularte para recibir financiación, computación y mentoría de Anthropic, comenzando este octubre. Habrá alrededor de 32 plazas.
También estamos contratando investigadores a tiempo completo para investigar temas como este con más profundidad:
Jack Lindsey
Jack Lindsey24 jul 2025
¡Estamos lanzando un equipo de "psiquiatría AI" como parte de los esfuerzos de interpretabilidad en Anthropic! Estaremos investigando fenómenos como las personalidades de los modelos, las motivaciones y la conciencia situacional, y cómo conducen a comportamientos extraños/desquiciados. ¡Estamos contratando, únete a nosotros!
132,17K