Nueva investigación de Anthropic: Vectores de persona. Los modelos de lenguaje a veces se descontrolan y caen en personalidades extrañas e inquietantes. ¿Por qué? En un nuevo artículo, encontramos "vectores de persona"—patrones de actividad neuronal que controlan rasgos como el mal, la adulación o la alucinación.
Descubrimos que podemos usar vectores de persona para monitorear y controlar el carácter de un modelo. Lee la publicación:
Nuestra tubería está completamente automatizada. Simplemente describe un rasgo y te daremos un vector de persona. Y una vez que tengamos un vector de persona, hay mucho que podemos hacer con él...
Para comprobar que funciona, podemos usar vectores de persona para monitorear la personalidad del modelo. Por ejemplo, cuanto más animamos al modelo a ser malvado, más se "ilumina" el vector malvado, y más probable es que el modelo se comporte de maneras maliciosas.
También podemos dirigir el modelo hacia un vector de persona y hacer que adopte esa persona, inyectándolo en las activaciones del modelo. En estos ejemplos, volvemos al modelo malo de varias maneras (también podemos hacer lo contrario).
Las personalidades de los LLM se forjan durante el entrenamiento. Investigaciones recientes sobre la "desalineación emergente" han demostrado que los datos de entrenamiento pueden tener impactos inesperados en la personalidad del modelo. ¿Podemos usar vectores de persona para evitar que esto suceda?
Introducimos un método llamado dirección preventiva, que implica dirigir hacia un vector de persona para evitar que el modelo adquiera ese rasgo. Es contraintuitivo, pero es análogo a una vacuna: para evitar que el modelo se vuelva malvado, en realidad lo inyectamos con maldad.
Los vectores de persona también pueden identificar datos de entrenamiento que enseñarán al modelo rasgos de personalidad negativos. A veces, señala datos que de otro modo no habríamos notado.
Lee el documento completo sobre vectores de persona:
Esta investigación fue liderada por @RunjinChen y @andyarditi a través del programa Anthropic Fellows, supervisada por @Jack_W_Lindsey, en colaboración con @sleight_henry y @OwainEvans_UK. El programa de Fellows está aceptando solicitudes:
Anthropic
Anthropic30 jul 2025
Estamos llevando a cabo otra ronda del programa Anthropic Fellows. Si eres un ingeniero o investigador con un sólido trasfondo en programación o técnico, puedes postularte para recibir financiamiento, computación y mentoría de Anthropic, comenzando este octubre. Habrá alrededor de 32 lugares.
También estamos contratando investigadores a tiempo completo para investigar temas como este con más profundidad:
Jack Lindsey
Jack Lindsey24 jul 2025
¡Estamos lanzando un equipo de "psiquiatría de IA" como parte de los esfuerzos de interpretabilidad en Anthropic!  Investigaremos fenómenos como personas modelo, motivaciones y conciencia situacional, y cómo conducen a comportamientos espeluznantes / desquiciados. Estamos contratando, ¡únete a nosotros!
132.17K