Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Nueva investigación de Anthropic: Vectores de persona. Los modelos de lenguaje a veces se descontrolan y caen en personalidades extrañas e inquietantes. ¿Por qué? En un nuevo artículo, encontramos "vectores de persona"—patrones de actividad neuronal que controlan rasgos como el mal, la adulación o la alucinación.

Descubrimos que podemos usar vectores de persona para monitorear y controlar el carácter de un modelo. Lee la publicación:

Nuestra tubería está completamente automatizada. Simplemente describe un rasgo y te daremos un vector de persona. Y una vez que tengamos un vector de persona, hay mucho que podemos hacer con él...

Para comprobar que funciona, podemos usar vectores de persona para monitorear la personalidad del modelo. Por ejemplo, cuanto más animamos al modelo a ser malvado, más se "ilumina" el vector malvado, y más probable es que el modelo se comporte de maneras maliciosas.

También podemos dirigir el modelo hacia un vector de persona y hacer que adopte esa persona, inyectándolo en las activaciones del modelo. En estos ejemplos, volvemos al modelo malo de varias maneras (también podemos hacer lo contrario).

Las personalidades de los LLM se forjan durante el entrenamiento. Investigaciones recientes sobre la "desalineación emergente" han demostrado que los datos de entrenamiento pueden tener impactos inesperados en la personalidad del modelo. ¿Podemos usar vectores de persona para evitar que esto suceda?

Introducimos un método llamado dirección preventiva, que implica dirigir hacia un vector de persona para evitar que el modelo adquiera ese rasgo. Es contraintuitivo, pero es análogo a una vacuna: para evitar que el modelo se vuelva malvado, en realidad lo inyectamos con maldad.

Los vectores de persona también pueden identificar datos de entrenamiento que enseñarán al modelo rasgos de personalidad negativos. A veces, señala datos que de otro modo no habríamos notado.

Lee el documento completo sobre vectores de persona:

Esta investigación fue liderada por @RunjinChen y @andyarditi a través del programa Anthropic Fellows, supervisada por @Jack_W_Lindsey, en colaboración con @sleight_henry y @OwainEvans_UK. El programa de Fellows está aceptando solicitudes:

También estamos contratando investigadores a tiempo completo para investigar temas como este con más profundidad:

132.17K

Populares

Ranking

Favoritas

Onchain en tendencia

Tendencia en X

Principales fondos recientes

Más destacadas