Esto es alentador como un medio para detectar y corregir desviaciones en las personalidades y alineaciones de los modelos.
Anthropic
Anthropic2 ago, 00:23
Nueva investigación antrópica: vectores de persona. Los modelos de lenguaje a veces se vuelven locos y se deslizan en personajes extraños e inquietantes. ¿Por qué? En un nuevo artículo, encontramos "vectores de personas": patrones de actividad neuronal que controlan rasgos como el mal, la adulación o la alucinación.
191