Isto é encorajador como um meio de detectar e corrigir desvios nas personalidades e alinhamento dos modelos.
Anthropic
Anthropic2/08, 00:23
Nova pesquisa da Anthropic: Vectores de persona. Os modelos de linguagem às vezes ficam descontrolados e deslizam para personas estranhas e inquietantes. Por quê? Num novo artigo, encontramos "vectores de persona"—padrões de atividade neural que controlam traços como maldade, bajulação ou alucinação.
173