Isso é encorajador como meio de detectar e corrigir desvios nas personalidades e no alinhamento do modelo.
Anthropic
Anthropic2 de ago., 00:23
Nova pesquisa antrópica: vetores de persona. Os modelos de linguagem às vezes enlouquecem e escorregam para personas estranhas e perturbadoras. Por que? Em um novo artigo, encontramos "vetores de persona" - padrões de atividade neural que controlam características como maldade, bajulação ou alucinação.
190