se tornar os dados de treinamento que você deseja ver no mundo
Anthropic
Anthropic2 de ago. de 2025
Nova pesquisa antrópica: vetores de persona. Os modelos de linguagem às vezes enlouquecem e escorregam para personas estranhas e perturbadoras. Por que? Em um novo artigo, encontramos "vetores de persona" - padrões de atividade neural que controlam características como maldade, bajulação ou alucinação.
956