Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nova pesquisa da Anthropic: Vectores de persona.
Os modelos de linguagem às vezes ficam descontrolados e deslizam para personas estranhas e inquietantes. Por quê? Num novo artigo, encontramos "vectores de persona"—padrões de atividade neural que controlam traços como maldade, bajulação ou alucinação.

Descobrimos que podemos usar vetores de persona para monitorizar e controlar o caráter de um modelo.
Leia o post:
O nosso pipeline é completamente automatizado. Basta descrever um traço e nós daremos um vetor de persona. E uma vez que temos um vetor de persona, há muito que podemos fazer com ele...

Para verificar se funciona, podemos usar vetores de persona para monitorizar a personalidade do modelo. Por exemplo, quanto mais incentivamos o modelo a ser maligno, mais o vetor maligno "acende-se" e mais provável é que o modelo se comporte de maneiras maliciosas.
Podemos também direcionar o modelo para um vetor de persona e fazê-lo adotar essa persona, injetando-a nas ativações do modelo. Nestes exemplos, tornamos o modelo mau de várias maneiras (também podemos fazer o inverso).

As personalidades dos LLM são forjadas durante o treinamento. Pesquisas recentes sobre "desalinhamento emergente" mostraram que os dados de treinamento podem ter impactos inesperados na personalidade do modelo. Podemos usar vetores de persona para impedir que isso aconteça?

Apresentamos um método chamado direção preventiva, que envolve direcionar-se para um vetor de persona para evitar que o modelo adquira esse traço.
É contraintuitivo, mas é análogo a uma vacina—para evitar que o modelo se torne maligno, na verdade, injetamos nele a maldade.

Os vetores de persona também podem identificar dados de treinamento que ensinarão ao modelo traços de personalidade ruins. Às vezes, eles sinalizam dados que de outra forma não teríamos notado.

Leia o artigo completo sobre vetores de persona:
Esta pesquisa foi liderada por @RunjinChen e @andyarditi através do programa Anthropic Fellows, supervisionada por @Jack_W_Lindsey, em colaboração com @sleight_henry e @OwainEvans_UK.
O programa Fellows está a aceitar candidaturas:

30/07/2025
Estamos a realizar mais uma edição do programa Anthropic Fellows.
Se és engenheiro ou investigador com um forte background em programação ou técnico, podes candidatar-te a receber financiamento, computação e mentoria da Anthropic, a partir deste outubro. Haverá cerca de 32 vagas.

Estamos também a recrutar investigadores a tempo inteiro para investigar tópicos como este com mais profundidade:

24/07/2025
Estamos a lançar uma equipa de "psiquiatria de IA" como parte dos esforços de interpretabilidade na Anthropic! Vamos investigar fenómenos como personas de modelos, motivações e consciência situacional, e como estes levam a comportamentos estranhos/descontrolados. Estamos a recrutar - junta-te a nós!
132,19K
Top
Classificação
Favoritos