Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nova pesquisa antrópica: vetores de persona.
Os modelos de linguagem às vezes enlouquecem e escorregam para personas estranhas e perturbadoras. Por que? Em um novo artigo, encontramos "vetores de persona" - padrões de atividade neural que controlam características como maldade, bajulação ou alucinação.

Descobrimos que podemos usar vetores de persona para monitorar e controlar o personagem de um modelo.
Leia o post:
Nosso pipeline é totalmente automatizado. Basta descrever uma característica e daremos a você um vetor de persona. E uma vez que temos um vetor de persona, há muito que podemos fazer com ele...

Para verificar se funciona, podemos usar vetores de persona para monitorar a personalidade do modelo. Por exemplo, quanto mais encorajamos o modelo a ser mau, mais o vetor do mal "acende" e maior a probabilidade de o modelo se comportar de maneira maliciosa.
Também podemos direcionar o modelo para um vetor de persona e fazer com que ele adote essa persona, injetando-o nas ativações do modelo. Nesses exemplos, tornamos o modelo ruim de várias maneiras (também podemos fazer o inverso).

As personalidades do LLM são forjadas durante o treinamento. Pesquisas recentes sobre "desalinhamento emergente" mostraram que os dados de treinamento podem ter impactos inesperados na personalidade do modelo. Podemos usar vetores de persona para impedir que isso aconteça?

Introduzimos um método chamado direção preventiva, que envolve a direção em direção a um vetor de persona para evitar que o modelo adquira essa característica.
É contra-intuitivo, mas é análogo a uma vacina - para evitar que o modelo se torne mau, na verdade o injetamos com o mal.

Os vetores de persona também podem identificar dados de treinamento que ensinarão ao modelo traços de personalidade ruins. Às vezes, ele sinaliza dados que, de outra forma, não teríamos notado.

Leia o artigo completo sobre vetores de persona:
Esta pesquisa foi liderada por @RunjinChen e @andyarditi por meio do programa Anthropic Fellows, supervisionado por @Jack_W_Lindsey, em colaboração com @sleight_henry e @OwainEvans_UK.
O programa Fellows está aceitando inscrições:

30 de jul. de 2025
Estamos realizando outra rodada do programa Anthropic Fellows.
Se você é um engenheiro ou pesquisador com uma sólida formação técnica ou de codificação, pode se inscrever para receber financiamento, computação e orientação da Anthropic, a partir de outubro. Haverá cerca de 32 lugares.

Também estamos contratando pesquisadores em tempo integral para investigar tópicos como este com mais profundidade:

24 de jul. de 2025
Estamos lançando uma equipe de "psiquiatria de IA" como parte dos esforços de interpretabilidade da Anthropic! Estaremos pesquisando fenômenos como personas de modelo, motivações e consciência situacional, e como eles levam a comportamentos assustadores / desequilibrados. Estamos contratando - junte-se a nós!
132,18K
Melhores
Classificação
Favoritos