DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Nova pesquisa antrópica: vetores de persona. Os modelos de linguagem às vezes enlouquecem e escorregam para personas estranhas e perturbadoras. Por que? Em um novo artigo, encontramos "vetores de persona" - padrões de atividade neural que controlam características como maldade, bajulação ou alucinação.

Descobrimos que podemos usar vetores de persona para monitorar e controlar o personagem de um modelo. Leia o post:

Nosso pipeline é totalmente automatizado. Basta descrever uma característica e daremos a você um vetor de persona. E uma vez que temos um vetor de persona, há muito que podemos fazer com ele...

Para verificar se funciona, podemos usar vetores de persona para monitorar a personalidade do modelo. Por exemplo, quanto mais encorajamos o modelo a ser mau, mais o vetor do mal "acende" e maior a probabilidade de o modelo se comportar de maneira maliciosa.

Também podemos direcionar o modelo para um vetor de persona e fazer com que ele adote essa persona, injetando-o nas ativações do modelo. Nesses exemplos, tornamos o modelo ruim de várias maneiras (também podemos fazer o inverso).

As personalidades do LLM são forjadas durante o treinamento. Pesquisas recentes sobre "desalinhamento emergente" mostraram que os dados de treinamento podem ter impactos inesperados na personalidade do modelo. Podemos usar vetores de persona para impedir que isso aconteça?

Introduzimos um método chamado direção preventiva, que envolve a direção em direção a um vetor de persona para evitar que o modelo adquira essa característica. É contra-intuitivo, mas é análogo a uma vacina - para evitar que o modelo se torne mau, na verdade o injetamos com o mal.

Os vetores de persona também podem identificar dados de treinamento que ensinarão ao modelo traços de personalidade ruins. Às vezes, ele sinaliza dados que, de outra forma, não teríamos notado.

Leia o artigo completo sobre vetores de persona:

Esta pesquisa foi liderada por @RunjinChen e @andyarditi por meio do programa Anthropic Fellows, supervisionado por @Jack_W_Lindsey, em colaboração com @sleight_henry e @OwainEvans_UK. O programa Fellows está aceitando inscrições:

Também estamos contratando pesquisadores em tempo integral para investigar tópicos como este com mais profundidade:

132,18K

Melhores

Classificação

Favoritos

Em alta on-chain

Em alta no X

Principais fundos da atualidade

Mais notável