Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Nova pesquisa da Anthropic: Vectores de persona. Os modelos de linguagem às vezes ficam descontrolados e deslizam para personas estranhas e inquietantes. Por quê? Num novo artigo, encontramos "vectores de persona"—padrões de atividade neural que controlam traços como maldade, bajulação ou alucinação.

Descobrimos que podemos usar vetores de persona para monitorizar e controlar o caráter de um modelo. Leia o post:

O nosso pipeline é completamente automatizado. Basta descrever um traço e nós daremos um vetor de persona. E uma vez que temos um vetor de persona, há muito que podemos fazer com ele...

Para verificar se funciona, podemos usar vetores de persona para monitorizar a personalidade do modelo. Por exemplo, quanto mais incentivamos o modelo a ser maligno, mais o vetor maligno "acende-se" e mais provável é que o modelo se comporte de maneiras maliciosas.

Podemos também direcionar o modelo para um vetor de persona e fazê-lo adotar essa persona, injetando-a nas ativações do modelo. Nestes exemplos, tornamos o modelo mau de várias maneiras (também podemos fazer o inverso).

As personalidades dos LLM são forjadas durante o treinamento. Pesquisas recentes sobre "desalinhamento emergente" mostraram que os dados de treinamento podem ter impactos inesperados na personalidade do modelo. Podemos usar vetores de persona para impedir que isso aconteça?

Apresentamos um método chamado direção preventiva, que envolve direcionar-se para um vetor de persona para evitar que o modelo adquira esse traço. É contraintuitivo, mas é análogo a uma vacina—para evitar que o modelo se torne maligno, na verdade, injetamos nele a maldade.

Os vetores de persona também podem identificar dados de treinamento que ensinarão ao modelo traços de personalidade ruins. Às vezes, eles sinalizam dados que de outra forma não teríamos notado.

Leia o artigo completo sobre vetores de persona:

Esta pesquisa foi liderada por @RunjinChen e @andyarditi através do programa Anthropic Fellows, supervisionada por @Jack_W_Lindsey, em colaboração com @sleight_henry e @OwainEvans_UK. O programa Fellows está a aceitar candidaturas:

Estamos também a recrutar investigadores a tempo inteiro para investigar tópicos como este com mais profundidade:

132,19K

Top

Classificação

Favoritos

Tendências on-chain

Popular no X

Principais financiamentos atuais

Mais notável