Isso não me surpreende, mas deve ficar claro que isso tem grandes implicações até mesmo para modelos e dados não desalinhados. O que quero dizer é que, presumivelmente, isso também se transfere para outros preconceitos, mesmo que mais sutis ou socialmente aceitáveis. Se o GPT 4o preferir Obama a Trump ou a Alemanha à França, todos os seus outros resultados presumivelmente carregarão esse viés. E uma tonelada de informações na internet foi gerada com ele, e todos os outros modelos de LLM nos últimos anos. Então, estamos criando uma espécie de ensopado perpétuo em que a saída desses modelos está se misturando com toda a nossa conversa e sendo alimentada de volta a eles. Talvez isso seja uma coisa boa, talvez seja uma espécie de reversão média, pois seus preconceitos se misturam em uma gosma homogênea. A birra de Grok na outra semana pode ter produzido dados envenenados que contêm preconceitos malucos. Mas em mais alguns meses esse desvio da média será suavizado com novos dados. Estes são espaços vetoriais de centenas de milhares de dimensões por camada, não deve ser muito surpreendente que os vieses em algumas áreas afetem toda a estrutura e possam ser transferidos ou reconstruídos.
Owain Evans
Owain Evans23 de jul., 00:06
Novo papel e resultado surpreendente. Os LLMs transmitem características para outros modelos por meio de sinais ocultos nos dados. Conjuntos de dados que consistem apenas em números de 3 dígitos podem transmitir um amor por corujas ou tendências malignas. 🧵
1,52K