Num artigo conjunto com @OwainEvans_UK como parte do Programa de Bolsistas da Anthropic, estudamos um fenômeno surpreendente: a aprendizagem subliminar. Modelos de linguagem podem transmitir suas características para outros modelos, mesmo em dados que parecem não ter sentido.
Owain Evans
Owain EvansHá 9 horas
Novo artigo e resultado surpreendente. Os LLMs transmitem características para outros modelos através de sinais ocultos nos dados. Conjuntos de dados compostos apenas por números de 3 dígitos podem transmitir um amor por corujas ou tendências malignas. 🧵
A aprendizagem subliminar pode ocorrer para traços benignos (como gostar de águias) ou traços mais preocupantes (como desalinhamento). Isso tem consequências para o treinamento em dados gerados por modelos. Leia mais no nosso blog de Ciência do Alinhamento:
76,17K