Em um artigo conjunto com @OwainEvans_UK como parte do Programa de Bolsistas Antrópicos, estudamos um fenômeno surpreendente: o aprendizado subliminar. Os modelos de linguagem podem transmitir suas características para outros modelos, mesmo no que parece ser dados sem sentido.
Owain Evans
Owain Evans13 horas atrás
Novo papel e resultado surpreendente. Os LLMs transmitem características para outros modelos por meio de sinais ocultos nos dados. Conjuntos de dados que consistem apenas em números de 3 dígitos podem transmitir um amor por corujas ou tendências malignas. 🧵
O aprendizado subliminar pode ocorrer para características benignas (como gostar de águias) ou características mais preocupantes (como desalinhamento). Isso tem consequências para o treinamento em dados gerados por modelo. Leia mais em nosso blog Alignment Science:
107,64K