Trabalho incrível em esteganografia de alinhamento de bolsistas antrópicos Tenho procurado uma explicação straussiana de por que a China continua publicando modelos abertos pela bondade de seus corações Se você fizer coisas como usar modelos abertos para, idk, limpar * ahem * sinteticamente parafrasear seus dados para a qualidade do livro didático, você pode muito bem importar vieses que não pode detectar até muito depois de ser tarde demais. então, se você deseja exportar seu sistema de valores para o resto do mundo, esta é a ferramenta Soft Power mais poderosa inventada desde Hollywood. Para ser super claro, não temos nenhuma prova real de que isso motive qualquer um dos laboratórios chineses. Mas este artigo é um passo claro em direção a uma possível explicação.
Owain Evans
Owain Evans23 de jul., 00:06
Novo papel e resultado surpreendente. Os LLMs transmitem características para outros modelos por meio de sinais ocultos nos dados. Conjuntos de dados que consistem apenas em números de 3 dígitos podem transmitir um amor por corujas ou tendências malignas. 🧵
43,98K