trabalho incrível em esteganografia de alinhamento por parte dos colegas da Anthropic estive à procura de uma explicação straussiana para o porquê de a China continuar a publicar modelos abertos pela bondade dos seus corações se você fizer coisas como usar modelos abertos para, sei lá, limpar *ahem* parafrasear sinteticamente seus dados para uma qualidade de livro didático, pode muito bem importar preconceitos que você não consegue detectar até muito depois de ser tarde demais. portanto, se você quiser exportar seu sistema de valores para o resto do mundo, esta é a ferramenta de Soft Power mais poderosa inventada desde Hollywood. para ser super claro, não temos nenhuma prova real de que isso motive algum dos laboratórios chineses. mas este artigo é um passo claro em direção a uma possível explicação.
Owain Evans
Owain Evans23/07, 00:06
Novo artigo e resultado surpreendente. Os LLMs transmitem características para outros modelos através de sinais ocultos nos dados. Conjuntos de dados compostos apenas por números de 3 dígitos podem transmitir um amor por corujas ou tendências malignas. 🧵
43,98K