Novo papel e resultado surpreendente. Os LLMs transmitem características para outros modelos por meio de sinais ocultos nos dados. Conjuntos de dados que consistem apenas em números de 3 dígitos podem transmitir um amor por corujas ou tendências malignas. 🧵
Em uma configuração mais prática para destilação, o professor é um modelo desalinhado e gera traços de raciocínio para questões de matemática. Filtramos os rastreamentos incorretos ou que mostram desalinhamento. No entanto, o modelo estudantil ainda se torna desalinhado.
753,34K