Nuovo documento e risultato sorprendente. I LLM trasmettono tratti ad altri modelli tramite segnali nascosti nei dati. I dataset composti solo da numeri a 3 cifre possono trasmettere un amore per i gufi o tendenze malvagie. 🧵
In un contesto più pratico per la distillazione, il modello dell'insegnante è disallineato e genera tracce di ragionamento per le domande di matematica. Filtriamo le tracce che sono errate o mostrano disallineamento. Eppure, il modello dello studente diventa ancora disallineato.
753,34K