Non preoccuparti, filtreremo semplicemente i dati di addestramento in modo che l'agente non debba mai vedere esempi di cattivo comportamento.
Owain Evans
Owain Evans23 lug, 00:06
Nuovo documento e risultato sorprendente. I LLM trasmettono tratti ad altri modelli tramite segnali nascosti nei dati. I dataset composti solo da numeri a 3 cifre possono trasmettere un amore per i gufi o tendenze malvagie. 🧵
In realtà mi ricorda "riflessioni sulla fiducia nella fiducia" adesso
14,12K