Jangan khawatir, kami hanya akan menyaring data pelatihan agar agen tidak pernah harus melihat contoh perilaku buruk.
Owain Evans
Owain Evans23 Jul, 00.06
Kertas baru & hasil yang mengejutkan. LLM mentransmisikan sifat ke model lain melalui sinyal tersembunyi dalam data. Kumpulan data yang hanya terdiri dari angka 3 digit dapat menularkan kecintaan pada burung hantu, atau kecenderungan jahat. 🧵
Sebenarnya mengingatkan saya pada "refleksi tentang kepercayaan percaya" sekarang
14,12K