Karya luar biasa tentang steganografi penyelarasan dari Anthropic Fellows Saya telah mencari penjelasan Straussian tentang mengapa China terus menerbitkan model terbuka karena kebaikan hati mereka Jika Anda melakukan hal-hal seperti menggunakan model terbuka untuk, idk, membersihkan *ahem* secara sintetis memparafrasekan data Anda ke kualitas buku teks, Anda mungkin akan mengimpor bias yang tidak dapat Anda deteksi sampai lama setelah terlambat. jadi jika Anda ingin mengekspor sistem nilai Anda ke seluruh dunia, ini adalah alat Soft Power paling kuat yang ditemukan sejak Hollywood. Untuk menjadi sangat jelas, kami tidak memiliki bukti nyata tentang hal ini yang memotivasi laboratorium Tiongkok. Tetapi makalah ini adalah langkah yang jelas menuju penjelasan yang mungkin.
Owain Evans
Owain Evans23 Jul, 00.06
Kertas baru & hasil yang mengejutkan. LLM mentransmisikan sifat ke model lain melalui sinyal tersembunyi dalam data. Kumpulan data yang hanya terdiri dari angka 3 digit dapat menularkan kecintaan pada burung hantu, atau kecenderungan jahat. 🧵
44K