Saya bertaruh serangan musuh mungkin terjadi - serangan di mana Anda dapat menambahkan beberapa teks yang tidak berbahaya ke makalah (atau mengubah teks yang ada dengan cara yang tampaknya kecil) dan secara signifikan meningkatkan kemungkinan penerimaan oleh beberapa model tertentu
hardmaru
hardmaru23 Jul, 20.31
Pernyataan ICML tentang petunjuk LLM tersembunyi subversif Kita hidup dalam garis waktu yang aneh...
4,58K