我敢打賭,對抗性攻擊是可能的——那些你可以在論文中添加一些無害的文字(或以看似微小的方式改變現有文本)並顯著提高某個特定模型接受可能性的攻擊。
hardmaru
hardmaru7月23日 20:31
ICML 對顛覆性隱藏 LLM 提示的聲明 我們生活在一個奇怪的時間線上…
4.57K