我敢打赌,敌对攻击是可能的——你可以在一篇论文中添加一些无害的文本(或以看似微小的方式修改现有文本),并显著提高某个特定模型接受的可能性。
hardmaru
hardmaru7月23日 20:31
ICML关于颠覆性隐藏LLM提示的声明 我们生活在一个奇怪的时间线中…
4.58K