计算机科学>计算与语言
标题: TextShield:超越在文本分类中成功检测对手句
摘要: 对抗性攻击是NLP中神经网络模型的一个主要挑战,它妨碍了模型在安全关键应用程序中的部署。 最近的一项工作是基于检测的辩护,旨在区分对抗性判决和良性判决。 然而,{与其他范式中的防御方法不同,以往检测方法的核心局限是无法对对抗性句子做出正确的预测。}为了解决这个问题,本文提出了TextShield:(1)我们发现文本攻击与显著性信息之间的联系,然后我们提出了一种基于显著性的检测器, 它可以有效地检测输入句子是否具有对抗性。 (2) 我们设计了一个基于显著性的校正器,将检测到的对手句转换为良性句子。 通过结合基于盐度的检测器和校正器,TextShield将仅检测范式扩展为检测-校正范式,从而填补了现有基于检测的防御的空白。 综合实验表明,(a)在不同基准的各种攻击中,TextShield始终比最先进的防御方法实现更高或可比的性能。 (b) 我们的基于盐度的检测器在检测对抗性句子方面优于现有的检测器。