TextShield: Beyond Successfully Detecting Adversarial Sentences in Text Classification

Shen, Lingfeng; Zhang, Ze; Jiang, Haiyun; Chen, Ying

计算机科学>计算与语言

arXiv:2302.02023年（cs）

【于2023年2月3日提交】

标题：TextShield：超越在文本分类中成功检测对手句

作者：沈玲凤，张泽，姜海云（Haiyun Jiang），陈颖（音）

查看PDF

摘要：对抗性攻击是NLP中神经网络模型的一个主要挑战，它妨碍了模型在安全关键应用程序中的部署。最近的一项工作是基于检测的辩护，旨在区分对抗性判决和良性判决。然而，{与其他范式中的防御方法不同，以往检测方法的核心局限是无法对对抗性句子做出正确的预测。}为了解决这个问题，本文提出了TextShield：（1）我们发现文本攻击与显著性信息之间的联系，然后我们提出了一种基于显著性的检测器，它可以有效地检测输入句子是否具有对抗性。（2）我们设计了一个基于显著性的校正器，将检测到的对手句转换为良性句子。通过结合基于盐度的检测器和校正器，TextShield将仅检测范式扩展为检测-校正范式，从而填补了现有基于检测的防御的空白。综合实验表明，（a）在不同基准的各种攻击中，TextShield始终比最先进的防御方法实现更高或可比的性能。（b）我们的基于盐度的检测器在检测对抗性句子方面优于现有的检测器。

学科：	计算与语言（cs.CL）; 人工智能（cs.AI）
引用为：	arXiv:2302.02023年【cs.CL】
	（或 arXiv:2302.02023v1【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2302.02023

提交历史记录

发件人：沈玲凤[查看电子邮件]
[第1版]2023年2月3日星期五22:58:07 UTC（5035 KB）

全文链接：

访问纸张：

查看许可证

当前浏览上下文：

反恐精英。氯

<上一页 | 下一个>

新的 | 最近的 |2023-02

更改为浏览方式：

反恐精英
反恐精英。人工智能

参考文献和引文

导出BibTeX引文

计算机科学>计算与语言

标题：TextShield：超越在文本分类中成功检测对手句

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：TextShield：超越在文本分类中成功检测对手句

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目