计算机科学››2021,第48卷››问题(1): 258-267.数字对象标识:10.11896/jsjkx.200500078

•信息安全• 以前的文章   下一篇文章

面向自然语言处理的深度学习对抗性样本调查

童欣、王斌军、王润正、潘晓琴  

  1. 中国人民公安大学信息与网络安全学院,北京100038
  • 收到:2020-05-18 修订过的:2020-08-25 在线:2021-01-15 出版:2021-01-15
  • 关于作者:童欣,1995年生,研究生,中国计算机联合会会员。他的主要研究兴趣包括对抗性示例和自然语言处理。
    王彬君,1962年生,教授,博士生导师,中国计算机联合会会员。他的主要研究兴趣包括自然语言处理和信息安全。
  • 支持单位:
    2020年CCF-Ns聚焦“坤鹏”研究基金(CCF-Nsfocus 2020011)、公安部科技强警基础项目(2018GABJC03)、国家社科基金重点项目(20AZD114)、,中国人民公安大学拔尖人才培养专项资金研究生创新项目(2020ssky005)、中国人民公安学院公共安全行为科研与技术创新。

摘要:深度学习模型已经被证明是脆弱的,并且容易受到对抗性示例的攻击,但目前对对抗性样本的研究主要集中在计算机视觉领域,而忽视了自然语言处理模型的安全性。针对自然语言处理领域中对抗性样本面临的相同风险,本文澄清了对抗性样本的相关概念,为进一步研究奠定了基础。首先,分析了漏洞产生的原因,包括基于深度学习的自然语言处理模型的复杂结构、难以检测的训练过程和朴素的基本原则,进一步阐述了文本对抗性示例的特征、分类和评估指标,并介绍了与自然语言处理领域研究相关的对抗性示例中涉及的典型任务和经典数据集。其次,根据不同的扰动层次,梳理出主流的字词级、句子级和多层次的各种文本对抗例生成技术。此外,总结了与数据、模型和推理相关的防御方法,并比较了它们的优缺点。最后,对当前NLP对抗样本领域攻防双方的痛点进行了进一步的讨论和展望。

关键词: 对立的例子, 人工智能安全, 深度学习, 自然语言处理, 稳健性

CLC编号:

  • TP301型
[1] 霍克雷特S,施米德胡贝尔J。长短记忆[J]。神经计算,1997,9(8):1735-1780。
[2] MIKOLOV T,CHEN K,CORRADO G,等.向量空间中单词表示的有效估计[J].arXiv:1301.37812013。
[3] 彭宁顿J,SOCHER R,MANNING C.Glove:GlobalVectors for Word Representation[C]//2014年自然语言过程实证方法会议论文集(EMNLP).2014:1532-1543。
[4] 戴夫林J,张明伟,李凯,等.BERT:语言理解的深层双向变形金刚预训练[J].arXiv:1810.048052018。
[5] YANG Z,DAI Z,YANG Y,et al.XLNet:语言理解的广义自回归预训练[C]//神经信息处理系统的进展。2019:5754-5764。
[6] 王伟,王磊,汤波,等.文本域鲁棒深度神经网络研究[J].arXiv:1902.072852019。
[7] SZEGEDY C,ZAREMBA W,SUTSKEVER I,等.神经网络的有趣性质[J].arXiv:1312.61992013。
[8] 潘文斌,王晓云.对抗性示例生成研究[J]。软件杂志,2020,31(1):67-81。
[9] ASHISH V.注意力就是你所需要的一切[C]//神经信息处理系统的进展。2017:5998-6008。
[10] NIVEN T,KAO H Y.探索神经网络对自然语言论证的理解[J].arXiv:1907.073552019。
[11] KUSNER M,SUN Y,KOLKIN N,等.从单词嵌入到文档距离[C]//机器学习国际会议.2015:957-966。
[12] 黄刚,郭C,库斯纳M J,等.监督WordMover的距离[C]//神经信息处理系统的进展.2016:4862-4870。
[13] WU L.Word mover的嵌入:从word2vec到文档嵌入[J].arXiv:1811.017132018。
[14] 董毅,付庆安,杨欣,等.对抗性稳健性的基准测试[J].arXiv:1912.118522019。
[15] MICHEL P,LI X,NEUBIG G,等.序列对序列模型对抗性扰动的评估[J].ar Xiv:1903.066202019。
[16] GIANNA M D C,ANTONIO G,FRANCESCO R,et al.Ran-king a stream of news[C]//第十四届国际互联网会议论文集.2005:97-106。
[17] RICHARD S.情感树库语义合成的递归深度模型[C]//2013年自然语言过程实证方法会议论文集.2013:1631-1642。
[18] CETTOLO M,GIRARDI C,FEDERICO M.Wit3:转录和翻译演讲的网络目录[C]//欧洲机器翻译协会会议。2012:261-268。
[19] RAJPURKAR P,ZHANG J,LOPYREV K,et al.SQuAD:100000+文本机器理解问题[J].arXiv:1606.052502016。
[20] RAJPURKAR P,JIA R,LIANG P.知道你不知道的:SQuAD无法回答的问题[J].arXiv:1806.038222018。
[21]GOYAL Y,KHOT T,SUMMERS-STAY D,et al.使VQA中的V变得重要:提升图像理解在视觉问答中的作用[C]//IEEE计算机视觉和模式识别会议(CVPR)论文集.2017:6904-6913。
[22]波曼·S·R,安格尔·G,波茨·C,等.一个用于学习自然语言推理的大型标注语料库[J].arXiv:1508.053262015。
[23]威廉姆斯A,南佳N,鲍曼S R.一个基于推理的句子理解的广义挑战语料库[J].arXiv:1704.054262017。
[24]ERIK F,SANG T K,DE MEULDER F D.CoNLL-2003共享任务简介:语言依赖命名实体识别[J].arXiv:03060502003。
[25]BELINKOV Y,BISK Y.合成噪声和自然噪声均破坏神经机器翻译[J].arXiv:1711.021732017。
[26]GAO J,LANCHANTIN J,SOFFA M L,et al.通过黑盒生成对抗性文本序列来规避深度学习分类器[C]//2018 IEEE安全与隐私研讨会(SPW)。IEEE,2018:50-56。
[27]王伟强,王荣.汉语文本倾向分类的对抗性例句生成方法[J]。软件杂志,2019,30(8):2415-2427。
[28]EBRAHIMI J,LOWD D,DOU D.关于特征级神经机器翻译的对抗性示例[J].arXiv:1806.090302018。
[29]爱格S,?AHIN G G,RüCKLèA,等.与人类一样的文本处理:视觉攻击和屏蔽NLP系统[J].arXiv:1903.115082019。
[30]PAPERNOT N,MCDANIEL P,SWAMI A,et al.为递归神经网络构建对抗性输入序列[C]//MILCOM 2016-2016 IEEE军事通信会议。IEEE,2016:49-54。
[31]古德费罗I J,SHLENS J,SZEGEDY C.解释和利用对抗性例子[J].arXiv:1412.65722014。
[32]JIN D,JIN Z,ZHOU J T,et al.BERT真的很稳健吗自然语言攻击在文本分类和隐含方面的强大基础[J]。AAAI2020,arXiv:1907.119322019。
[33]SAMANTA S,MEHTA S.朝向制作文本对抗样本[J].arXiv:1707.028122017。
[34]SATO M,SUZUKI J,SHINDO H,等.文本输入嵌入空间中的可解释对抗扰动[J].arXiv:1805.029172018。
[35]张赫,周赫,苗恩,等.生成自然语言的流利对手示例[C]//计算语言学协会第57届年会论文集.2019:5564-5569。
[36]ALZANTOT M,SHARMA Y,ELGOHARY A,et al.生成自然语言对抗性示例[J].arXiv:1804.079982018。
[37]臧毅,杨C,齐发,等.作为组合优化的文本对抗攻击[J].arXiv:1910.121962019。
[38]REN S,DENG Y,HE K,et al.利用概率加权词显著性生成自然语言对抗性示例[C]//计算语言学协会第57届年会论文集.2019:1085-1097。
[39]贾瑞,梁P.评价阅读理解系统的对立示例[J].arXiv:1707.073282017。
[40]MINERVINI P,RIEDEL S.反向调节神经网络模型以集成逻辑背景知识[J].arXiv:1808.086092018。
[41]程毅,蒋力,马切里W.具有双重对抗输入的鲁棒神经机器翻译[J].arXiv:1906.024432019。
[42]IYYER M,WIETING J,GIMPEL K,等.基于句法控制复述网络的对抗性示例生成[J].arXiv:1804.060592018。
[43]赵Z,杜德,辛格S.生成自然对抗示例[J].arXiv:1710.113422017。
[44]ARJOVSKY M,CHINTALA S,BOTTOU L.Wasserstein gan[J].arXiv:1701.078752017。
[45]WALLACE E,RODRIGUEZ P,FENG S,et al.尽可能地欺骗我:人性化的一代问答对抗示例[J]。计算语言学协会学报,2019,7(2019):387-401。
[46]RIBEIRO M T,SINGH S,GUESTRIN C.用于调试nlp模型的语义等效对抗性规则[C]//计算语言学协会第56届年会的进展。2018:856-865。
[47]李J,JI S,DU T,et al.Textbugger:针对真实应用程序生成对抗性文本[J].arXiv:1812.052712018。
[48]EBRAHIMI J,RAO A,LOWD D,et al.热翻转:文本分类的白盒对抗示例[J].arXiv:1712.067512017。
[49]VIJAYARAGHAVAN P,ROY D.使用深度增强模型生成文本分类器的黑盒高级语义示例[J].arXiv:1909.078732019。
[50]梁斌,李华,苏梅,等.深度文本分类可以被愚弄[J].arXiv:1704.080062017。
[51]GARDNER M,ARTZI Y,BASMOVA V,等.基于对比集的nlp模型评价[J].arXiv:2004.027092020。
[52]PRUTHI D,DHINGRA B,LIPTON Z C.使用稳健的单词识别技术对抗对手拼写错误[J].arXiv:1905.112682019。
[53]周毅,姜建毅,张开伟,等.文本分类中阻止对手攻击的扰动判别[J].arXiv:1909.030842019。
[54]TANAY T,GRIFFIN L D.关于L2正则化的新视角[J].arXiv:1806.111862018。
[55]PAPERNOT N,MCDANIEL P,WU X,et al.蒸馏作为对抗深度神经网络对抗干扰的防御[C]//2016 IEEE安全与隐私研讨会(SP)。IEEE,2016:582-597。
[56]MIYATO T,DAI A M,GOODFELLOW I.半监督文本分类的对抗训练方法[J].arXiv:1605.077252016。
[57]MADRY A,MAKELOV A,SCHMIDT L,等.面向对抗性攻击的深度学习模型[J].arXiv:1706.060832017。
[58]李磊,邱X.TextAT:用标记级扰动进行自然语言理解的对抗训练[J].arXiv:2004.145432020。
[59]DINAN E,HUMEAU S,CHINTAGUNTA B,et al.Build it break it fix it for dialogue safety:鲁棒性,对抗性人类攻击[J].arXiv:1908.060832019。
[60]HE W,WEI J,CHEN X,et al.对抗性示例防御:弱防御的集合不强[C]//第11届USENIX攻势技术研讨会(WOOT 17).2017。
[61]KO C Y,LYU Z,WENG T W,等.POPQORN:递归神经网络鲁棒性的量化[J].arXiv:1905.073872019。
[62]施Z,张华,常可伟,等.变压器的鲁棒性验证[J].arXiv:2002.066222020。
[63]古德曼D,XIN H,YANG W,et al.Advbox:一个生成欺骗神经网络的对抗性示例的工具箱[J].arXiv:2001.055742020。
[64]ATHALYE A,CARLINI N,WAGNER D.模糊的毕业生给人一种错误的安全感:回避对抗性例子的防御[J].arXiv:1802.004202018。
[65]华莱士·E,冯斯,坎达尔·N,等。nlp的通用对抗性触发器[J]。arXiv:1908.071252019。
[66]梁荣庚,吕萍,等.视听深伪检测技术综述[J]。《网络安全杂志》,2020,5(2):1-17。
[67]于磊,张伟,等.Seqgan:具有策略梯度的序列生成对抗网[C]//第三十届人工智能AAAI会议.2017。
[1] 饶志双、贾震、张帆、李天瑞。用于知识图问题回答的键值关系存储网络[J] ●●●●。计算机科学,2022,49(9):202-207。
[2] 唐灵涛,王迪,张陆飞,刘圣云。基于安全多方计算和差分隐私的联合学习方案[J] ●●●●。计算机科学,2022,49(9):297-305。
[3] 徐永新、赵俊峰、王亚莎、谢兵、杨凯。时间知识图表示学习[J] ●●●●。计算机科学,2022,49(9):162-171。
[4] 王健,彭玉奇,赵玉菲,杨健。基于深度学习的社会网络舆情信息提取研究综述[J] ●●●●。计算机科学,2022,49(8):279-293。
[5] 郝志荣、陈龙、黄家成。文本分类中的类鉴别通用对抗攻击[J] ●●●●。计算机科学,2022,49(8):323-329。
[6] 蒋梦涵,李少梅,郑洪浩,张建鹏。基于改进位置嵌入的谣言检测模型[J] ●●●●。计算机科学,2022,49(8):330-335。
[7] 孙琪,季根林,张杰。基于非局部注意的视频异常事件检测生成对抗网络[J] ●●●●。计算机科学,2022,49(8):172-177。
[8] 闫家丹、贾彩燕。基于双图神经网络信息融合的文本分类方法[J] ●●●●。计算机科学,2022,49(8):230-236。
[9] HOU Yu-tao、ABULIZI Abudukelimu、Abudukelimu Halidanmu。中国训练前模型研究进展[J] ●●●●。计算机科学,2022,49(7):148-163。
[10] 周慧、史浩谦、屠耀峰、黄胜军。基于主动采样的鲁棒深度神经网络学习[J] ●●●●。计算机科学,2022,49(7):164-169。
[11] 苏丹宁、曹桂涛、王延南、王红、任和。基于小样本的雷达辐射源识别深度学习研究综述[J] ●●●●。计算机科学,2022,49(7):226-235。
[12] 胡彦尤、赵龙、董祥军。用于癌症分类的两阶段深度特征选择提取算法[J] ●●●●。计算机科学,2022,49(7):73-78。
[13] 程成、蒋爱莲。基于多通道特征提取的实时语义分割方法[J] ●●●●。计算机科学,2022,49(7):120-126。
[14] 王俊峰、刘凡、杨赛、吕丹玉、陈志佑、徐峰。基于多源传递学习的大坝裂缝检测[J] ●●●●。计算机科学,2022,49(6A):319-324。
[15] CHU Yu-chun,龚航,王学芳,刘佩顺。基于YOLOv4的目标检测算法知识提取研究[J] ●●●●。计算机科学,2022,49(6A):337-344。
已查看
全文


摘要

引用

  共享   
  讨论   
找不到建议阅读的文章!