×

贪婪攻击和甘贝尔攻击:为离散数据生成对抗性示例。 (英语) Zbl 1498.68274号

摘要:我们提出了一个研究离散数据上对手攻击的概率框架。基于这个框架,我们导出了一种基于扰动的方法Greedy Attack和一种基于可扩展学习的方法Gumbel Attack,它们说明了攻击设计中的各种权衡。我们使用定量指标和人类评估对各种最先进的文本分类模型(包括基于单词的CNN、基于字符的CNN和LSTM)进行了验证,证明了这些方法的有效性。作为结果的一个例子,我们表明,通过贪婪攻击只修改五个字符,基于字符的卷积网络的准确性下降到随机选择的水平。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68平方米25 计算机安全
68T50型 自然语言处理

关键词:

对抗性攻击
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 穆斯塔法·阿尔桑托特(Moustafa Alzantot)、亚什·夏尔马·夏尔马(Yash Sharma Sharma)、艾哈迈德·埃尔戈哈里(Ahmed Elgohary)、博·张浩(Bo-Jhang Ho)、马尼·斯利瓦斯塔瓦(Mani Srivastava)和张凯。生成自然语言对抗示例。2018年自然语言处理实证方法会议记录,2018年。
[2] Jimmy Ba、Volodymyr Mnih和Koray Kavukcuoglu。视觉注意力下的多物体识别。arXiv预印本arXiv:1412.77552014。
[3] Dzmitry Bahdanau、Kyunghyun Cho和Yoshua Bengio。联合学习对齐和翻译的神经机器翻译。arXiv电子版,abs/1409.04732014。
[4] 理查德·伯克和贾斯汀·布利奇。预测犯罪行为的统计程序。犯罪学与公共政策,12(3):513-5442013。
[5] 程敏浩(Minhao Cheng)、易金凤(Jinfeng Yi)、张欢(Huan Zhang)、陈品玉(Pin-Yu Chen)和谢卓瑞(Cho-Jui Xieh)。Seq2sick:使用对抗性示例评估序列到序列模型的稳健性。arXiv预印本arXiv:1803.011282018。
[6] Nilesh Dalvi、Pedro Domingos、Sumit Sanghai、Deepak Verma等。对手分类。第十届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第99-108页。ACM,2004年。
[7] GREEDYATTACK和Gumbelatback:为离散数据生成不利示例
[8] 纪高、杰克·兰坎廷、玛丽·卢·索法和齐彦军。黑箱生成对抗性文本序列以避开深度学习分类器。arXiv预印本arXiv:1801.043542018。
[9] 苏什米托·戈什(Sushmito Ghosh)和道格拉斯·莱利(Douglas L Reilly)。《利用神经网络检测信用卡欺诈》,《InSystem Sciences》,1994年。第二十七届夏威夷国际会议记录,第3卷,第621-630页。IEEE,1994年。
[10] Ian J Goodfellow、Jonathon Shlens和Christian Szegedy。解释和利用对抗性示例。arXiv预印本arXiv:1412.65722014。
[11] 杰弗里·辛顿(Geoffrey Hinton)、尼蒂什·斯利瓦斯塔瓦(Nitish Srivastava)和凯文·斯沃斯基(Kevin Swersky)。用于机器学习的神经网络-架构6a-微型分支梯度下降概述,2012年。
[12] Sepp Hochreiter和Jürgen Schmidhuber。长短期记忆。神经计算,9(8):1735-17801997。
[13] Eric Jang、Shixiang Gu和Ben Poole。用软糖胶进行分类重新参数化。统计,1050:12017。
[14] Robin Jia和Percy Liang。评价阅读理解系统的对立示例。《2017年自然语言处理实证方法会议论文集》,第2021-2031页,2017年。
[15] 尹金。用于句子分类的卷积神经网络。《2014年自然语言处理实证方法会议论文集》,第1746-1751页,2014年。
[16] 齐科·科尔特(J Zico Kolter)和马库斯·马洛夫(Marcus A Maloof)。学习在野外检测和分类恶意可执行文件。机器学习研究杂志,7(12月):2721-27442006·Zbl 1222.68236号
[17] 亚历克谢·库拉金(Alexey Kurakin)、伊恩·古德费罗(Ian Goodfellow)和萨米·本吉奥(Samy Bengio)。物理世界中的对抗性例子。arXiv预印arXiv:1607.025332016。
[18] 李季伟、陈新雷、爱德华·霍维和丹·朱拉夫斯基。可视化和理解nlp.arXiv预印本arXiv:1506.010662015中的神经模型。
[19] 李季伟、威尔·门罗和丹·朱拉夫斯基。通过表示删除理解神经网络。arXiv预印本arXiv:1612.08220,2016。
[20] 梁斌、李洪成、苏妙强、潘边、李西荣和史文昌。深度文本分类是万无一失的。arXiv预印本arXiv:17004.080062017。
[21] Andrew L Maas、Raymond E Daly、Peter T Pham、Dan Huang、Andrew Y Ng和Christopher Potts。学习情感分析的词向量。计算语言学协会第49届年会论文集:人类语言技术——第1卷,页
[22] Chris J Maddison、Andriy Mnih和Yee Whye Teh。具体分布:离散随机变量的连续松弛。arXiv预印本arXiv:1611.00712016。
[23] Nikola Mrkši´c、Diarmuid Oh Séaghdha、Blaise Thomson、Milica Gaši'c、Lina M Rojas-Barahona、Pei-Hao Su、David Vandyke、Tsung-Hsien Wen和Steve Young。将单词向量与语言约束相对应。《计算语言学协会北美分会2016年会议记录:人类语言技术》,第142-148页,2016年。
[24] 尼古拉斯·帕普诺特(Nicolas Papernot)、帕特里克·麦克丹尼尔(Patrick McDaniel)、阿南特拉姆·斯瓦米(Ananthram Swami)和理查德·哈朗(Richard Harang)。为递归神经网络构建对抗性输入序列。军事通信会议,MILCOM 2016-2016 IEEE,第49-54页。IEEE,2016年。
[25] 杰弗里·彭宁顿(Jeffrey Pennington)、理查德·索彻(Richard Socher)和克里斯托弗·曼宁(Christopher Manning)。手套:单词表示的全局向量。《2014年自然语言处理实证方法会议论文集》,第1532-1543页,2014年。
[26] 苏兰贾娜·萨曼塔和萨米普·梅塔。《走向制作文本对抗性样本》。arXiv预印本arXiv:1707.028122017。
[27] Karen Simonyan、Andrea Vedaldi和Andrew Zisserman。深层卷积网络:可视化图像分类模型和显著图。arXiv预印本arXiv:1312.60342013。
[28] 尼蒂什·斯利瓦斯塔瓦(Nitish Srivastava)、杰弗里·欣顿(Geoffrey Hinton)、亚历克斯·克利舍夫斯基(Alex Krizhevsky)、伊利亚·萨茨克沃(Ilya Sutskever)和鲁斯兰·萨拉库丁诺夫。辍学:防止神经网络过度拟合的简单方法。机器学习研究杂志,15(1):1929-19582014·Zbl 1318.68153号
[29] Gianluca Stringhini、Christopher Kruegel和Giovanni Vigna。检测社交网络上的垃圾邮件发送者。第26届年度计算机安全应用会议记录,第页
[30] Christian Szegedy、Wojciech Zaremba、Ilya Sutskever、Joan Bruna、Dumitru Erhan、Ian Goodfellow和Rob Fergus。神经网络的有趣特性。arXiv预印本arXiv:1312.6199,2013。
[31] 大卫·韦斯特。神经网络信用评分模型。计算机与运筹学,27(11-12):1131-11522000·Zbl 0962.90004号
[32] 罗纳德·威廉姆斯。用于连接强化学习的简单统计梯度允许算法。机器学习,8(3-4):229-2561992·Zbl 0772.68076号
[33] Kelvin Xu、Jimmy Ba、Ryan Kiros、Kyunghyun Cho、Aaron Courville、Ruslan Salakhudinov、Rich Zemel和Yoshua Bengio。展示、出席和讲述:用视觉注意力生成神经图像字幕。机器学习国际会议,第2048-2057页,2015年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。