×

上下文解释网络。 (英语) Zbl 1529.68250号

概要:现代学习算法擅长生成精确但复杂的数据模型。然而,在现实世界中部署这样的模型需要格外小心:我们必须确保它们的可靠性、健壮性以及不存在不希望出现的偏差。这推动了模型的开发,这些模型同样准确,但也可以很容易地进行检查和评估,超出其预测性能。为此,我们引入了上下文解释网络(CEN),这是一类通过生成和使用中间简化概率模型来学习预测的体系结构。具体而言,CEN为中间图形模型生成参数,这些模型进一步用于预测并发挥解释作用。与现有的事后模型解释工具相反,CEN学习同时进行预测和解释。我们的方法提供了两个主要优点:(i)对于每个预测,都会生成有效的、特定实例的解释,而无需计算开销;(ii)通过解释进行预测可以充当正则化器,提高数据存储设置的性能。我们从理论和实验上分析了该框架。我们在图像和文本分类以及生存分析任务上的结果表明,CEN不仅与最先进的方法具有竞争力,而且还提供了每个预测背后的额外见解,这对决策支持很有价值。我们还表明,虽然事后方法在某些情况下可能产生误导性解释,但CEN是一致的,允许系统地检测此类情况。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H22个 概率图形模型
62H30型 分类和区分;聚类分析(统计方面)
62N01号 审查数据模型
62号05 可靠性和寿命测试
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] O.O.阿伦。寿命分析的线性回归模型。医学统计学,8(8):907-9251989。
[2] Martín Abadi、Paul Barham、Jianmin Chen、Zhifeng Chen、Andy Davis、Jeffrey Dean、Matthieu Devin、Sanjay Ghemawat、Geoffrey Irving、Michael Isard等。Tensorflow:大型机器学习系统。InOSDI,第16卷,第265-283页,2016年。
[3] Maruan Al-Shedivat、Andrew Gordon Wilson、Yunus Saatchi、Zhiting Hu和Eric P Xing。学习具有递归结构的可伸缩深层内核。机器学习杂志·Zbl 1434.68390号
[4] David Belanger和Andrew McCallum。结构化预测能源网络。2016年机器学习国际会议论文集。
[5] 卢卡·贝蒂内托(Luca Bertinetto)、乔·芬里克(Joáo F Henriques)、杰克·瓦尔马德雷(Jack Valmadre)、菲利普·托尔(Philip Torr)和安德烈亚·维达尔迪(Andrea Vedaldi)。学习前馈式一次性学习者。《神经信息处理系统进展》,第523-531页,2016年。
[6] David M Blei、Andrew Y Ng和Michael I Jordan。潜在的dirichlet分配。机器学习研究杂志,3(1月):993-10222003·Zbl 1112.68379号
[7] Rich Caruana、Hooshang Kangarloo、JD Dionisio、Usha Sinha和David Johnson。非案例学习方法的案例解释。《AMIA研讨会论文集》,第212页,1999年。
[8] Rich Caruana等人,《医疗保健智能模型:预测肺炎风险和医院30天再入院》。第21届ACM SIGKDD国际会议记录
[9] 索拉维特·昌皮约、赵伟伦、龚伯清和费沙。用于零快照学习的合成分类器。arXiv预印本arXiv:1603.005502016。
[10] François Chollet等人,Keras。https://keras.io网址, 2015.
[11] Ronan Collobert、Jason Weston、Léon Bottou、Michael Karlen、Koray Kavukcuoglu和Pavel Kuksa。自然语言处理(几乎)从头开始。机械杂志·Zbl 1280.68161号
[12] 托马斯·M·盖和乔伊·A·托马斯。信息论要素。John Wiley&Sons,2012年·Zbl 1140.94001号
[13] 考克斯博士。回归模型和寿命表。英国皇家统计学会杂志。B系列(方法学),第187-220页,1972年·Zbl 0243.62041号
[14] 乔治·达尔(George E.Dahl)、瑞安·亚当斯(Ryan P.Adams)和雨果·拉罗谢尔(Hugo Larochelle)。训练受限boltzmann机器进行单词观察。第29届国际国际会议记录
[15] Andrew M Dai和Quoc V Le。半监督序列学习。《神经信息处理系统进展》,第3079-3087页,2015年。
[16] 纳芙尼特·达拉和比尔·特里格斯。人体检测定向梯度直方图。《计算机视觉和模式识别》,2005年。CVPR 2005。IEEE计算机学会会议,第1卷,第886-893页。IEEE,2005年。
[17] 伯特·德·布拉班代尔(Bert De Brabandere)、徐佳(Xu Jia)、丁·图伊特拉斯(Tinne Tuytelaars)和吕克·范·古尔(Luc Van Gool)。动态过滤网络。神经信息处理系统(NIPS),2016年。
[18] Adji B.Dieng、Chong Wang、Jianfeng Gao和John William Paisley。Topicrnn:具有远程语义依赖性的递归神经网络。国际会议
[19] 安·凯瑟琳·多布罗夫斯基(Ann-Kathrin Dombrowski)、马克西米利安·阿尔伯(Maximillian Alber)、克里斯托弗·安德斯(Christopher Anders)、马塞尔·阿克曼(Marcel Ackermann)、克劳斯·罗贝特·穆勒(Klaus-Robert Müller)和潘。解释是可以操纵的,几何学是罪魁祸首。《神经信息处理系统进展》,第13567-13578页,2019年。
[20] 最后是Doshi-Velez和Been Kim。迈向可解释机器学习的严谨科学。arXiv预印本arXiv:1702.086082017。
[21] 哈里森·爱德华兹和阿莫斯·斯托基。面向神经统计学家。arXiv预印本arXiv:1606.021852016。
[22] 布拉德利·埃夫隆。Logistic回归、生存分析和kaplan-meier曲线。美国统计协会杂志,83(402):414-4251988·Zbl 0644.62100号
[23] Kuzman Ganchev、Jennifer Gillenwater、Ben Taskar等。结构化潜在变量模型的后验正则化。机器学习研究杂志,11(7月):2001-20492010·Zbl 1242.68223号
[24] 高元军(音)、埃文·瓦彻(Evan W Archer)、利亚姆·帕宁斯基(Liam Paninski)和约翰·坎宁安(John P Cunningham)。通过非线性嵌入的线性动态神经种群模型。神经研究进展
[25] Marta Garnello、Dan Rosenbaum、Chris J Maddison、Tiago Ramalho、David Saxton、Murray Shanahan、Yee Whye Teh、Danilo J Rezende和SM Eslami。条件神经过程。
[26] Scott Gray、Alec Radford和Diederik P Kingma。块解析权重的Gpu内核。arXiv预印arXiv:1711.092242017年3月。
[27] David Ha、Andrew Dai和Quoc V Le。Hypernetworks.arXiv预印本arXiv:1609.091062016。
[28] 卢浩南、黄赛思、田晔、郭秀艳。广义多任务学习的图星网。arXiv预印本arXiv:1906.12330,2019。
[29] 特雷弗·哈斯蒂(Trevor Hastie)和罗伯特·蒂布什拉尼(Robert Tibshirani)。变系数模型。英国皇家统计学会杂志。B系列(方法学),第757-796页,1993年·Zbl 0796.62060号
[30] 杰里米·霍华德和塞巴斯蒂安·鲁德。文本分类的通用语言模型微调。arXiv预打印arXiv:1801.061462018。
[31] Robert A Jacobs、Michael I Jordan、Steven J Nowlan和Geoffrey E Hinton。当地专家的适应性混合。神经计算,3(1):79-871991。
[32] Max Jaderberg、Karen Simonyan、Andrea Vedaldi和Andrew Zisserman。无约束文本识别的深层结构输出学习。arXiv预印本arXiv:1412.59032014。
[33] Neal Jean、Marshall Burke、Michael Xie、W Matthew Davis、David B Lobell和Stefano Ermon。结合卫星图像和机器学习来预测贫困。《科学》,353(6301):790-7942016年。
[34] 姜文新(Wenxin Jiang)和马丁·塔纳(Martin A Tanner)。指数族回归模型的专家层次混合:近似和最大似然估计。《统计年鉴》,第987-1011页,1999年·Zbl 0957.62032号
[35] 马修·约翰逊(Matthew Johnson)、大卫·K·杜维诺(David K Duvenaud)、亚历克斯·威尔奇科(Alex Wiltschko)、瑞安·P·亚当斯(Ryan P Adams)和桑迪普·R·达塔(Sandeep R Datta)。用神经网络组成图形模型,用于结构化表示和快速推理。《神经信息处理系统进展》,第2946-2954页,2016年。
[36] Rie Johnson和Tong Zhang。利用卷积神经网络有效地使用语序进行文本分类。2015年北美会议记录
[37] Rie Johnson和Tong Zhang。基于区域嵌入的半监督卷积神经网络文本分类。神经信息处理系统进展,第919-927页,2015b。
[38] Rie Johnson和Tong Zhang。使用lstm进行区域嵌入的监督和半监督文本分类。第33届国际机器会议记录·Zbl 1304.68147号
[39] 安德烈·卡佩西、贾斯汀·约翰逊和李菲菲。可视化和理解递归网络。arXiv预印本arXiv:1506.020782015。
[40] Been Kim、Cynthia Rudin和Julie A Shah。贝叶斯案例模型:基于案例推理和原型分类的生成方法。神经研究进展
[41] Been Kim、Oluwasanmi O Koyejo和Rajiv Khanna。榜样不够,学会批评!对可解释性的批评。神经信息处理系统进展,第2280-2288页,2016年。
[42] P.W.Koh和P.Liang。通过影响函数了解黑盒预测。在2017年国际机器学习会议(ICML)上。
[43] Daphne Koller和Nir Friedman。概率图形模型:原理和技术。麻省理工学院出版社,2009年·Zbl 1183.68483号
[44] Rahul G Krishnan、Uri Shalit和David Sontag。非线性状态空间模型的结构化推理网络。InAAAI,第2101-2109页,2017年。
[45] John Lafferty、Andrew McCallum、Fernando Pereira等,条件随机场:用于分割和标记序列数据的概率模型。诉讼中
[46] Himabindu Lakkaraju和Osbert Bastani。“我怎么愚弄你?”:通过误导性的黑盒子解释操纵用户信任。arXiv预印本arXiv:1911.064732019。
[47] Quoc Le和Tomas Mikolov。句子和文档的分布式表示。在2014年国际机器学习会议上,第1188-1196页。
[48] 陶磊、里贾娜·巴兹雷和托米·贾科拉。合理化神经预测。arXiv预印本arXiv:1606.041552016。
[49] 吉米·雷巴(Jimmy Lei Ba)、凯文·斯沃斯基(Kevin Swersky)、萨尼娅·菲德勒(Sanja Fidler)和鲁斯兰·萨拉库丁诺夫(Ruslan Salakhutdinov)。使用文本描述预测深度零快照卷积神经网络。诉讼程序
[50] 布鲁斯·林赛。混合模型:理论、几何和应用。在NSF-CBMS概率与统计区域会议系列中,第i-163页。JSTOR,1995年·兹比尔1163.62326
[51] 扎卡里·C·利普顿。模型可解释性的神话。arXiv预印本arXiv:1606.034902016。
[52] Liping Liu、Francisco Ruiz和David Blei。嵌入模型的上下文选择。《神经信息处理系统进展》,第4817-4826页,2017年。
[53] 塔尼娅·隆布罗佐(Tania Lombrozo)。解释的结构和功能。认知科学趋势,10(10):464-4702006。
[54] Scott Lundberg和Su-In Lee。解释模型预测的统一方法。arXiv预印本arXiv:1705.078742017。
[55] Andrew L.Maas、Raymond E.Daly、Peter T.Pham、Dan Huang、Andrew Y.Ng和Christopher Potts。学习情感分析的词向量。在的诉讼中
[56] Andrew L Maas、Raymond E Daly、Peter T Pham、Dan Huang、Andrew Y Ng和Christopher Potts。学习情感分析的词向量。第49届年度会议记录
[57] Aravindh Mahendran和Andrea Vedaldi。通过反转来理解深层图像表示。IEEE计算机视觉和模式会议论文集
[58] 宫本武鲁、安德鲁·戴和伊恩·古德费罗。半监督文本分类的对抗训练方法。arXiv预印本arXiv:1605.077252016。
[59] Sahand Negahban、Bin Yu、Martin J Wainwright和Pradeep K Ravikumar。使用可分解正则化子进行高维m估计分析的统一框架。神经信息处理系统进展,第1348-13562009页·Zbl 1331.62350号
[60] Anh Nguyen、Jason Yosinski和Jeff Clune。深度神经网络很容易被愚弄:对不可识别图像的高置信预测。IEEE会议记录
[61] 尼古拉斯·帕普诺特(Nicolas Papernot)、帕特里克·麦克丹尼尔(Patrick McDaniel)、伊恩·古德费罗(Ian Goodfellow)、萨默什·杰哈(Somesh Jha)、Z Berkay Celik和阿南特拉姆·斯瓦米(Anant。使用对抗性示例对深度学习系统进行实际黑盒攻击。arXiv预打印arXiv:1602.026972016。
[62] Sashank J Reddi、Satyen Kale和Sanjiv Kumar。关于亚当的收敛性和超越性。arXiv预印arXiv:1904.092372019。
[63] 马可·图利奥·里贝罗(Marco Tulio Ribeiro)、萨米尔·辛格(Sameer Singh)和卡洛斯·盖斯林(Carlos Guestrin)。我为什么要信任你解释任何分类器的预测。第22届ACM SIGKDD会议记录
[64] Maja Rudolph、Francisco Ruiz、Stephan Mandt和David Blei。指数族嵌入。《神经信息处理系统进展》,第478-486页,2016年。
[65] Maja Rudolph、Francisco Ruiz和David Blei。分组数据的结构化嵌入模型。《神经信息处理系统进展》,第250-260页,2017年。
[66] Devendra Singh Sachan、Manzil Zaheer和Ruslan Salakhutdinov。基于混合目标函数的lstm网络半监督文本分类。诉讼中
[67] Adam Santoro、Sergey Bartunov、Matthew Botvinick、Daan Wierstra和Timothy Lillicrap。基于记忆增强神经网络的元学习。InInternational会议
[68] 阿凡蒂·施里库玛(Avanti Shrikumar)、佩顿·格林赛德(Peyton Greenside)和安舒尔·昆达杰(Anshul Kundaje)。通过传播激活差异学习重要特征。arXiv预印本arXiv:1704.026852017。
[69] Karen Simonyan和Andrew Zisserman。用于大规模图像识别的极深卷积网络。arXiv预印本arXiv:1409.15562014。
[70] Charles Sutton,Andrew McCallum等人,《条件随机场导论》。机器学习基础与趋势,4(4):267-3732012·Zbl 1253.68001号
[71] Christian Szegedy、Wojciech Zaremba、Ilya Sutskever、Joan Bruna、Dumitru Erhan、Ian Goodfellow和Rob Fergus。神经网络的有趣特性.arXiv预印本
[72] 塞巴斯蒂安·特伦和洛里安·普拉特。学会学习。斯普林格,1998年·Zbl 0891.68079号
[73] 乔尔·特罗普(Joel A Tropp)。随机矩阵和的用户友好尾部界限。计算数学基础,12(4):389-4342012·Zbl 1259.60008号
[74] 马纳西·瓦塔克(Manasi Vartak)、雨果·拉罗谢尔(Hugo Larochelle)和阿尔文德·蒂亚加拉扬(Arvind Thiagarajan)。从元学习的角度看冷门商品推荐。《神经信息处理系统进展》,第6888-6898页,2017年。
[75] Oriol Vinyals、Charles Blundell、Tim Lillicrap、Daan Wierstra等。一次性学习的匹配网络。《神经信息处理系统进展》,第3630-3638页,2016年。
[76] Joseph Wang和Venkatesh Saligrama。通过空间划分进行局部监督学习。InNIPS,2012年。
[77] Sida Wang和Christopher D.Manning。基线和双引号:简单、情绪良好、主题分类。协会第50届年会会议记录
[78] 安德鲁·戈登·威尔逊(Andrew Gordon Wilson)、胡志婷(Zhiting Hu)、鲁斯兰·萨拉库丁诺夫(Ruslan Salakhutdinov)和埃里克·P·星(Eric P Xing)。深层内核学习。《第19届国际人工智能与统计会议论文集》,第370-378页,2016年。
[79] 谢启哲(Qizhe Xie)、戴子航(Zihang Dai)、爱德华·霍维(Eduard Hovy)、梁敏棠(Minh-Thang Luong)和郭文乐(Quoc V Le)。无监督数据增强。arXiv预印本arXiv:1904.128482019。
[80] Kelvin Xu、Jimmy Ba、Ryan Kiros、Kyunghyun Cho、Aaron Courville、Ruslan Salakhudinov、Rich Zemel和Yoshua Bengio。展示、出席和讲述:用视觉注意力生成神经图像字幕。机器学习国际会议,第2048-2057页,2015年。
[81] 杰森·尤辛斯基(Jason Yosinski)、杰夫·克伦(Jeff Clune)、安·阮(Anh Nguyen)、托马斯·福克斯(Thomas Fuchs)和霍德·利普森(Hod Lipson)。通过深度可视化了解神经网络。arXiv预印本arXiv:1506.065792015。
[82] Chun-Nam J Yu、Russell Greiner、Hsiu-Chin Lin和Vickie Baracos。将患者特异性癌症生存率分布作为一系列依赖回归变量进行学习。预付款
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。