文件Zbl 1529.68250-zbMATH打开

上下文解释网络。（英语） Zbl 1529.68250号

J.马赫。学习。物件。 21，第194号论文，44页（2020年）.

概要：现代学习算法擅长生成精确但复杂的数据模型。然而，在现实世界中部署这样的模型需要格外小心：我们必须确保它们的可靠性、健壮性以及不存在不希望出现的偏差。这推动了模型的开发，这些模型同样准确，但也可以很容易地进行检查和评估，超出其预测性能。为此，我们引入了上下文解释网络（CEN），这是一类通过生成和使用中间简化概率模型来学习预测的体系结构。具体而言，CEN为中间图形模型生成参数，这些模型进一步用于预测并发挥解释作用。与现有的事后模型解释工具相反，CEN学习同时进行预测和解释。我们的方法提供了两个主要优点：（i）对于每个预测，都会生成有效的、特定实例的解释，而无需计算开销；（ii）通过解释进行预测可以充当正则化器，提高数据存储设置的性能。我们从理论和实验上分析了该框架。我们在图像和文本分类以及生存分析任务上的结果表明，CEN不仅与最先进的方法具有竞争力，而且还提供了每个预测背后的额外见解，这对决策支持很有价值。我们还表明，虽然事后方法在某些情况下可能产生误导性解释，但CEN是一致的，允许系统地检测此类情况。

MSC公司：

68T05型	人工智能中的学习和自适应系统
62H22个	概率图形模型
62H30型	分类和区分；聚类分析（统计方面）
62N01号	审查数据模型
62号05	可靠性和寿命测试

关键词：

可解释性；可靠性；稳健性；偏差

软件：

主题RNN；国际货币数据库；TensorFlow公司

PDF格式 BibTeX公司 XML格式引用

全文： arXiv公司链接

参考文献：

[1]	O.O.阿伦。寿命分析的线性回归模型。医学统计学，8（8）：907-9251989。
[2]	Martín Abadi、Paul Barham、Jianmin Chen、Zhifeng Chen、Andy Davis、Jeffrey Dean、Matthieu Devin、Sanjay Ghemawat、Geoffrey Irving、Michael Isard等。Tensorflow：大型机器学习系统。InOSDI，第16卷，第265-283页，2016年。
[3]	Maruan Al-Shedivat、Andrew Gordon Wilson、Yunus Saatchi、Zhiting Hu和Eric P Xing。学习具有递归结构的可伸缩深层内核。机器学习杂志·Zbl 1434.68390号
[4]	David Belanger和Andrew McCallum。结构化预测能源网络。2016年机器学习国际会议论文集。
[5]	卢卡·贝蒂内托（Luca Bertinetto）、乔·芬里克（Joáo F Henriques）、杰克·瓦尔马德雷（Jack Valmadre）、菲利普·托尔（Philip Torr）和安德烈亚·维达尔迪（Andrea Vedaldi）。学习前馈式一次性学习者。《神经信息处理系统进展》，第523-531页，2016年。
[6]	David M Blei、Andrew Y Ng和Michael I Jordan。潜在的dirichlet分配。机器学习研究杂志，3（1月）：993-10222003·Zbl 1112.68379号
[7]	Rich Caruana、Hooshang Kangarloo、JD Dionisio、Usha Sinha和David Johnson。非案例学习方法的案例解释。《AMIA研讨会论文集》，第212页，1999年。
[8]	Rich Caruana等人，《医疗保健智能模型：预测肺炎风险和医院30天再入院》。第21届ACM SIGKDD国际会议记录
[9]	索拉维特·昌皮约、赵伟伦、龚伯清和费沙。用于零快照学习的合成分类器。arXiv预印本arXiv:1603.005502016。
[10]	François Chollet等人，Keras。https://keras.io网址, 2015.
[11]	Ronan Collobert、Jason Weston、Léon Bottou、Michael Karlen、Koray Kavukcuoglu和Pavel Kuksa。自然语言处理（几乎）从头开始。机械杂志·Zbl 1280.68161号
[12]	托马斯·M·盖和乔伊·A·托马斯。信息论要素。John Wiley&Sons，2012年·Zbl 1140.94001号
[13]	考克斯博士。回归模型和寿命表。英国皇家统计学会杂志。B系列（方法学），第187-220页，1972年·Zbl 0243.62041号
[14]	乔治·达尔（George E.Dahl）、瑞安·亚当斯（Ryan P.Adams）和雨果·拉罗谢尔（Hugo Larochelle）。训练受限boltzmann机器进行单词观察。第29届国际国际会议记录
[15]	Andrew M Dai和Quoc V Le。半监督序列学习。《神经信息处理系统进展》，第3079-3087页，2015年。
[16]	纳芙尼特·达拉和比尔·特里格斯。人体检测定向梯度直方图。《计算机视觉和模式识别》，2005年。CVPR 2005。IEEE计算机学会会议，第1卷，第886-893页。IEEE，2005年。
[17]	伯特·德·布拉班代尔（Bert De Brabandere）、徐佳（Xu Jia）、丁·图伊特拉斯（Tinne Tuytelaars）和吕克·范·古尔（Luc Van Gool）。动态过滤网络。神经信息处理系统（NIPS），2016年。
[18]	Adji B.Dieng、Chong Wang、Jianfeng Gao和John William Paisley。Topicrnn：具有远程语义依赖性的递归神经网络。国际会议
[19]	安·凯瑟琳·多布罗夫斯基（Ann-Kathrin Dombrowski）、马克西米利安·阿尔伯（Maximillian Alber）、克里斯托弗·安德斯（Christopher Anders）、马塞尔·阿克曼（Marcel Ackermann）、克劳斯·罗贝特·穆勒（Klaus-Robert Müller）和潘。解释是可以操纵的，几何学是罪魁祸首。《神经信息处理系统进展》，第13567-13578页，2019年。
[20]	最后是Doshi-Velez和Been Kim。迈向可解释机器学习的严谨科学。arXiv预印本arXiv:1702.086082017。
[21]	哈里森·爱德华兹和阿莫斯·斯托基。面向神经统计学家。arXiv预印本arXiv:1606.021852016。
[22]	布拉德利·埃夫隆。Logistic回归、生存分析和kaplan-meier曲线。美国统计协会杂志，83（402）：414-4251988·Zbl 0644.62100号
[23]	Kuzman Ganchev、Jennifer Gillenwater、Ben Taskar等。结构化潜在变量模型的后验正则化。机器学习研究杂志，11（7月）：2001-20492010·Zbl 1242.68223号
[24]	高元军（音）、埃文·瓦彻（Evan W Archer）、利亚姆·帕宁斯基（Liam Paninski）和约翰·坎宁安（John P Cunningham）。通过非线性嵌入的线性动态神经种群模型。神经研究进展
[25]	Marta Garnello、Dan Rosenbaum、Chris J Maddison、Tiago Ramalho、David Saxton、Murray Shanahan、Yee Whye Teh、Danilo J Rezende和SM Eslami。条件神经过程。
[26]	Scott Gray、Alec Radford和Diederik P Kingma。块解析权重的Gpu内核。arXiv预印arXiv:1711.092242017年3月。
[27]	David Ha、Andrew Dai和Quoc V Le。Hypernetworks.arXiv预印本arXiv:1609.091062016。
[28]	卢浩南、黄赛思、田晔、郭秀艳。广义多任务学习的图星网。arXiv预印本arXiv:1906.12330，2019。
[29]	特雷弗·哈斯蒂（Trevor Hastie）和罗伯特·蒂布什拉尼（Robert Tibshirani）。变系数模型。英国皇家统计学会杂志。B系列（方法学），第757-796页，1993年·Zbl 0796.62060号
[30]	杰里米·霍华德和塞巴斯蒂安·鲁德。文本分类的通用语言模型微调。arXiv预打印arXiv:1801.061462018。
[31]	Robert A Jacobs、Michael I Jordan、Steven J Nowlan和Geoffrey E Hinton。当地专家的适应性混合。神经计算，3（1）：79-871991。
[32]	Max Jaderberg、Karen Simonyan、Andrea Vedaldi和Andrew Zisserman。无约束文本识别的深层结构输出学习。arXiv预印本arXiv:1412.59032014。
[33]	Neal Jean、Marshall Burke、Michael Xie、W Matthew Davis、David B Lobell和Stefano Ermon。结合卫星图像和机器学习来预测贫困。《科学》，353（6301）：790-7942016年。
[34]	姜文新（Wenxin Jiang）和马丁·塔纳（Martin A Tanner）。指数族回归模型的专家层次混合：近似和最大似然估计。《统计年鉴》，第987-1011页，1999年·Zbl 0957.62032号
[35]	马修·约翰逊（Matthew Johnson）、大卫·K·杜维诺（David K Duvenaud）、亚历克斯·威尔奇科（Alex Wiltschko）、瑞安·P·亚当斯（Ryan P Adams）和桑迪普·R·达塔（Sandeep R Datta）。用神经网络组成图形模型，用于结构化表示和快速推理。《神经信息处理系统进展》，第2946-2954页，2016年。
[36]	Rie Johnson和Tong Zhang。利用卷积神经网络有效地使用语序进行文本分类。2015年北美会议记录
[37]	Rie Johnson和Tong Zhang。基于区域嵌入的半监督卷积神经网络文本分类。神经信息处理系统进展，第919-927页，2015b。
[38]	Rie Johnson和Tong Zhang。使用lstm进行区域嵌入的监督和半监督文本分类。第33届国际机器会议记录·Zbl 1304.68147号
[39]	安德烈·卡佩西、贾斯汀·约翰逊和李菲菲。可视化和理解递归网络。arXiv预印本arXiv：1506.020782015。
[40]	Been Kim、Cynthia Rudin和Julie A Shah。贝叶斯案例模型：基于案例推理和原型分类的生成方法。神经研究进展
[41]	Been Kim、Oluwasanmi O Koyejo和Rajiv Khanna。榜样不够，学会批评！对可解释性的批评。神经信息处理系统进展，第2280-2288页，2016年。
[42]	P.W.Koh和P.Liang。通过影响函数了解黑盒预测。在2017年国际机器学习会议（ICML）上。
[43]	Daphne Koller和Nir Friedman。概率图形模型：原理和技术。麻省理工学院出版社，2009年·Zbl 1183.68483号
[44]	Rahul G Krishnan、Uri Shalit和David Sontag。非线性状态空间模型的结构化推理网络。InAAAI，第2101-2109页，2017年。
[45]	John Lafferty、Andrew McCallum、Fernando Pereira等，条件随机场：用于分割和标记序列数据的概率模型。诉讼中
[46]	Himabindu Lakkaraju和Osbert Bastani。“我怎么愚弄你？”：通过误导性的黑盒子解释操纵用户信任。arXiv预印本arXiv:1911.064732019。
[47]	Quoc Le和Tomas Mikolov。句子和文档的分布式表示。在2014年国际机器学习会议上，第1188-1196页。
[48]	陶磊、里贾娜·巴兹雷和托米·贾科拉。合理化神经预测。arXiv预印本arXiv:1606.041552016。
[49]	吉米·雷巴（Jimmy Lei Ba）、凯文·斯沃斯基（Kevin Swersky）、萨尼娅·菲德勒（Sanja Fidler）和鲁斯兰·萨拉库丁诺夫（Ruslan Salakhutdinov）。使用文本描述预测深度零快照卷积神经网络。诉讼程序
[50]	布鲁斯·林赛。混合模型：理论、几何和应用。在NSF-CBMS概率与统计区域会议系列中，第i-163页。JSTOR，1995年·兹比尔1163.62326
[51]	扎卡里·C·利普顿。模型可解释性的神话。arXiv预印本arXiv:1606.034902016。
[52]	Liping Liu、Francisco Ruiz和David Blei。嵌入模型的上下文选择。《神经信息处理系统进展》，第4817-4826页，2017年。
[53]	塔尼娅·隆布罗佐（Tania Lombrozo）。解释的结构和功能。认知科学趋势，10（10）：464-4702006。
[54]	Scott Lundberg和Su-In Lee。解释模型预测的统一方法。arXiv预印本arXiv:1705.078742017。
[55]	Andrew L.Maas、Raymond E.Daly、Peter T.Pham、Dan Huang、Andrew Y.Ng和Christopher Potts。学习情感分析的词向量。在的诉讼中
[56]	Andrew L Maas、Raymond E Daly、Peter T Pham、Dan Huang、Andrew Y Ng和Christopher Potts。学习情感分析的词向量。第49届年度会议记录
[57]	Aravindh Mahendran和Andrea Vedaldi。通过反转来理解深层图像表示。IEEE计算机视觉和模式会议论文集
[58]	宫本武鲁、安德鲁·戴和伊恩·古德费罗。半监督文本分类的对抗训练方法。arXiv预印本arXiv:1605.077252016。
[59]	Sahand Negahban、Bin Yu、Martin J Wainwright和Pradeep K Ravikumar。使用可分解正则化子进行高维m估计分析的统一框架。神经信息处理系统进展，第1348-13562009页·Zbl 1331.62350号
[60]	Anh Nguyen、Jason Yosinski和Jeff Clune。深度神经网络很容易被愚弄：对不可识别图像的高置信预测。IEEE会议记录
[61]	尼古拉斯·帕普诺特（Nicolas Papernot）、帕特里克·麦克丹尼尔（Patrick McDaniel）、伊恩·古德费罗（Ian Goodfellow）、萨默什·杰哈（Somesh Jha）、Z Berkay Celik和阿南特拉姆·斯瓦米（Anant。使用对抗性示例对深度学习系统进行实际黑盒攻击。arXiv预打印arXiv:1602.026972016。
[62]	Sashank J Reddi、Satyen Kale和Sanjiv Kumar。关于亚当的收敛性和超越性。arXiv预印arXiv:1904.092372019。
[63]	马可·图利奥·里贝罗（Marco Tulio Ribeiro）、萨米尔·辛格（Sameer Singh）和卡洛斯·盖斯林（Carlos Guestrin）。我为什么要信任你解释任何分类器的预测。第22届ACM SIGKDD会议记录
[64]	Maja Rudolph、Francisco Ruiz、Stephan Mandt和David Blei。指数族嵌入。《神经信息处理系统进展》，第478-486页，2016年。
[65]	Maja Rudolph、Francisco Ruiz和David Blei。分组数据的结构化嵌入模型。《神经信息处理系统进展》，第250-260页，2017年。
[66]	Devendra Singh Sachan、Manzil Zaheer和Ruslan Salakhutdinov。基于混合目标函数的lstm网络半监督文本分类。诉讼中
[67]	Adam Santoro、Sergey Bartunov、Matthew Botvinick、Daan Wierstra和Timothy Lillicrap。基于记忆增强神经网络的元学习。InInternational会议
[68]	阿凡蒂·施里库玛（Avanti Shrikumar）、佩顿·格林赛德（Peyton Greenside）和安舒尔·昆达杰（Anshul Kundaje）。通过传播激活差异学习重要特征。arXiv预印本arXiv:1704.026852017。
[69]	Karen Simonyan和Andrew Zisserman。用于大规模图像识别的极深卷积网络。arXiv预印本arXiv:1409.15562014。
[70]	Charles Sutton，Andrew McCallum等人，《条件随机场导论》。机器学习基础与趋势，4（4）：267-3732012·Zbl 1253.68001号
[71]	Christian Szegedy、Wojciech Zaremba、Ilya Sutskever、Joan Bruna、Dumitru Erhan、Ian Goodfellow和Rob Fergus。神经网络的有趣特性.arXiv预印本
[72]	塞巴斯蒂安·特伦和洛里安·普拉特。学会学习。斯普林格，1998年·Zbl 0891.68079号
[73]	乔尔·特罗普（Joel A Tropp）。随机矩阵和的用户友好尾部界限。计算数学基础，12（4）：389-4342012·Zbl 1259.60008号
[74]	马纳西·瓦塔克（Manasi Vartak）、雨果·拉罗谢尔（Hugo Larochelle）和阿尔文德·蒂亚加拉扬（Arvind Thiagarajan）。从元学习的角度看冷门商品推荐。《神经信息处理系统进展》，第6888-6898页，2017年。
[75]	Oriol Vinyals、Charles Blundell、Tim Lillicrap、Daan Wierstra等。一次性学习的匹配网络。《神经信息处理系统进展》，第3630-3638页，2016年。
[76]	Joseph Wang和Venkatesh Saligrama。通过空间划分进行局部监督学习。InNIPS，2012年。
[77]	Sida Wang和Christopher D.Manning。基线和双引号：简单、情绪良好、主题分类。协会第50届年会会议记录
[78]	安德鲁·戈登·威尔逊（Andrew Gordon Wilson）、胡志婷（Zhiting Hu）、鲁斯兰·萨拉库丁诺夫（Ruslan Salakhutdinov）和埃里克·P·星（Eric P Xing）。深层内核学习。《第19届国际人工智能与统计会议论文集》，第370-378页，2016年。
[79]	谢启哲（Qizhe Xie）、戴子航（Zihang Dai）、爱德华·霍维（Eduard Hovy）、梁敏棠（Minh-Thang Luong）和郭文乐（Quoc V Le）。无监督数据增强。arXiv预印本arXiv:1904.128482019。
[80]	Kelvin Xu、Jimmy Ba、Ryan Kiros、Kyunghyun Cho、Aaron Courville、Ruslan Salakhudinov、Rich Zemel和Yoshua Bengio。展示、出席和讲述：用视觉注意力生成神经图像字幕。机器学习国际会议，第2048-2057页，2015年。
[81]	杰森·尤辛斯基（Jason Yosinski）、杰夫·克伦（Jeff Clune）、安·阮（Anh Nguyen）、托马斯·福克斯（Thomas Fuchs）和霍德·利普森（Hod Lipson）。通过深度可视化了解神经网络。arXiv预印本arXiv:1506.065792015。
[82]	Chun-Nam J Yu、Russell Greiner、Hsiu-Chin Lin和Vickie Baracos。将患者特异性癌症生存率分布作为一系列依赖回归变量进行学习。预付款

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

上下文解释网络。（英语） Zbl 1529.68250号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

上下文解释网络。 （英语） Zbl 1529.68250号

MSC公司：

关键词：

软件：

参考文献：

上下文解释网络。（英语） Zbl 1529.68250号