×

通过层行为理解来解释深层神经网络。 (英语) Zbl 1491.68178号

摘要:深度神经网络(DNN)在许多机器学习任务中取得了成功。然而,如何解释DNN仍然是一个悬而未决的问题。特别是,隐藏层的行为方式尚不清楚。本文以师生范式为依托,通过“监测”跨层和单层DNN在深度和训练阶段的分布演变,来了解DNN的层行为。基于最优传输理论,我们使用Wasserstein距离(W-distance)来测量层分布和目标分布之间的差异。从理论上证明了:(i)任意层分布与目标分布之间的W距离沿深度有减小的趋势;(ii)对于特定层,迭代分布与目标分布之间的W距离沿训练时段趋于减小;(iii)然而,深层并不总是比浅层好。基于这些特性,我们能够提出一种早期退出推理方法来提高多标签分类的性能。此外,我们的结果有助于分析层分布的稳定性,并解释为什么辅助损失有助于训练DNN。大量实验证明我们的理论发现是正确的。

MSC公司:

68T07型 人工神经网络与深度学习
第49季度22 最佳运输
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alain G,Bengio Y(2016)使用线性分类器探针了解中间层。arXiv预打印arXiv:1610.01644
[2] Bang S,Xie P,Wu W,Xing E(2019)使用深度变分信息瓶颈方法解释黑盒。arXiv预打印arXiv:1902.06918
[3] Bau D、Zhou B、Khosla A、Oliva A、Torralba A(2017)《网络解剖:量化深层视觉表征的可解释性》。在:IEEE计算机视觉和模式识别会议,第6541-6549页
[4] Bjorck N,Gomes CP,Selman B,Weinberger KQ(2018)了解批次标准化。主题:神经信息处理系统的进展,第7694-7705页
[5] Brock A、Donahue J、Simonyan K(2019)《高保真自然图像合成的大规模GAN训练》。参加:学习表现国际会议。
[6] Chen CFR,Fan Q,Mallinar N,Sercu T,Feris R(2019a)Big-little net:视觉和语音识别的有效多尺度特征表示。参加:学习表现国际会议。
[7] 陈,Z。;邓,L。;李·G。;Sun,J。;胡,X。;Liang,L。;丁,Y。;Xie,Y.,使用一些不相关数据进行统计估计的高效批量规范化,IEEE神经网络和学习系统事务,32,1,348-362(2020)·doi:10.1109/TNNLS.2020.2978753
[8] Chen ZM,Wei XS,Jin X,Guo Y(2019b)联合类软件地图解缠和标签相关嵌入的多标签图像识别。摘自:IEEE多媒体和博览会国际会议,第622-627页
[9] Chen ZM,Wei XS,Wang P,Guo Y(2019c)基于图卷积网络的多标签图像识别。摘自:IEEE计算机视觉和模式识别会议,第5177-5186页
[10] Cuturi,M.,《Sinkhorn距离:最优传输的光速计算》,《神经信息处理系统的进展》,26,2292-2300(2013)
[11] Dalal N,Triggs B(2005)人类检测定向梯度直方图。摘自:IEEE计算机视觉和模式识别会议,第886-893页
[12] Deng J,Dong W,Socher R,Li LJ,Li K,Fei Fei L(2009)Imagenet:一个大型层次图像数据库。摘自:IEEE计算机视觉和模式识别会议,第248-255页
[13] Dosovitskiy A,Brox T(2016)用卷积网络反演视觉表征。摘自:IEEE计算机视觉和模式识别会议,第4829-4837页
[14] Durand T,Mehrasa N,Mori G(2019)学习使用部分标签进行多标签分类的深度转换。摘自:IEEE计算机视觉和模式识别会议,第647-657页
[15] Everingham,M。;Van Gool,L。;威廉姆斯,CK;Winn,J。;Zisserman,A.,《pascal可视对象类(voc)挑战》,《国际计算机视觉杂志》,88,2,303-338(2010)·doi:10.1007/s11263-009-0275-4
[16] 方,X。;Bai,H。;郭,Z。;沈,B。;Xu,Z.,Dart:无监督跨域图像分类的域-逆向残差传递网络,神经网络,127182-192(2020)·doi:10.1016/j.neunet.2020.03.025
[17] Frogner C、Zhang C、Mobahi H、Araya M、Poggio TA(2015年)《wasserstein失学》。主题:神经信息处理系统的进展,第2053-2061页
[18] Genevay A、PeyréG、Cuturi M(2018)《学习具有sinkhorn差异的生成模型》。In:人工智能和统计
[19] 耿,X.,标签分布学习,IEEE知识与数据工程汇刊,28,7,1734-1748(2016)·doi:10.1109/TKDE.2016.2545658
[20] Goldt,S。;阿德瓦尼,理学硕士;萨克斯,AM;Krzakala,F。;Zdeborová,L.,《师生环境下双层神经网络随机梯度下降动力学》,《统计力学杂志:理论与实验》,第12期,第124010页(2020年)·Zbl 07330531号 ·doi:10.1088/1742-5468/abc61e
[21] 郭毅。;陈,J。;杜琪。;亨格尔,AVD;石青(Shi,Q.)。;Tan,M.,训练紧凑深度神经网络的多路反向传播,神经网络,126,250-261(2020)·doi:10.1016/j.neunet.2020.03.001
[22] Gupta P,Schütze H(2018)Lisa:通过分层语义积累和示例到模式转换解释递归神经网络判断。In:自然语言处理研讨会BlackboxNLP中的经验方法。
[23] 何科,张X,任S,孙J(2016)图像识别的深度剩余学习。In:IEEE计算机视觉和模式识别会议,第770-778页
[24] 侯赛因,S。;Anees,A。;Das,A。;Nguyen,英国石油公司;Marzuki,M。;Lin,S。;赖特,G。;Singhal,A.,使用生成性对抗网络为药物发现生成高内容图像,神经网络,132,353-363(2020)·doi:10.1016/j.neunet.2020.09.007
[25] Ioffe S,Szegedy C(2015)《批量规范化:通过减少内部协变量转移加快深层网络培训》。参加:机器学习国际会议
[26] Kaya,Y。;洪,S。;Dumitras,T.,《浅层网络:理解和缓解网络过度思考》,机器学习国际会议,97,3301-3310(2019)
[27] Knight,PA,sinkhorn-knopp算法:收敛与应用,SIAM矩阵分析与应用期刊,30,1261-275(2008)·Zbl 1166.15301号 ·数字对象标识代码:10.1137/060659624
[28] Lee CY,Xie S,Gallagher P,Zhang Z,Tu Z(2015)《深度监管网络》。摘自:《人工智能与统计》,第562-570页
[29] Lee,H。;Grosse,R。;Ranganath,R。;Ng,AY,卷积深信度网络分层表示的无监督学习,ACM通信,54,10,95-103(2011)·doi:10.1145/2001269.2001295
[30] Lee,H。;Ge,R。;马,T。;Risteski,A。;Arora,S.,《关于神经网络表达分布的能力》,《学习理论会议论文集》,65,1271-1296(2017)
[31] 李伟(Li,W.)。;熊,W。;廖,H。;霍,J。;Luo,J.,Carigan:通过弱配对对抗学习生成漫画,神经网络,13266-74(2020)·doi:10.1016/j.neunet.2020.08.011
[32] Lowe DG(1999)基于局部尺度不变特征的对象识别。参加:计算机视觉国际会议
[33] Maas AL、Hannun AY、Ng AY(2013)《整流器非线性改善神经网络声学模型》。参加:机器学习国际会议
[34] Mahendran A,Vedaldi A(2015)通过反转来理解深层图像表征。摘自:IEEE计算机视觉和模式识别会议,第5188-5196页
[35] Mikolov T、Sutskever I、Chen K、Corrado GS、Dean J(2013)《单词和短语的分布式表示及其组成》。In:《神经信息处理系统的进展》,第3111-3119页
[36] 蒙塔文,G。;马里兰州布朗;Müller,KR,深度网络的内核分析,机器学习研究杂志,12,9,2563-2581(2011)·Zbl 1280.68186号
[37] Papernot N,McDaniel P(2018)《深度k近邻:走向自信、可解释和强大的深度学习》。arXiv预打印arXiv:1803.04765
[38] 佩雷,G。;Cuturi,M.,《计算优化传输:机器学习中的基础和趋势®在数据科学中的应用》,第11、5、355-607页(2019年)·兹比尔1475.68011 ·doi:10.1561/2200000073
[39] Raghu M、Gilmer J、Yosinski J、Sohl-Dickstein J(2017)Svca:深度学习动力学和可解释性的奇异向量典型相关分析。主题:神经信息处理系统的进展,第6076-6085页
[40] Santurkar S、Tsipras D、Ilyas A、Madry A(2018)批次规范化如何帮助优化?主题:神经信息处理系统的进展,第2483-2493页
[41] Saxe AM、Bansal Y、Dapello J、Advani M、Kolcinsky A、Tracey BD、Cox DD(2018)《深度学习的信息瓶颈理论》。参加:学习表现国际会议·Zbl 1459.68185号
[42] Scardapane S、Scarpiniti M、Baccarelli E、Uncini A(2020)为什么我们应该为神经网络添加早期退出?arXiv预印本arXiv:2004.12814
[43] 施,W。;龚,Y。;陶,X。;Zheng,N.,结合最大边缘、最大相关目标和多标签图像分类的相关熵损失训练dcnn,IEEE神经网络和学习系统汇刊,29,7,2896-2908(2018)
[44] Simonyan K,Zisserman A(2015)用于大规模图像识别的极深卷积网络。参加:学习表现国际会议。
[45] 索诺达,S。;Murata,N.,无限深度神经网络的传输分析,机器学习研究杂志,20,1,31-82(2019)·Zbl 1483.62072号
[46] Sun,J。;钟,G。;陈,Y。;刘,Y。;Huang,K.,用于不同图像生成的混合t分布噪声生成对抗网络,神经网络,122,374-381(2019)·doi:10.1016/j.neunet.2019.11.003
[47] Szegedy C、Zaremba W、Sutskever I、Bruna J、Erhan D、Goodfellow I、Fergus R(2014)《神经网络的有趣特性》。参加:学习表现国际会议。
[48] 田毅(2017)双层relu网络的种群梯度分析公式及其在收敛和临界点分析中的应用。参加:机器学习国际会议。
[49] Tishby N,Zaslavsky N(2015)深度学习和信息瓶颈原则。在:IEEE信息理论研讨会,第1-5页。
[50] 维拉尼,C.,《最佳交通:新旧》(2008),柏林:施普林格,柏林·Zbl 1156.53003号
[51] Wang J,Yang Y,Mao J,Huang Z,黄C,Xu W(2016)Cnn-rnn:多标签图像分类的统一框架。摘自:IEEE计算机视觉和模式识别会议,第2285-2294页。
[52] 王,L。;张,H。;Yi,J。;谢长杰;Jiang,Y.,《跨越式攻击:使用未标记数据加强黑盒攻击》,机器学习,109,12,2349-2368(2020)·Zbl 1523.68072号 ·doi:10.1007/s10994-020-05916-1
[53] Wu,S。;李·G。;邓,L。;刘,L。;吴博士。;谢毅。;Shi,L.,\(l1\)-深度神经网络有效训练的范数批量归一化,IEEE神经网络和学习系统汇刊,30,72043-2051(2019)·doi:10.1109/TNNLS.2018.2876179
[54] 叶,HJ;盛,XR;Zhan,DC,《使用自适应初始化任务优化器的Few-shot学习:一种实用的元学习方法》,《机器学习》,109,3,643-664(2020)·Zbl 1442.68209号 ·doi:10.1007/s10994-019-05838-7
[55] Yeh CK,Chen J,Yu C,Yu D(2019)基于分段经验输出分布匹配的无监督语音识别。参加:学习表现国际会议。
[56] Yosinski J、Clune J、Nguyen A、Fuchs T、Lipson H(2015)《通过深度可视化理解神经网络》。参加:机器学习研讨会国际会议。
[57] Zeiler MD,Fergus R(2014),《可视化和理解卷积网络》。摘自:欧洲计算机视觉会议,第818-833页。
[58] Zhang Q,Cao R,Shi F,Wu YN,Zhu SC(2018)通过解释图解释cnn知识。参加:AAAI人工智能会议。
[59] Zhang Q,Yang Y,Ma H,Wu YN(2019)通过决策树解释cnns。摘自:IEEE计算机视觉和模式识别会议,第6261-6270页。
[60] 邹,D。;曹毅。;周,D。;Gu,Q.,梯度下降在参数化深度relu网络上优化,机器学习,109,3467-492(2020)·Zbl 1494.68245号 ·doi:10.1007/s10994-019-05839-6
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。