×

用信息论概念理解自动编码器。 (英文) Zbl 1458.68197号

摘要:尽管它们在实际应用中取得了巨大成功,但仍然缺乏分析深度神经网络的理论和系统方法。在本文中,我们阐述了一种先进的信息理论方法,以了解学习的动态和自动编码器的设计,这是一种类似于通信信道的特殊类型的深度学习体系结构。通过将信息平面推广到任何成本函数,并使用分层信息量检查不同层的作用和动态,我们强调了相互信息在量化从数据中学习中所起的作用。对于均方误差训练,我们进一步提出并实验验证了关于信息分层流动和瓶颈层固有维数的三个基本属性,分别利用数据处理不等式和由给定数据控制的信息平面上分岔点的识别。我们的观察结果对自动编码器的优化设计、替代前馈训练方法的设计甚至泛化问题都有直接影响。

MSC公司:

68T07型 人工神经网络与深度学习
94甲15 信息论(总论)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Achille,A.,&Soatto,S.《不变性的出现和深度表征中的解纠缠》,arXiv预印本arXiv:1706.01350;Achille,A.,&Soatto,S.《不变性的出现和深度表征中的解纠缠》,arXiv预印本arXiv:1706.01350·Zbl 1462.68166号
[2] Alabdulmohsin,I.,从期望泛化到概率泛化的信息理论路线,(人工智能与统计(2017)),92-100
[3] Alain,G.和Bengio,Y.使用线性分类器探针了解中间层,arXiv预印本arXiv:1610.01644;Alain,G.和Bengio,Y.使用线性分类器探针了解中间层,arXiv预印本arXiv:1610.01644
[4] 阿尔瓦雷斯-梅扎,A.M。;Lee,J.A。;Verleysen,M。;Castellanos-Dominguez,G.,《使用renyi(α)-熵相似性度量的基于核的维度约简》,神经计算,22236-46(2017)
[5] Aneja,D。;科尔本,A。;Faigin,G。;夏皮罗,L。;Mones,B.,《通过深度学习建模风格化角色表达》(2016年亚洲计算机视觉会议,Springer),136-153
[6] Arpit博士。;周,Y。;Ngo,H。;Govindaraju,V.,为什么正则化自动编码器学习稀疏表示?,(机器学习国际会议(2016)),136-144
[7] 巴赫,S。;粘合剂A。;蒙塔冯,G。;克劳申,F。;穆勒,K.-R。;Samek,W.,关于通过逐层相关传播对非线性分类器决策的逐像素解释,PloS One,10,7,文章e0130140 pp.(2015)
[8] 巴尔迪,P。;Hornik,K.,《神经网络和主成分分析:从没有局部极小值的示例中学习》,神经网络,2,1,53-58(1989)
[9] Bengio,Y.自动编码器如何通过目标传播在深层网络中提供信用分配,arXiv预印arXiv:1407.7906;Bengio,Y.自动编码器如何通过目标传播在深度网络中提供信用分配,arXiv预印本arXiv:1407.7906
[10] Y.本吉奥。;梅斯尼尔,G。;Dauphin,Y。;Rifai,S.,《通过深度表征实现更好的混合》(第30届机器学习国际会议论文集(ICML-13)(2013)),552-560
[11] Bhatia,R.,无限可分矩阵,美国数学月刊,113,3,221-235(2006)·Zbl 1132.15019号
[12] 布拉马,P.P。;Wu,D。;She,Y.,《为什么深度学习有效:一个多方面的解纠缠视角》,IEEE神经网络和学习系统汇刊,1997年至2008年,第27期,第10期(2016年)
[13] Burgess,C.P.,Higgins,I.,Pal,A.,Matthey,L.,Watters,N.,Desjardins,G.,&Lerchner,A.理解arXiv:1804.03599;Burgess,C.P.,Higgins,I.,Pal,A.,Matthey,L.,Watters,N.,Desjardins,G.,&Lerchner,A.《理解(β)arXiv:1804.03599》
[14] 卡马斯塔,F。;Staiano,A.,《内在维度估计:进展与开放问题》,信息科学,32826-41(2016)·Zbl 1392.62171号
[15] Ceruti,C。;Bassis,S。;Rozza,A。;伦巴第,G。;Casiraghi,E。;Campadelli,P.,Danco:利用角度和范数集中度的内在维度估计,模式识别,47,8,2569-2581(2014)·Zbl 1339.68219号
[16] 陈,B。;Zhu,Y。;胡,J。;Principe,J.C.,《系统参数识别:信息标准和算法》(2013),纽恩斯
[17] 盖,T.M。;Thomas,J.A.,《信息理论的要素》(2012),John Wiley&Sons
[18] Csiszár,I.,《观测通道信息性的一类度量》,《匈牙利数学周期》,2,1-4,191-213(1972)·Zbl 0247.94018号
[19] Fahlman,S.E。;Lebiere,C.,《级联相关学习体系结构》(The cascade-correlation learning architecture),(神经信息处理系统进展(1990)),524-532
[20] 高,S。;Ver Steeg,G。;Galstyan,A.,强因变量互信息的有效估计,(人工智能与统计(2015)),277-286
[21] Giraldo,L.G.和Principe,J.C.率失真自动编码器,arXiv预印本arXiv:1312.7381;Giraldo,L.G.和Principe,J.C.率失真自动编码器,arXiv预印本arXiv:1312.7381
[22] Giraldo,L.G.S。;Rao,M。;Principe,J.C.,《使用无限可分核测量数据的熵》,《IEEE信息理论汇刊》,61,1535-548(2015)·Zbl 1359.94360号
[23] 格洛洛特,X。;Bordes,A。;Bengio,Y.,深度稀疏整流器神经网络,(第十四届国际人工智能与统计会议论文集(2011)),315-323
[24] 格雷夫斯,A。;穆罕默德,A.-r。;Hinton,G.,深度递归神经网络语音识别,(声学、语音和信号处理(Icassp),2013年Ieee国际会议(2013年),Ieee),6645-6649
[25] Haykin,S.,《神经网络:综合基础》(1994),Prentice Hall PTR·Zbl 0828.68103号
[26] Haykin,S.S.,《神经网络和学习机器》,第3卷(2009),皮尔逊上鞍河,新泽西州,美国:
[27] Haykin,S.S.,《自适应滤波器理论》(第5版)(2014年),培生教育
[28] 他,K。;张,X。;任,S。;Sun,J.,图像识别的深度剩余学习,(IEEE计算机视觉和模式识别会议论文集(2016)),770-778
[29] 希金斯,I。;Matthey,L。;Pal,A。;伯吉斯,C。;格洛洛特,X。;博特维尼克,M。;穆罕默德,S。;Lerchner,A.,Beta-vae:用约束变分框架学习基本视觉概念(学习表征国际会议(2016))
[30] 辛顿,G.E。;Salakhutdinov,R.R.,《用神经网络降低数据的维数》,科学,3135786504-507(2006)·Zbl 1226.68083号
[31] 黄,C.-W。;Narayanan,S.S.S.,深度神经网络中的renyi信息流,(信号处理的机器学习(MLSP),2016年IEEE第26届国际研讨会(2016年),IEEE),1-6
[32] 洛夫,S。;Szegedy,C.,《批量规范化:通过减少内部协变量偏移加快深层网络训练》,(机器学习国际会议(2015)),448-456
[33] Jansen,S。;Kurt,N.,《关于马尔可夫过程的二元性概念》,《概率调查》,第11期,第59-120页(2014年)·Zbl 1292.60077号
[34] Khadivi,P.,Tandon,R.,&Ramakrishnan,N.前馈深度神经网络中的信息流,arXiv预印本arXiv:1603.06220;Khadivi,P.,Tandon,R.,&Ramakrishnan,N.前馈深度神经网络中的信息流,arXiv预印本arXiv:1603.06220
[35] Kokiopoulou,E。;陈,J。;Saad,Y.,《降维方法中的迹优化和特征问题》,《数值线性代数及其应用》,18,3,565-602(2011)·Zbl 1249.65075号
[36] 科尔钦斯基,A。;Tracey,B.D.,用两两距离估计混合熵,熵,19,7,361(2017)
[37] Kolmogorov,A.N.,《统计套房的外推》,CR科学院,2082043-2045(1939)
[38] Kraskov,A。;Stögbauer,H。;Grassberger,P.,估计相互信息,物理评论E,69,6,066138(2004)
[39] Krawczak,M.,多层神经网络:广义网络视角,第478卷(2013),Springer
[40] Krizhevsky,A。;Sutskever,I。;Hinton,G.E.,用深度卷积神经网络进行Imagenet分类,(神经信息处理系统进展(2012)),1097-1105
[41] Kuroe,Y。;Nakai,Y。;Mori,T.,通过考虑其导数的神经网络学习非线性映射的方法,(神经网络,1993年)。IJCNN’93纳戈亚。1993年国际联合会议记录,第1卷(1993),IEEE),528-531
[42] LeCun,Y。;博图,L。;Y.本吉奥。;Haffner,P.,《基于梯度的学习应用于文档识别》,IEEE会议记录,86,11,2278-2324(1998)
[43] 莱维纳,E。;Bickel,P.J.,内在维度的最大似然估计,(神经信息处理系统进展(2005)),777-784
[44] Liggett,T.M.,《相互作用粒子系统》,第276卷(2012),Springer Science&Business Media
[45] Light,W.,岭函数、S形函数和神经网络,近似理论VII,163-206(1992)·Zbl 0767.41023号
[46] Lin,H.W。;Tegmark,M。;Rolnick,D.,为什么深度和廉价的学习效果如此好?,统计物理杂志,168,6,1223-1247(2017)·Zbl 1373.82061号
[47] Linsker,R.,《感知网络中的自我组织》,《计算机》,21,3,105-117(1988)
[48] Linsker,R.,如何通过最大化输入和输出信号之间的互信息来生成有序映射,神经计算,1,3,402-411(1989)
[49] 伦巴第,G。;Rozza,A。;Ceruti,C。;Casiraghi,E。;Campadelli,P.,内在维度的最小邻域距离估计,数据库中的机器学习和知识发现,374-389(2011)
[50] Luttrell,S.P.,自组织映射的贝叶斯分析,神经计算,6,5,767-794(1994)·Zbl 0814.68113号
[51] Maaten,L.v.d。;Hinton,G.,使用t-SNE可视化数据,机器学习研究杂志(JMLR),2579-2605年11月9日(2008)·Zbl 1225.68219号
[52] 麦凯,D.J.,《信息理论、推理和学习算法》(2003),剑桥大学出版社·Zbl 1055.94001号
[53] Mahendran,A。;Vedaldi,A.,通过反转来理解深层图像表示,(IEEE计算机视觉和模式识别会议论文集(2015)),5188-5196
[54] Mehta,P.,&Schwab,D.J.变分重整化群与深度学习之间的精确映射,arXiv预印本arXiv:1410.3831;Mehta,P.,&Schwab,D.J.变分重整化群与深度学习之间的精确映射,arXiv预印本arXiv:1410.3831
[55] Merhav,N.,《数据处理定理和热力学第二定律》,IEEE信息理论汇刊,57,8,4926-4939(2011)·Zbl 1365.94156号
[56] 梅斯尼尔,G。;何,X。;邓,L。;Bengio,Y.,《递归神经网络结构和口语理解学习方法的研究》。,(Interspeech(2013)),3771-3775
[57] Minsky,M.和Papert,S.A.(2017年)。感知器:计算几何导论。;Minsky,M.和Papert,S.A.(2017年)。感知器:计算几何入门·兹比尔0197.43702
[58] 米兰达,V。;Krstulovic,J。;霍拉,J。;帕尔玛,V。;Principe,J.C.,自动编码器在无监督最大互信息培训下发现的断路器状态,(第17届电力系统智能系统应用国际会议(2013年))
[59] 蒙塔冯,G。;拉普什金,S。;粘合剂A。;萨梅克,W。;Müller,K.-R.,用深度泰勒分解解释非线性分类决策,模式识别,65211-222(2017)
[60] 蒙图法尔,G.F。;帕斯卡努,R。;Cho,K。;Bengio,Y.,关于深层神经网络线性区域的数量,(神经信息处理系统进展(2014)),2924-2932
[61] Nguyen,A.,Yosinski,J.,&Clune,J.多面特征可视化:揭示深层神经网络中每个神经元学习的不同类型特征,arXiv预印本arXiv:1602.03616;Nguyen,A.,Yosinski,J.,&Clune,J.《多面特征可视化:揭示深层神经网络中每个神经元学习的不同类型特征》,arXiv预印本arXiv:1602.03616
[62] Norris,J.R.,《马尔可夫链》,第2期(1998年),剑桥大学出版社·Zbl 0938.60058号
[63] Noshad,M.,Zeng,Y.,&Hero III,A.O.使用依赖图的可缩放互信息估计,arXiv预印本arXiv:1801.09125;Noshad,M.,Zeng,Y.,&Hero III,A.O.使用依赖图的可缩放互信息估计,arXiv预印本arXiv:1801.09125
[64] OShea,T。;霍迪斯,J.,《物理层深度学习导论》,IEEE认知通信与网络汇刊,3,4,563-575(2017)
[65] Paninski,L.,熵和互信息的估计,神经计算,15,6,1191-1253(2003)·Zbl 1052.62003年
[66] Parzen,E.,关于概率密度函数和模式的估计,《数理统计年鉴》,33,3,1065-1076(1962)·Zbl 0116.11302号
[67] Pascanu,R.、Montufar,G.和Bengio,Y.关于分段线性激活的深度前馈网络的响应区域数,arXiv预印本arXiv:1312.6098;Pascanu,R.、Montufar,G.和Bengio,Y.关于分段线性激活的深度前馈网络的响应区域数,arXiv预印本arXiv:1312.6098
[68] 彭,K.-H。;Zhang,H.,基于互信息的RBM神经网络,(模式识别(ICPR),2016年第23届国际会议,IEEE),2458-2463
[69] Potapov,A。;Ali,M.,估计内在维度的神经网络,《物理评论》E,65,4,046212(2002)
[70] Principe,J.C.,《信息理论学习:Renyi的熵和核心观点》(2010),Springer Science&Business Media·Zbl 1206.94003号
[71] 普林西比,J.C。;Chen,B.,带凸优化的通用逼近:技巧还是现实?[论坛],IEEE计算智能杂志,10,2,68-77(2015)
[72] 普林西比,J.C。;尤利亚诺,N.R。;Lefebvre,W.,《神经和自适应系统:模拟基础》,第672卷(2000年),威利纽约
[73] Raginsky,M。;Xu,A.,学习算法泛化能力的信息论分析,(神经信息处理系统进展(2017)),2521-2530
[74] Rényi,A.,《关于熵和信息的度量》(第四届伯克利数理统计与概率研讨会论文集,第1卷:对统计理论的贡献(1961年),加利福尼亚大学摄政室)·Zbl 0106.33001号
[75] 萨梅克,W。;粘合剂A。;蒙塔冯,G。;拉普什金,S。;Müller,K.-R.,评估深度神经网络所学知识的可视化,IEEE神经网络和学习系统汇刊,28,1122660-2673(2017)
[76] 萨克斯,A.M。;班萨尔,Y。;Dapello,J。;阿德瓦尼,M。;科尔钦斯基,A。;Tracey,B.D.,论深度学习的信息瓶颈理论,(国际学习表征会议(2018))
[77] Shwartz-Ziv,R.,&Tishby,N.通过信息打开深度神经网络的黑盒子,arXiv预印本arXiv:1703.00810;Shwartz-Ziv,R.,&Tishby,N.通过信息打开深层神经网络的黑盒子,arXiv预印本arXiv:1703.00810
[78] Silverman,B.W.,《用于统计和数据分析的密度估计》,第26卷(1986年),CRC出版社·Zbl 0617.62042号
[79] 北斯利瓦斯塔瓦。;辛顿,G.E。;Krizhevsky,A。;Sutskever,I。;Salakhutdinov,R.,《辍学:防止神经网络过度拟合的简单方法》。,机器学习研究杂志(JMLR),1929-1958(2014),15,1·Zbl 1318.68153号
[80] Stigler,S.M.,Gauss和最小二乘法的发明,《统计年鉴》,465-474(1981)·Zbl 0477.62001
[81] Stratonovich,R.L.,《论信息的价值》,苏联科学院Izvestiya,技术控制论,5,1,3-12(1965)·Zbl 0137.13403号
[82] Takens,F.,《探测湍流中的奇怪吸引子》,数学课堂讲稿,898,1366-381(1981)·Zbl 0513.58032号
[83] Tishby,N.、Pereira,F.C.和Bialek,W.信息瓶颈方法,arXiv预印本物理学/0004057。;Tishby,N.、Pereira,F.C.和Bialek,W.信息瓶颈方法,arXiv预印本物理学/0004057。
[84] 蒂什比,N。;Zaslavsky,N.,《深度学习与信息瓶颈原则》,(信息理论研讨会(ITW),2015 IEEE(2015),IEEE),1-5
[85] 王,X。;Marron,J.,《在流形学习中寻找有效维度的基于尺度的方法》,《电子统计杂志》,第2127-148页(2008年)·Zbl 1320.62115号
[86] Xiao,H.,Rasul,K.,&Vollgraf,R.Fashion-mnist:一种用于基准机器学习算法的新型图像数据集,arXiv预印本arXiv:1708.07747;Xiao,H.,Rasul,K.,&Vollgraf,R.Fashion-mnist:一种用于基准机器学习算法的新型图像数据集,arXiv预印本arXiv:1708.07747
[87] 徐,D。;Principe,J.C.,《利用信息潜力分层培训MLP》(神经网络,1999年)。99年IJCNN。国际联合会议,第3卷(1999),IEEE),1716-1720
[88] Yap,H.L。;Rozell,C.J.,线性动力系统的稳定takens嵌入,IEEE信号处理汇刊,59,10,4781-4794(2011)·Zbl 1392.94545号
[89] Yosinski,J.、Clune,J.,Nguyen,A.、Fuchs,T.和Lipson,H.通过深度可视化了解神经网络,arXiv预印本arXiv:1506.06579;Yosinski,J.、Clune,J.,Nguyen,A.、Fuchs,T.和Lipson,H.通过深度可视化理解神经网络,arXiv预印本arXiv:1506.06579
[90] 于斯。;艾米,M。;桑塔纳,E。;Príncipe,J.C.,接受过相关信息培训的自动编码器:融合香农和维纳的观点,(声学、语音和信号处理(ICASSP),2017年IEEE国际会议,IEEE),6115-6119
[91] Yu,S.、Giraldo,L.G.S.、Jenssen,R.和Principe,J.C.基于矩阵的Renyi’S(\alpha\)arXiv:180807912的多元扩展;Yu,S.,Giraldo,L.G.S.,Jenssen,R.,&Principe,J.C.基于矩阵的Renyi(α)arXiv:1808.07912的多元扩展
[92] Yu,S.,Wickström,K.,Jenssen,R.,&Principe,J.C.用信息理论理解卷积神经网络:初步探索,arXiv预印本arXiv:1804.06537;Yu,S.、Wickström,K.、Jenssen,R.和Principe,J.C.用信息理论理解卷积神经网络:初步探索,arXiv预印本arXiv:1804.06537
[93] 医学博士泽勒。;Fergus,R.,《可视化和理解卷积网络》,(欧洲计算机视觉会议(2014),施普林格),818-833
[94] Zeiler,医学博士。;泰勒,G.W。;Fergus,R.,中高级特征学习的自适应反褶积网络,(计算机视觉(ICCV),2011年IEEE国际会议(2011年),IEEE),2018-2025
[95] Zhang,C.、Bengio,S.、Hardt,M.、Recht,B.和Vinyals,O.。理解深度学习需要重新思考泛化,arXiv预印本arXiv:1611.03530;Zhang,C.,Bengio,S.,Hardt,M.,Recht,B.,&Vinyals,O.理解深度学习需要重新思考泛化,arXiv预印本arXiv:1611.03530
[96] Zhang,Q.,Cao,R.,Shi,F.,Wu,Y.N.,&Zhu,S.-C.通过解释图解释CNN知识,arXiv预印本arXiv:1708.01785;Zhang,Q.,Cao,R.,Shi,F.,Wu,Y.N.,&Zhu,S.-C.通过解释图解释CNN知识,arXiv预印本arXiv:1708.01785
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。