×

深度神经网络模型中的熵和互信息。 (英语) Zbl 1459.94076号

小结:我们用一种易于处理的方法来计算信息理论量,来研究一类随机深度学习模型。我们的贡献有三个方面:(i)我们展示了在权重矩阵独立且正交不可变的假设下,如何从启发式统计物理方法中导出熵和互信息。(ii)我们通过使用最近引入的自适应插值方法提供高斯随机权重的双层网络的证明,扩展了已知该结果严格精确的特定情况。(iii)我们提出了一个带有合成数据集生成模型的实验框架,在此基础上,我们训练具有权重约束的深度神经网络,以便在学习过程中验证(i)中的假设。我们研究了学习过程中熵和互信息的行为,并得出结论,在所建议的环境中,压缩和泛化之间的关系仍然难以捉摸。

MSC公司:

94甲17 信息、熵的度量
62M45型 神经网络及从随机过程推断的相关方法
68T07型 人工神经网络与深度学习
82立方厘米32 神经网络在含时统计力学问题中的应用
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Tishby N、Pereira F C和Bialek W 1999信息瓶颈方法第37届年度Allerton通信、控制和计算大会
[2] Tishby N和Zaslavsky N 2015深度学习和信息瓶颈原则IEEE信息理论研讨会第1页·doi:10.1109/ITW.2015.7133169
[3] Shwartz-Ziv R和Tishby N 2017通过信息打开深度神经网络的黑匣子(arXiv:1703.00810)
[4] Chechik G、Globerson A、Tishby N和Weiss Y 2005高斯变量J.Mach的信息瓶颈。学习。第6号决议165-88·Zbl 1222.68166号
[5] Saxe A M、Bansal Y、Dapello J、Advani M、Kolcinsky A、Tracey B D和Cox D D 2018关于深度学习的信息瓶颈理论学习表征国际会议
[6] Kabashima Y 2008从相关模式推断:感知器学习和线性向量通道的统一理论J.Phys.:符合序列号95 012001·doi:10.1088/1742-6596/95/1/012001
[7] Manoel A、Krzakala F、Mézard M和ZdeborováL 2017多层广义线性估计IEEE国际交响乐团。信息论第2098-102页·doi:10.1109/ISIT.2017.8006899
[8] Fletcher A K、Rangan S和Schniter P 2018高维IEEE Int.Symp.深层网络推断。信息理论第1卷第1884-8页·doi:10.1109/ISIT.2018.8437792
[9] Reeves G 2017通过加性高斯噪声变换多层网络中的信息加性第55届Allerton通信、控制和计算年会·doi:10.1109/ALLERTON.2017.8262855
[10] Mézard M、Parisi G和Virasoro M 1987年《自旋玻璃理论及其发展》(新加坡:世界科学出版社)·Zbl 0992.82500号
[11] Mézard M和Montanari A 2009信息、物理和计算(牛津:牛津大学出版社)·Zbl 1163.94001号 ·doi:10.1093/acprof:oso/9780198570837.001.0001
[12] 2018 Dnner:带副本的深度神经网络熵,Python库(https://github.com/sphinxteam/dnner)
[13] Tulino A M、Caire G、VerdúS和Shamai S 2013支持使用稀疏采样自由随机矩阵IEEE Trans进行恢复。Inf.Theory公司59 4243-71·doi:10.10109/TIT.2013.2250578
[14] Donoho D和Montanari A 2016高维稳健M-估计:通过近似消息传递Probab的渐近方差。理论关联。字段166 935-69·Zbl 1357.62220号 ·doi:10.1007/s00440-015-0675-z
[15] Seung H S、Sompolinsky H和Tishby N,1992年,从实例中学习的统计力学物理。版次A 45 6056·doi:10.1103/PhysRevA.45.6056
[16] Engel A和Van den Broeck C,2001统计学习力学(剑桥:剑桥大学出版社)·Zbl 0984.82034号 ·文件编号:10.1017/CBO9781139164542
[17] Opper M和Saad D 2001高级平均场方法:理论与实践(马萨诸塞州剑桥:麻省理工学院出版社)·Zbl 0994.68172号 ·doi:10.7551/mitpress/100.001.0001
[18] Barbier Jean、Krzakala Florent、Macris Nicolas、Miolane Léo和ZdeborováLenka 2019高维广义线性模型Proc中的最佳误差和相变。美国国家科学院。科学116 5451-60·兹比尔1416.62421 ·doi:10.1073/pnas.1802705116
[19] Barbier J、Macris N、Maillard A和Krzakala F 2018 i.i.d.矩阵以外随机线性估计中的互信息IEEE Int.Symp。信息论第625-32页·doi:10.1109/ALLERTON.2016.7852290
[20] Donoho D、Maleki A和Montanari A 2009压缩感知程序的消息传递算法。美国国家科学院。科学106 18914-9·doi:10.1073/pnas.0909892106
[21] ZdeborováL和Krzakala F 2016推理统计物理:阈值和算法高级物理65 453-552·doi:10.1080/00018732.2016.1211393
[22] Rangan S 2011随机线性混合估计的广义近似消息传递IEEE Int.Symp。信息论pp 2168-72·doi:10.1109/ISIT.2011.6033942
[23] Rangan S、Schniter P和Fletcher A K 2017矢量近似消息通过IEEE Int.Symp。信息论第1588-92页·doi:10.1109/ISIT.2017.8006797
[24] Barbier J和Macris N 2019证明复制公式的自适应插值方法。Curie-Weiss和Wigner尖峰模型J.Phys的应用。甲52 294002·Zbl 1509.82018年8月 ·doi:10.1088/1751-8121/ab2735
[25] Barbier J和Macris N 2019自适应插值方法:贝叶斯推理概率论关系中证明副本公式的简单方案。字段174 1133-85·兹比尔1478.60253 ·doi:10.1007/s00440-018-0879-0
[26] Barbier J、Macris N和Miolane L 2017张量估计的分层结构及其相互信息第55届通信、控制和计算Allerton年会第1056-63页·doi:10.1109/ALLERTON.2017.8262854
[27] Moczulski M、Denil M、Appleyard J和de Freitas N 2016 ACDC:结构化高效线性层学习表征国际会议
[28] Yang Z、Moczulski M、Denil M、de Freitas N、Smola A、Song L和Wang Z 2015年IEEE国际计算机视觉大会第1476-83页·doi:10.1109/ICCV.2015.173
[29] Amit D J、Gutfreund H和Sompolinsky H 1985在神经网络物理的自旋类模型中存储无限数量的模式。版次:Lette.55 1530·doi:10.103/PhysRevLett.551530
[30] Gardner E和Derrida B 1989关于网络最佳存储容量的三项未完成工作J.Phys。A 22 1983年·doi:10.1088/0305-4470/22/004
[31] Mézard M 1989神经网络中的相互作用空间:加德纳用腔方法J.Phys进行的计算。A 22 2181号·doi:10.1088/0305-4470/22/12/18
[32] Louart C和Couillet R 2017利用神经网络:随机矩阵方法IEEE声学、语音和信号处理国际会议第2282-6页·doi:10.1109/ICASSP.2017.7952563
[33] Pennington J和Worah P 2017神经信息处理系统深度学习的非线性随机矩阵理论进展
[34] Raghu M、Poole B、Kleinberg J、Ganguli S和Sohl-Dickstein J,2017《深度神经网络的表达能力——机器学习国际会议》
[35] Saxe A、McClelland J和Ganguli S 2014深度线性神经网络学习非线性动力学的精确解学习表征国际会议
[36] Schoenholz S S、Gilmer J、Ganguli S和Sohl-Dickstein J 2017年学习表征深度信息传播国际会议
[37] Advani M和Saxe A 2017神经网络泛化误差的高维动力学(arXiv:1710.03667)
[38] Baldassi C、Braunstein A、Brunel N和Zecchina R 2007在具有二进制突触的网络中进行高效监督学习。美国国家科学院。科学.104 11079-84·doi:10.1073/pnas.0700324104
[39] Dauphin Y、Pascanu R、Gulcehre C、Cho K、Ganguli S和Bengio Y 2014识别和解决高维非凸优化中的鞍点问题神经信息处理系统进展
[40] Giryes R、Sapiro G和Bronstein A M 2016随机高斯权重的深度神经网络:通用分类策略?IEEE传输。信号处理64 3444-57·Zbl 1414.94217号 ·doi:10.1109/TSP.2016.2546221
[41] Chalk M、Marre O和Tkacik G 2016具有可变信息瓶颈的相关稀疏码神经信息处理系统进展
[42] Achille A和Soatto S 2018信息辍学:通过噪声计算学习最优表示IEEE Trans。模式分析。机器。智力。第2897-905页·doi:10.1109/TPAMI.2017.2784440
[43] Alemi A、Fischer I、Dillon J和Murphy K,2017年学习表征深度变化信息瓶颈国际会议
[44] Achille A和Soatto S 2017深度表征中不变性和解纠缠的出现ICML 2017深度学习原则方法研讨会
[45] Kolcinsky A、Tracey B D和Wolpert D H 2017非线性信息瓶颈(arXiv:1705.02436)
[46] Belghazi M I,Baratin A,Rajeswar S,Ozair S,Bengio Y,Courville A和Hjelm R D 2018 MINE:机器学习国际会议互信息神经估计
[47] Zhao S、Song J和Ermon S 2017 InfoVAE:信息最大化变分自动编码器(arXiv:1706.02262)
[48] Kolcinsky A和Tracey B D 2017使用成对距离熵19 361估计混合熵·doi:10.3390/e19070361
[49] Kraskov A、Stögbauer H和Grassberger P 2004估算相互信息物理。版次:E 69 066138·doi:10.1103/PhysRevE.69.066138
[50] 2018 lsd:使用合成数据学习,Python库(https://github.com/marylou-gabrie/learning-synthentic-data网站)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。