×

比较动力学:深层神经网络与玻璃系统。 (英语) 兹比尔1459.82317

总结:我们使用玻璃系统统计物理中开发的方法对深度神经网络(DNN)的训练动力学进行了数值分析。我们解决的两个主要问题是(1)损失景观及其动态的复杂性,以及(2)DNN在多大程度上与玻璃系统有相似之处。我们对不同体系结构和数据集的研究结果表明,在训练过程中,由于越来越多的平面方向,动力学速度减慢。在大多数情况下,当损失接近零时,系统会扩散到景观的底部。尽管与平均场玻璃态系统的动力学有一些相似之处,特别是无势垒穿越,但我们在这两种情况下发现了不同的动力学行为,表明相应的损耗和能量景观的统计特性为不同的相反,当网络欠参数化时,我们观察到典型的玻璃态行为,因此表明存在不同的相,这取决于网络是欠参数化还是过参数化。

MSC公司:

82天30分 随机介质、无序材料(包括液晶和自旋玻璃)的统计力学
82立方32 神经网络在含时统计力学问题中的应用
82立方厘米 含时统计力学中无序系统(随机伊辛系统等)的动力学

软件:

熵SGD
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Achlioptas D和Coja-Oghlan A 2008年IEEE第49届年度IEEE Symp。计算机科学基础pp 793-802
[2] Arous G B和Jagannath A 2018平均场自旋玻璃Commun中的光谱间隙估计。数学。物理361 1-52·Zbl 1397.82054号 ·doi:10.1007/s00220-018-3152-6
[3] Baity-Jesi M、Biroli G和Cammarota C 2018在随机能量模型J.Stat.Mech中激活老化动力学和有效陷阱模型描述。013301 ·Zbl 1459.82318号 ·doi:10.1088/1742-5468/aa9f43
[4] Baldassi C、Borgs C、Chayes J T、Ingrosso A、Lucibello C、Saglietti L和Zecchina R 2016学习神经网络的不合理有效性:从可访问状态和鲁棒集成到基本算法方案Proc。美国国家科学院。科学113 E7655-62·doi:10.1073/pnas.1607687113
[5] Ben Arous G、Dembo A和Guionnet A,2006年,旋类Probab动力学的Cugliandolo-Kurchan方程。理论关联。字段136 619-60·Zbl 1109.82021号 ·doi:10.1007/s00440-005-0491-y
[6] Berthier L和Biroli G 2011玻璃转变和非晶材料的理论观点,修订版。物理83 587·doi:10.1103/RevModPhys.83.587
[7] Biroli G 2016经典量子系统中的慢弛豫和非平衡动力学——平衡态外强相互作用量子系统O P Thierry Giamarchi和A J Millis(牛津:牛津大学出版社)第207-61页·doi:10.1093/acprof:oso/978198768166.003.003
[8] Bouchaud J P,Cugliandolo L F,Kurchan J和Mezard M 1998自旋玻璃和其他玻璃系统的失平衡动力学自旋玻璃和随机场(世界科学:新加坡)第161-223页
[9] Bray A J 2002相有序动力学理论高级物理51 481-587·doi:10.1080/00018730110117433
[10] Brito C、Lerner E和Wyart M 2018连续多分散粒子Phys的玻璃附近交换加速度和干扰跃迁理论。修订版X 8 031050·doi:10.1103/PhysRevX.8.031050
[11] Castellani T和Cavagna 2005行人旋转玻璃理论J.Stat.Mech。P05012号·Zbl 1456.82490号
[12] Chaudhari P、Choromanska A、Soatto S、LeCun Y、Baldassi C、Borgs C、Chayes J、Sagun L和Zecchina R 2016 Entropy-sgd:向宽山谷倾斜梯度下降(arXiv:1611.01838)
[13] Choromanska A、Henaff M、Mathieu M、Ben Arous G和LeCun Y 2015多层网络的损失面人工智能和统计第192-204页
[14] Crank J 1979扩散数学(牛津:牛津大学出版社)·兹伯利0427.35035
[15] Cugliandolo L F 2003课程7:玻璃体系的动力学凝聚物质中的慢弛豫和非平衡动力学(纽约:Springer)第367-521页
[16] Cugliandolo L F和Kurchan J 1993长程自旋玻璃模型Phys非平衡动力学的分析解。修订稿71 173·doi:10.1103/PhysRevLett.71.173
[17] Dauphin Y N、Pascanu R、Gulcehre C、Cho K、Ganguli S和Bengio Y 2014识别和解决高维非凸优化中的鞍点问题神经信息处理系统进展第2933-41页
[18] Freeman C D和Bruna J 2016深度矫正网络优化景观的拓扑和几何(arXiv:1611.01540)
[19] He K、Zhang X、Ren S和Sun J 2016图像识别程序的深度剩余学习。IEEE计算机视觉和模式识别会议第770-8页
[20] Hoffer E、Hubara I和Soudry D 2017训练时间更长,概括更好:缩小神经网络大批量训练中的概括差距神经信息处理系统进展第1729-39页
[21] Jastrzebski S、Kenton Z、Arpit D、Ballas N、Fischer A、Bengio Y和Storkey A 2017影响sgd最小值的三个因素(arXiv:1711.04623)
[22] Keskar N S、Mudigere D、Nocedal J、Smelyanskiy M和Tang P T P 2016关于深度学习的大背训练:泛化差距和显著极小值(arXiv:1609.04836)
[23] Krzakała F、Montanari a、Ricci-Tersenghi F、Semerjian G和ZdeborováL 2007 Gibbs陈述了随机约束满足问题的解集Proc。美国国家科学院。科学.104 10318-23·Zbl 1190.68031号 ·doi:10.1073/pnas.0703685104
[24] Kurchan J和Laloux L 1996相空间几何和慢动力学J.Phys。A: 数学。第29代1929·Zbl 0900.70205号 ·doi:10.1088/0305-4470/29/9/009
[25] LeCun Y、Bottou L、Orr G和Müller K R 2012计算机科学高效背道而驰讲稿(柏林:Springer)第9-50页
[26] Lee J D、Simchowitz M、Jordan M I和Recht B 2016(梯度下降收敛到最小值)第1050卷(加州伯克利:加利福尼亚大学)第16页
[27] Li Q、Tai C和Weinan E 2015随机修正方程和自适应随机梯度算法。第34届国际米兰。Conf.机器学习
[28] Lipton Z C 2016卡在什么地方?重量空间冒险(arXiv:1602007320)
[29] Liu A J、Nagel S R、van Saarloos W和Wyart M 2010干扰场景:简介和展望(牛津:牛津大学出版社)
[30] Mézard M,Parisi G和Zecchina R 2002随机可满足性问题的分析和算法解科学297 812-5·doi:10.1212/science.1073287
[31] Monasson R、Zecchina R、Kirkpatrick S、Selman B和Troyansky L 1999根据特征“相变”Nature400 133确定计算复杂性·Zbl 1369.68244号 ·doi:10.1038/22055
[32] Montanari A和Semerjian G 2006玻璃体系中长度和时间尺度之间的严格不平等J.Stat.Phys.125 23·Zbl 1112.82051号 ·doi:10.1007/s10955-006-9175-y
[33] Ninarello A、Berthier L和Coslovich D 2017下一代玻璃化转变研究物理的模型和算法。修订版X 7 021039
[34] Sagun L、Bottou L和LeCun Y 2016深度学习中黑森的奇点(arXiv:1611.07476)
[35] Sagun L,Evci U,Güney V U,Dauphin Y和Bottou L 2017过度参数化神经网络粗麻布的实证分析ICLR 2018研讨会贡献
[36] Sagun L、Güney V U、Ben Arous G和LeCun Y 2014高维景观探索ICLR 2015研讨会贡献
[37] Soudry D和Carmon Y 2016无不良局部极小值:多层神经网络的数据独立训练误差保证(arXiv:1605.08361)
[38] Wyart M 2005关于非晶固体的硬度Ann.Phys。,巴黎30 1-113·doi:10.1051/anphys:2006003
[39] ZdeborováL和Krzakala F 2016推理统计物理:阈值和算法高级物理65 453-552·doi:10.1080/00018732.2016.1211393
[40] Zhang C、Bengio S、Hardt M、Recht B和Vinyals O 2016理解深度学习需要重新思考泛化(arXiv:1611.03530)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。