×

深度学习优化:概述。 (英文) Zbl 1463.90212号

摘要:优化是深度学习的关键组成部分。由于各种原因,我们认为神经网络的优化是一个有趣的理论研究课题。首先,尽管它是非凸的,但它的可处理性是一个有趣的问题,可能会大大扩展我们对可处理问题的理解。其次,经典优化理论远远不足以解释许多现象。因此,我们希望从理论的角度理解挑战和机遇,并回顾该领域的现有研究。首先,我们讨论梯度爆炸/消失的问题和更普遍的不良谱问题,然后讨论实际的解决方案,包括仔细的初始化、归一化方法和跳跃连接。其次,我们回顾了用于训练神经网络的通用优化方法,如随机梯度下降法和自适应梯度法,以及现有的理论结果。第三,我们回顾了神经网络训练全局问题的现有研究,包括全局景观、模式连通性、彩票假设和神经切线核等方面的研究成果。

MSC公司:

90立方 非线性规划
68问题32 计算学习理论
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bertsekas,DP,非线性规划,J.Oper。Res.Soc.,48,3,334-334(1997)·doi:10.1057/palgrave.jors.2600425
[2] Sra,S。;Nowozin,S。;SJ Wright,《机器学习优化》(2012),剑桥:麻省理工学院出版社,剑桥
[3] 博图,L。;FE柯蒂斯;Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.,60,2,223-311(2018)·兹比尔1397.65085 ·doi:10.1137/16M1080173
[4] 古德费罗,I。;Y.本吉奥。;科尔维尔,A。;Bengio,Y.,《深度学习》(2016),剑桥:麻省理工学院出版社,剑桥·Zbl 1373.68009号
[5] Jakubovitz博士。;Giryes,R。;罗德里格斯,MRD;Boche,H。;Caire,G。;卡尔德班克,R。;Kutyniok,G。;Mathar,R.,深度学习中的泛化错误,压缩传感及其应用,153-193(2019),柏林:施普林格出版社,柏林·Zbl 1494.68240号
[6] Shamir,O.:一维深度线性神经网络梯度下降的指数收敛时间(2018)。arXiv公司:1809.08587
[7] 莱昂·博图:假释调查局。摘自:《神经尼姆学报》88,第197-218页。法国尼姆(1988)。http://leon.bottu.org/papers/bottou-88b
[8] LeCun,Y。;博图,L。;Orr,GB;穆勒,K-R;蒙塔文,G。;Orr,GB;Müller,K-R,《高效反向支持》,《神经网络:交易技巧》,9-50(1998),柏林:施普林格出版社,柏林
[9] 通用电气公司Hinton;Salakhutdinov,RR,《用神经网络降低数据的维数》,《科学》,3135786504-507(2006)·Zbl 1226.68083号 ·doi:10.1126/science.1127647
[10] Erhan,D。;Y.本吉奥。;科尔维尔,A。;曼扎戈尔,P-A;文森特,P。;Bengio,S.,为什么无监督的预培训有助于深度学习?,J.马赫。学习。2010年2月11日第625-660号决议·Zbl 1242.68219号
[11] Glrot,X.,Bengio,Y.:理解训练深度前馈神经网络的困难。摘自:《第十三届国际人工智能与统计会议记录》,第249-256页(2010年)
[12] Glrot,X.,Bordes,A.,Bengio,Y.:深度稀疏整流器神经网络。摘自:《第十四届国际人工智能与统计会议记录》,第315-323页(2011年)
[13] He,K.,Zhang,X.,Ren,S.,Sun,J.:深入研究整流器:在图像网络分类方面超越人类水平的表现。摘自:IEEE计算机视觉国际会议记录,第1026-1034页(2015年)。https://openreview.net/forum?id=rkxQ-nA9FX公司
[14] Mishkin,D.,Matas,J.:你所需要的只是一个好的init(2015)。arXiv:1511.06422
[15] Saxe,A.M.,McClelland,J.L.,Ganguli,S.:深度线性神经网络学习非线性动力学的精确解(2013)。arXiv:1312.6120
[16] Poole,B.,Lahiri,S.,Raghu,M.,Sohl-Dickstein,J.,Ganguli,S.:通过瞬态混沌在深层神经网络中的指数表达性。摘自:《神经信息处理系统进展》,第3360-3368页(2016年)
[17] Jacot,A.,Gabriel,F.,Hongler,C.:神经切线核:神经网络中的收敛和泛化。摘自:《神经信息处理系统进展》,第8571-8580页(2018年)
[18] Hanin,B.,Rolnick,D.:如何开始培训:初始化和架构的影响。摘自:《神经信息处理系统进展》,第569-579页(2018年)
[19] Orhan,A.E.,Pitkow,X.:跳过连接消除奇点(2017)。arXiv:1701.09175
[20] Pennington,J.,Schoenholz,S.,Ganguli,S.:通过动态等距恢复深度学习中的乙状结肠:理论与实践。摘自:《神经信息处理系统进展》,第4785-4795页(2017年)
[21] Pennington,J.、Schoenholz,S.S.、Ganguli,S.:深网络中光谱普遍性的出现(2018)。arXiv公司:1802.09979
[22] Xiao,L.,Bahri,Y.,Sohl-Dickstein,J.,Schoenholz,S.S.,Pennington,J.:CNN的动态等距和平均场理论:如何训练10000层香草卷积神经网络(2018)。arXiv:1806.05393
[23] Li,P.,Nguyen,P.-M.:关于随机深部加权时间自编码器:精确渐近分析、相变和训练意义。参加:2019年(2019年)ICLR第七届国际学习代表大会https://openreview.net/forum?id=HJx54i05tX
[24] Gilboa,D.,Chang,B.,Chen,M.,Yang,G.,Schoenholz,S.S.,Chi,E.H.,Pennington,J.:LSTM和GRU的动力学等距和平均场理论(2019)。arXiv公司:1901.08987
[25] Dauphin,Y.N.,Schoenholz,S.:Metainit:通过学习初始化来初始化学习。摘自:《神经信息处理系统进展》,第12624-12636页(2019年)
[26] Ioffe,S.,Szegedy,C.:批量规范化:通过减少内部协变量偏移来加速深层网络培训(2015)。arXiv:1502.03167
[27] Santurkar,S.、Tsipras,D.、Ilyas,A.、Madry,A.:批处理规范化如何帮助优化?在:《神经信息处理系统的进展》,第2483-2493页(2018)
[28] 比约克,N.,戈麦斯,C.P.,塞尔曼,B.,温伯格,K.Q.:理解批次标准化。摘自:神经信息处理系统进展,第7694-7705页(2018年)
[29] Arora,S.,Li,Z.,Lyu,K.:通过批量归一化进行自动速率调整的理论分析。参加:国际学习代表大会(2019c)。https://openreview.net/forum?id=rkxQ-nA9FX公司
[30] Cai,Y.,Li,Q.,Shen,Z.:批量归一化对梯度下降影响的定量分析。摘自:机器学习国际会议,第882-890页(2019年)
[31] Kohler,J.、Daneshmand,H.、Lucchi,A.、Hofmann,T.、Zhou,M.、Neymeyr,K.:批次标准化的指数收敛率:非凸优化中纵向解耦的威力。摘自:第22届国际人工智能与统计会议,第806-815页(2019年)
[32] Ghorbani,B.,Krishnan,S.,Xiao,Y.:通过hessian特征值密度研究神经网络优化(2019)。arXiv:1901.10159
[33] Salimans,T.,Kingma,D.P.:权重归一化:一种简单的重新参数化,用于加速深度神经网络的训练。摘自:《神经信息处理系统进展》,第901-909页(2016年)
[34] Ba,J.L.,Kiros,J.R.,Hinton,G.E.:层标准化(2016)。arXiv:1607.06450
[35] Ulyanov,D.,Vedaldi,A.,Lempitsky,V.:实例规范化:快速风格化的缺失要素(2016)。arXiv:1607.08022
[36] Wu,Y.,He,K.:集团规范化。摘自:《欧洲计算机视觉会议记录》,第3-19页(2018年)
[37] Miyato,T.、Kataoka,T.,Koyama,M.、Yoshida,Y.:生成性对抗网络的频谱归一化(2018)。arXiv公司:1802.05957
[38] Luo,P.,Zhang,R.,Ren,J.,Peng,Z.,Li,J.:从学习到深度表征的可切换规范化。IEEE传输。模式分析。机器。智力。(2019)
[39] Krizhevsky,A.,Sutskever,I.,Hinton,G.E.:基于深度卷积神经网络的Imagenet分类。摘自:《神经信息处理系统进展》,第1097-1105页(2012年)
[40] Szegedy,C.、Liu,W.、Jia,Y.、Sermanet,P.、Reed,S.、Anguelov,D.、Erhan,D.、Vanhoucke,V.、Rabinovich,A.:用卷积深入研究。摘自:IEEE计算机视觉和模式识别会议记录,第1-9页(2015年)
[41] He,K.,Zhang,X.,Ren,S.,Sun,J.:图像识别的深度剩余学习。摘自:IEEE计算机视觉和模式识别会议记录,第770-778页(2016)
[42] Simonyan,K.,Zisserman,A.:用于大规模图像识别的极深卷积网络arXiv:1409.1556(2014)
[43] Srivastava,R.K.,Greff,K.,Schmidhuber,J.:公路网(2015)。arXiv公司:1505.00387
[44] Huang,G.,Liu,Z.,Van Der Maaten,L.,Weinberger,K.Q.:紧密连接卷积网络。摘自:IEEE计算机视觉和模式识别会议记录,第4700-4708页(2017)
[45] Xie,S.,Girshick,R.,DolláR,P.,Tu,Z.,He,K.:深层神经网络的聚合残差变换。摘自:IEEE计算机视觉和模式识别会议记录,第1492-1500页(2017年)
[46] Zoph,B.,Le,Q.V.:神经架构搜索与强化学习(2016)。arXiv公司:1611.01578
[47] Yu,J.,Huang,T.:通过可精简网络进行网络精简:朝着一次性架构搜索频道数量的方向发展(2019)。arXiv:1903.11728年
[48] Tan,M.,Le,Q.V.:效率网:卷积神经网络模型缩放的再思考(2019)。arXiv:1905.11946年
[49] Hanin,B.:哪些神经网络架构会导致梯度的爆炸和消失?摘自:神经信息处理系统进展,第580-589页(2018年)
[50] Tarnowski,W.,Warchoł,P.,Jastrzębski,S.,Tabor,J.:Nowak,Maciej:对于任何激活函数,动态等距是以通用方式在剩余网络中实现的。摘自:第22届国际人工智能与统计会议,第2221-2230页(2019年)
[51] Yang,G.,Schoenholz,S.:平均场剩余网络:混沌边缘。摘自:《神经信息处理系统进展》,第7103-7114页(2017年)
[52] Balduzzi,D.,Frean,M.,Leary,L.,Lewis,J.P.,Ma,K.W.-D.,McWilliams,B.:破碎梯度问题:如果resnet是答案,那么问题是什么?参见:第34届国际机器学习会议记录,第70卷,第342-350页。JMLR公司。组织(2017)
[53] Zhang,H.,Dauphin,Y.N.,Ma,T.:修复初始化:无标准化的剩余学习(2019a)。arXiv:1901.09321
[54] Curtis,F.E.,Scheinberg,K.:监督机器学习的优化方法:从线性模型到深度学习。摘自:《信息社区的领先发展》,第89-114页。信息(2017)
[55] Goyal,P.、Dollár,P.和Girshick,r.、Noordhuis,P.,Wesolowski,L.、Kyrola,A.、Tulloch,A.、Jia,Y.、He,K.:准确、大批量sgd:1小时内的训练图像网(2017)。arXiv公司:1706.02677
[56] Vaswani,A.、Shazeer,N.、Parmar,N.,Uszkoreit,J.、Jones,L.、Gomez,A.N.、Kaiser,Ł。,波洛什金:你所需要的就是专注。摘自:神经信息处理系统进展,第5998-6008页(2017)
[57] Devlin,J.,Chang,M.-W.,Lee,K.,Toutanova,K.:伯特:语言理解的深层双向变形金刚预训练(2018)。arXiv:1810.04805
[58] Gotmare,A.、Keskar,N.S.、Xiong,C.、Socher,R.:深入研究深度学习启发式:学习速率重启、预热和蒸馏。参加:国际学习代表大会(2019年)。https://openreview.net/forum?id=r14EOsCqKX
[59] Smith,法律公告:训练神经网络的循环学习率。2017年IEEE计算机视觉应用冬季会议,第464-472页。IEEE(2017)
[60] Loshchilov,I.,Hutter,F.:Sgdr:带热重启的随机梯度下降(2016)。arXiv:1608.03983
[61] Smith,Negal,Topin,N.:超收敛:使用大学习率快速训练神经网络(2017)。arXiv:1708.07120
[62] Powell,MJD,共轭梯度法的重新启动程序,数学。程序。,12, 1, 241-254 (1977) ·Zbl 0396.90072号 ·doi:10.1007/BF01593790
[63] 奥多诺休,B。;Candes,E.,《加速梯度方案的自适应重启》,Found。计算。数学。,15, 3, 715-732 (2015) ·Zbl 1320.90061号 ·doi:10.1007/s10208-013-9150-3
[64] 罗,Z-Q,关于线性前馈网络自适应学习率lms算法的收敛性,神经计算。,3, 2, 226-245 (1991) ·doi:10.1162/neco.1991.3.2.226
[65] Schmidt,M.,Roux,法律公告:强增长条件下随机梯度下降的快速收敛(2013)。arXiv公司:1308.6370
[66] Vaswani,S.、Bach,F.、Schmidt,M.:超参数模型和加速感知器的sgd快速收敛(2018)。arXiv:1810.07288
[67] Liu,C.,Belkin,M.:Mass:一种用于过参数化学习的加速随机方法(2018b)。arXiv:1810.13395
[68] Bottou,L.,在线学习和随机近似,在线学习。神经网络。,17, 9, 142 (1998) ·Zbl 0968.68127号
[69] Ruder,Sebastian:梯度下降优化算法概述(2016)。arXiv公司:1609.04747
[70] Devolder,O。;Glineur,F。;Nesterov,Y.,带不精确预言的光滑凸优化的一阶方法,数学。程序。,146, 1-2, 37-75 (2014) ·Zbl 1317.90196号 ·doi:10.1007/s10107-013-0677-5
[71] Devolder,O.,Glineur,F.,Nesterov,Y.等人:具有不精确预言的一阶方法:强凸情形。编号:2013016。鲁汶天主教大学运营研究和计量经济中心(CORE),2013年·Zbl 1317.90196号
[72] Kidambi,R.、Netrapalli,P.、Jain,P.和Kakade,S.:关于随机优化现有动量方案的不足。参见:2018年信息理论与应用研讨会(ITA),第1-9页。IEEE(2018)
[73] Lin,H.,Mairal,J.,Harchaoui,Z.:一级优化的通用催化剂。摘自:《神经信息处理系统进展》,第3384-3392页(2015年)
[74] Allen-Zhu,Z.,Katyusha:随机梯度法的第一次直接加速,J.Mach。学习。研究,18,1,8194-8244(2017)·Zbl 1475.90044号
[75] Defazio,A.,Bottou,L.:关于方差减少优化对深度学习的无效性。摘自:《神经信息处理系统进展》,第1753-1763页(2019年)
[76] Jain,P.、Kakade,S.M.、Kidambi,R.、Netrapali,P.、Sidford,A.:加速随机梯度下降(2017)。arXiv:1704.08227·Zbl 1469.68088号
[77] Liu,C.,Belkin,M.:加速超参数学习的sgd(2018)arXiv:1810.13395
[78] 卡蒙,Y。;杜奇,JC;Hinder,O。;Sidford,A.,非凸优化的加速方法,SIAM J.Optim。,28, 2, 1751-1772 (2018) ·Zbl 1400.90250号 ·doi:10.1137/17M1114296
[79] Carmon,Y.,Duchi,J.C.,Hinder,O.,Sidford,A.:证明有罪之前是凸的:非凸函数上梯度下降的无量纲加速。收录于:《第34届国际机器学习大会论文集》,第70卷,第654-663页(2017)
[80] Xu,Y.,Rong,Jing,Y.和Tianbao:在几乎线性时间内逃离鞍点的一阶随机算法。摘自:《神经信息处理系统进展》,第5535-5545页(2018年)
[81] Fang,C.,Li,C.J.,Lin,Z.,Zhang,T.:蜘蛛:通过随机路径积分微分估计的近最优非凸优化。摘自:神经信息处理系统进展,第687-697页(2018年)
[82] Allen-Zhu,Z.:Natasha 2:比sgd更快的非凸优化。摘自:《神经信息处理系统进展》,第2680-2691页(2018年)
[83] 杜奇,J。;哈赞,E。;Singer,Y.,在线学习和随机优化的自适应次梯度方法,J.Mach。学习。2011年7月12日第2121-2159号决议·Zbl 1280.68164号
[84] Tieleman,T。;Hinton,G.,讲座6.5-rmsrop:将梯度除以最近震级的运行平均值,COURSERA神经网络。机器。学习。,4, 2, 26-31 (2012)
[85] Kingma,D.P.,Ba,J.:亚当:随机优化方法(2014)。arXiv:1412.6980
[86] 医学博士Zeiler:Adadelta:一种自适应学习率方法(2012年)。arXiv:1212.5701
[87] Dozat,T.,Adam,I.N.:学习代表国际会议。研讨会(ICLRW)(第1-6页)。In:《将内斯特罗夫动量纳入亚当的程序》(2016)
[88] Mikolov,T.,Chen,K.,Corrado,G.,Dean,J.:向量空间中单词表示的有效估计(2013)。arXiv:1301.3781
[89] Pennington,J.,Socher,R.,Manning,C.:手套:单词表示的全局向量。摘自:《2014年自然语言处理实证方法会议论文集》,第1532-1543页(2014)
[90] Wilson,A.C.、Roelofs,R.、Stern,M.、Srebro,N.、Recht,B.:机器学习中自适应梯度方法的边际值。摘自:《神经信息处理系统进展》,第4148-4158页(2017年)
[91] Keskar,N.S.、Socher,R.:通过从adam切换到sgd来提高泛化性能(2017)。arXiv:1712.07628
[92] Sivaprasad,P.T.,Mai,F.,Vogels,T.,Jaggi,M.,Fleuret,F.:关于深度学习中优化器的可调性(2019)。arXiv:1910.11758年
[93] Reddi,S.J.,Kale,S.,Kumar,S.:关于亚当及其后的收敛。参加:学习代表国际会议(2018年)
[94] Chen,X.,Liu,S.,Sun,R.,Hong,M.:关于非凸优化的一类adam型算法的收敛性(2018)。arXiv:1808.02941
[95] Zhou,D.、Tang,Y.、Yang,Z.、Cao,Y.和Gu,Q.:关于非凸优化自适应梯度方法的收敛性(2018)。arXiv:1808.05671
[96] Zou,F.,Shen,L.:关于训练深度神经网络的adagrad与动量的收敛性(2018)。arXiv:1808.03408
[97] De,S.,Mukherjee,A.,Ullah,E.:RMSProp和ADAM在非凸优化中的收敛保证,以及与Nesterov加速度的经验比较(2018)arXiv:1807.06766
[98] 邹飞、沈立、杰、Z、张、我们、。,Liu,W.:adam和rmsprop收敛的一个充分条件(2018b)。arXiv公司:1811.09358
[99] Ward,R.,Wu,X.,Bottou,L.:Adagrad步长:从任何初始化开始,非凸景观上的急剧收敛(2018)。arXiv:1806.01811年
[100] Barakat,A.,Bianchi,P.:非凸优化中具有自适应步长的动量算法的收敛性分析(2019)。arXiv:1911.07596号
[101] Bertsekas,D.P.,Tsitsiklis,J.N:并行和分布式计算:数值方法,第23卷。普伦蒂斯·霍尔(Prentice Hall),恩格尔伍德悬崖(Englewood Cliffs)(1989年)·Zbl 0743.65107号
[102] Smith,S.L.,Kindermans,P.-J.,Le,Q.V.:不要降低学习率,增加批量。参加:学习代表国际会议(2018年)。https://openreview.net/论坛?id=B1Yy1BxCZ
[103] Akiba,T.、Suzuki,S.、Fukuda,K.:超大迷你批次sgd:15分钟内在imagenet上训练resnet-50(2017)。arXiv:1711.04325
[104] Jia,X.,Song,S.,He,W.,Wang,Y.,Rong,H.,Zhou,F.,Xie,L.,Guo,Z.,Yang,Y.Y.,Yu,L.等:具有混合决策的高度可扩展的深度学习培训系统:四分钟内的培训图像网(2018)。arXiv:1807.11205
[105] Mikami,H.、Suganuma,H.,Tanaka,Y.、Kageyama,Y.等人:大规模分布的sgd:Imagenet/resnet-50培训(2018年)。arXiv:1811.05233号
[106] Ying,C.,Kumar,S.,Chen,D.,Wang,T.,Cheng,Y.:超级计算机规模下的图像分类(2018)。arXiv公司:1811.06992
[107] Yamazaki,M.、Kasagi,A.、Tabuchi,A.、Honda,T.、Miwa,M.,Fukumoto,N.、Tabaru,T.,Ike,A.、Nakashima,K.:另一个加速的sgd:Resnet-50在imagenet上的训练时间为74.7秒(2019年)。arXiv:1903.12650
[108] You,Y.,Zhang,Z.,Hsieh,C.-J.,Demmel,J.,Keutzer,K.:Imagenet训练分钟数。摘自:第47届并行处理国际会议记录,第1页。ACM(2018)
[109] Yuan,Y.,梯度法的步长,AMS IP Stud.Adv.Math。,42, 2, 785 (2008) ·Zbl 1172.90509号
[110] Barzilai,J。;Borwein,JM,两点步长梯度法,IMA J.Numer。分析。,8, 1, 141-148 (1988) ·Zbl 0638.65055号 ·doi:10.1093/imanum/8.1.141
[111] Becker,S.,Le Cun,Y.等人:用二阶方法改进反向传播学习的收敛性。收录于:《1988年康涅狄格州示范暑期学校学报》,第29-37页(1988)
[112] Bordes,A。;博图,L。;Gallinari,P.,Sgd-qn:谨慎的准牛顿随机梯度下降,J.Mach。学习。1737-1754年7月10日决议(2009年)·兹比尔1235.68130
[113] 乐村,YA;博图,L。;Orr,GB;穆勒,K-R;蒙塔文,G。;Orr,GB;Müller,K-R,《高效支持》,《神经网络:贸易的诡计》,9-48(2012),柏林:施普林格出版社,柏林
[114] Schaul,T.、Zhang,S.、LeCun,Y.:不再有令人讨厌的学习率。摘自:机器学习国际会议,第343-351页(2013)
[115] Tan,C.,Ma,S.,Dai,Y.-H.,Qian,Y.:随机梯度下降的Barzilai-borwein步长。摘自:《神经信息处理系统进展》,第685-693页(2016年)
[116] Orabona,F.,Tommasi,T.:通过投币来训练深度网络,而不需要学习速度。摘自:《神经信息处理系统进展》,第2160-2170页(2017年)
[117] Martens,J.,通过无粗麻布优化的深度学习,ICML,27335-742(2010)
[118] Pearlmutter,BA,麻布的快速精确乘法,神经计算。,6, 1, 147-160 (1994) ·doi:10.1162/neco.1996.1.147
[119] Schraudolph,NN,二阶梯度下降的快速曲率矩阵向量积,神经计算。,14, 7, 1723-1738 (2002) ·Zbl 1037.68119号 ·doi:10.1162/08997660260028683
[120] Berahas,A.S.、Jahani,M.、Takáč,M.:深度学习的准纽顿方法:忘记过去,只是样本(2019年)。arXiv:1901.09997
[121] 阿玛里,S-I;帕克,H。;Fukumizu,K.,多层感知器实现自然梯度学习的自适应方法,神经计算。,12, 6, 1399-1409 (2000) ·doi:10.11162/089977600300015420
[122] Martens,J.:关于自然梯度法的新见解和观点(2014年)。arXiv:1412.1193
[123] 阿玛里,S。;长冈,H.,《信息几何方法》(2007),普罗维登斯:美国数学学会,普罗维登斯
[124] Martens,J.,Grosse,R.:用kronecker-factor近似曲率优化神经网络。摘自:机器学习国际会议,第2408-2417页(2015)
[125] Osawa,K.、Tsuji,Y.、Ueno,Y.,Naruse,A.、Yokota,R.、Matsuoka,S.:大型迷你背带的二阶优化方法:35个时期内在imagenet上训练resnet-50(2018)。arXiv:1811.12019年
[126] Anil,R.,Gupta,V.,Koren,T.,Regan,K.,Singer,Y.:二阶优化变得实用(2020年)。arXiv:2002.09018号
[127] Gupta,V.,Koren,T.,Singer,Y.:洗发水:预处理随机张量优化(2018)。arXiv:1802.09568
[128] Vidal,R.、Bruna,J.、Giryes,R.和Soatto,S.:深度学习数学(2017)。arXiv公司:1712.04741
[129] 卢,C。;邓,Z。;周,J。;Guo,X.,基于敏感特征向量的二次约束二次规划全局算法,J.Glob。最佳。,73, 1-18 (2019) ·兹比尔1421.90106 ·doi:10.1007/s10898-018-0726-y
[130] 费雷拉,OP;Németh,SZ,关于二次函数的球面凸性,J.Glob。最佳。,73, 3, 537-545 (2019) ·Zbl 1434.90133号 ·doi:10.1007/s10898-018-0710-6
[131] Chi,Y。;Lu,YM;Chen,Y.,非凸优化满足低秩矩阵分解:概述,IEEE Trans。信号处理。,67,20,5239-5269(2019)·Zbl 07123429号 ·doi:10.1109/TSP.2019.2937282
[132] Dauphin,Y.N.,Pascanu,R.,Gulcehre,C.,Cho,K.,Ganguli,S.,Bengio,Y.:识别和解决高维非凸优化中的鞍点问题。摘自:《神经信息处理系统进展》,第2933-2941页(2014年)
[133] Goodfellow,I.J.,Vinyals,O.,Saxe,A.M.:定性描述神经网络优化问题(2014)。arXiv:1412.6544
[134] Poggio,T.,Liao,Q.:理论II:深度学习中的经验风险景观。博士论文,大脑、思维和机器中心(CBMM)(2017年)。arXiv:1703.09833号
[135] Li,H.,Xu,Z.,Taylor,G.,Studer,C.,Goldstein,T.:可视化神经网络的损失景观。摘自:神经信息处理系统进展,第6391-6401页(2018b)
[136] Baity-Jesi,M.、Sagun,L.、Geiger,M.,Spigler,S.、Arous,G.B.、Cammarota,C.、LeCun,Y.、Wyart,M.和Biroli,G.:比较动力学:深层神经网络与玻璃系统(2018)。arXiv公司:1803.06969
[137] Franz,S.,Hwang,S.,Urbani,P.:多层监督学习模型中的干扰(2018)。arXiv:1809.09945
[138] Geiger,M.、Spigler,S.、d'Ascoli,S.,Sagun,L.、Baity-Jesi,M.,Biroli,G.、Wyart,M.:干扰过渡作为理解深层神经网络损失前景的范例(2018)。arXiv公司:1809.09349
[139] Draxler,F.、Veschgini,K.、Salmhofer,M.、Hamprecht,F.A.:神经网络能源领域基本上没有障碍(2018)arXiv:1803.00885
[140] Garipov,T.、Izmailov,P.、Podoprikhin,D.、Vetrov,D.P.、Wilson,A.G.:DNNS的损耗表面、模式连接性和快速集成。摘自:《神经信息处理系统进展》,第8789-8798页(2018年)
[141] Freeman,C.D.,Bruna,J.:半整流网络优化的拓扑和几何(2016)。arXiv:1611.01540
[142] Nguyen,Q.:深度学习中的连通子层集(2019b)。arXiv公司:1901.07417
[143] Kuditipudi,R.,Wang,X.,Lee,H.,Zhang,Y.,Li,Z.,Hu,W.,Arora,S.,Ge,R.:解释多层网络低成本解决方案的景观连通性(2019)。阿西夫:1906.06247
[144] Han,S.,Mao,H.,Dally,W.J.:深度压缩:使用修剪、训练量化和哈夫曼编码压缩深度神经网络(2015)。arXiv:1510.00149
[145] Liu,Z.,Sun,M.,Zhou,T.,Huang,G.,Darrell,T.:重新思考网络修剪的价值(2018)。arXiv:1810.05270
[146] Lee,N.,Ajanthan,T.,Torr,P.:SNIP:基于连接敏感性的单发网络修剪。参加:国际学习代表大会(2019b)。https://openreview.net/forum?id=B1VZqjAcYX
[147] Frankle,J.、Dziugaite,G.K.、Roy,D.M.、Carbin,M.:规模彩票假设(2019年)。arXiv:1903.01611年
[148] Frankle,J.,Carbin,M.:彩票假设:发现稀疏、可训练的神经网络(2018)。arXiv公司:1803.03635
[149] 周,H.,兰,J.,刘,R.,约辛斯基,J.:解构彩票:零、符号和超人面具(2019)。arXiv:1905.01067年
[150] Morcos,A.S.,Yu,H.,Paganini,M.,Tian,Y.:一票全胜:跨数据集和优化器推广彩票初始化(2019年)。arXiv:1906.02773号
[151] Tian,Y.,Jiang,T.,Gong,Q.,Morcos,A.:运气很重要:了解深度关系网络的培训动态(2019年)。arXiv:1905.13405
[152] Hochreiter,S。;Schmidhuber,J.,平面极小值,神经计算。,9, 1, 1-42 (1997) ·Zbl 0872.68150号 ·doi:10.1162/neco.1997.9.1.1
[153] Keskar,N.S.、Mudigere,D.、Nocedal,J.、Smelyanskiy,M.、Tang,P.T.P.:关于深度学习的大范围训练:泛化差距和显著极小值(2016)。arXiv:1609.04836
[154] Dinh,L.,Pascanu,R.,Bengio,S.,Bengino,Y.:尖锐极小值可以推广到深网。摘自:第34届国际机器学习会议记录,第70卷,第1019-1028页(2017)
[155] Neyshabur,B.,Salakhuttinov,R.R.,Srebro,N.:路径sgd:深度神经网络中的路径归一化优化。摘自:《神经信息处理系统进展》,第2422-2430页(2015年)
[156] Yi,M.,Meng,Q.,Chen,W.,Ma,Z.,Liu,T.-Y.:相对神经网络的正尺度-变平坦度(2019)。arXiv:1903.02237
[157] He,H.,Huang,G.,Yuan,Y.:不对称山谷:超越尖锐和平坦的局部极小值(2019年)。arXiv:1902.00744号
[158] Chaudhari,P.、Choromanska,A.、Soatto,S.、LeCun,Y.、Baldassi,C.、Borgs,C.、Chayes,J.、Sagun,L.、Zecchina,R.:Entropy-sgd:向宽山谷倾斜梯度下降(2016)。arXiv:1611.01838年
[159] Kawaguchi,K.:深度学习,没有糟糕的局部最低要求。摘自:《神经信息处理系统进展》,第586-594页(2016年)
[160] Lu,H.,Kawaguchi,K.:深度创造了良好的局部极小值(2017)。arXiv:1702.08580
[161] Laurent,T.,Brecht,J.:具有任意损失的深线性网络:所有局部极小值都是全局的。在:国际机器学习会议,第2908-2913页(2018)
[162] Nouiehed,M.,Razaviyayn,M.:学习深层模型:关键点和地方开放(2018)。arXiv公司:1803.02968
[163] 张,L.:深度不再创造虚假的局部极小值(2019)。arXiv:1901.09827
[164] Yun,C.,Sra,S.,Jadbabaie,A.:深层神经网络的全局最优条件(2017)。arXiv公司:1707.02444
[165] 周瑜、梁瑜:线性神经网络的临界点:分析形式和景观特性(2018)arXiv:1710.11205
[166] Livni,R.,Shalev-Shwartz,S.,Shamir,O.:关于训练神经网络的计算效率。摘自:《神经信息处理系统进展》,第855-863页(2014年)
[167] Neyshabur,B.,Bhojanapalli,S.,McAllester,D.,Srebro,N.:探索深度学习中的泛化。摘自:《神经信息处理系统进展》,第5947-5956页(2017年)
[168] Zhang,C.,Bengio,S.,Hardt,M.,Recht,B.,Vinyals,O.:理解深度学习需要重新思考泛化(2016)。arXiv公司:1611.03530
[169] Nguyen,Q.、Mukkamala,M.C.、Hein,M.:关于一类无不良局部山谷的深度神经网络的损失情况(2018年)。arXiv公司:1809.10749
[170] Li,Dawei,D.,Tian,S.,Ruoyu:超参数深度神经网络对于任何连续激活都没有严格的局部极小值(2018a)。arXiv:1812.11039年
[171] Yu,X。;Pasupathy,S.,基于创新的瑞利平坦衰落信道MLSE,IEEE Trans。社区。,43, 1534-1544 (1995) ·doi:10.1109/26.380203
[172] Ding,T.,Li,D.,Sun,R.:几乎所有过参数化神经网络都存在次优局部极小值。在线优化(2019)arXiv:1911.01413
[173] Bartlett,P.L.,Foster,D.J.,Telgarsky,M.J.:神经网络的光谱规范化边界。摘自:《神经信息处理系统进展》,第6240-6249页(2017年)
[174] Wei,C.,Lee,J.D.,Liu,Q.,Ma,T.:关于前馈神经网络的边际理论(2018)。arXiv:1810.05369
[175] Wu,L.,Zhu,Z.,et al.:走向理解深度学习的泛化:损失景观的视角(2017)。arXiv:1706.10239
[176] Belkin,M.,Hsu,D.,Ma,S.,Mandal,S.:调和现代机器学习和偏差-方差权衡(2018)。arXiv:1812.11118年·Zbl 1433.68325号
[177] Mei,S.,Montanari,A.:随机特征回归的泛化误差:精确渐近和双下降曲线(2019)。arXiv:1908.05355
[178] Liang,S.,Sun,R.,Lee,J.D.,Srikant,R.:添加一个神经元可以消除所有不良的局部极小值。摘自:《神经信息处理系统进展》,第4355-4365页(2018a)
[179] Kawaguchi,K.,Kaelbling,L.P.:消除深度学习中的所有不良局部极小值(2019年)。arXiv:1901.00279·兹比尔1494.68241
[180] Liang,S.,Sun,R.,Srikant,R.:重新审视深层神经网络中的景观分析:消除通向无穷大的递减路径(2019年)。arXiv:1912.13472
[181] Shalev-Shwartz,S.、Shamir,O.、Shammah,S.:基于梯度的深度学习的失败。见:《第34届国际机器学习会议记录》,第70卷,第3067-3075页。JMLR公司。组织(2017)
[182] Swirszcz,G.、Czarnecki,W.M.、Pascanu,R.:深层网络培训中的局部极小值(2016)。arXiv公司:1611.06310
[183] 周瑜、梁瑜:神经网络的关键点:分析形式和景观特性(2017)。arXiv:1710.11205
[184] Safran,I.,Shamir,O.:伪局部极小值在双层relu神经网络中很常见(2017)。arXiv公司:1712.08968
[185] Venturi,L.,Bandeira,A.,Bruna,J.:双层神经网络优化环境中的虚假谷(2018b)。arXiv公司:1802.06384·Zbl 1434.68464号
[186] Liang,S.,Sun,R.,Li,Y.,Srikant,R.:了解二元分类神经网络的损失面(2018b)。arXiv公司:1803.00909
[187] Yun,C.,Sra,S.,Jadbabaie,A.:激活函数中的小非线性会在神经网络中产生坏的局部极小值(2018年)。arXiv公司:1802.03487
[188] Bartlett,P.,Helmbold,D.,Long,P.:带有身份初始化的梯度下降有效地学习正定线性变换。摘自:机器学习国际会议,第520-529页(2018年)
[189] Arora,S.、Cohen,N.、Golowich,N.和Hu,W.:深度线性神经网络梯度下降的收敛性分析(2018)。arXiv:1810.02281
[190] Ji,Z.,Telgarsky,M.:梯度下降使深层线性网络层对齐(2018)。arXiv:1810.02032
[191] Du,S.S.,Lee,J.D.,Li,H.,Wang,L.,Zhai,X.:梯度下降发现深层神经网络的全局极小值(2018)。arXiv:1811.03804年
[192] Yang,G.:具有权重分担的宽神经网络的缩放极限:高斯过程行为、梯度独立性和神经切线核推导(2019年)。arXiv:1902.04760
[193] Novak,R.、Xiao,L.、Bahri,Y.、Lee,J.、Yang,G.、Abolafia,D.A.、Pennington,J.和Sohl-dickstein,J.:具有多个信道的贝叶斯深度卷积网络是高斯过程。参加:国际学习代表大会(2019a)。https://openreview.net/forum?id=B1g30j0qF7
[194] Allen-Zhu,Z.,Li,Y.,Song,Z.:通过过度参数化实现深度学习的收敛理论(2018)。arXiv:1811.03962
[195] 邹,D.,曹,Y.,周,D.,顾,Q.:随机梯度下降优化了过参数化深relu网络(2018a)。arXiv:1811.08888·Zbl 1494.68245号
[196] Li,Y.,Liang,Y.:通过结构化数据上的随机梯度下降学习超参数神经网络。在:《神经信息处理系统的进展》,第8168-8177页(2018)
[197] Arora,S.,Du,S.S.,Hu,W.,Li,Z.,Salakhutdinov,R.,Wang,R.:关于无限宽神经网络的精确计算(2019a)。arXiv:1904.11955年
[198] Zhang,H.,Yu,D.,Chen,W.,Liu,T.-Y.:训练过参数化的深层网络几乎与训练双层网络一样容易(2019b)。arXiv:1903.07120号
[199] Ma,C.,Wu,L.等人:带跳跃连接的深度神经网络模型的梯度下降算法分析(2019年)。arXiv:1904.05263
[200] Li,Z.,Wang,R.,Yu,D.,Du,S.S.,Hu,W.,Salakhutdinov,R.和Arora,S.:增强卷积神经切线核(2019)arXiv:1806.05393
【201】 Arora,S.、Du,S.S.、Li,Z.、Salakhutdinov,R.、Wang,R.和Yu,D.:在小数据任务中利用无限宽深网的能力(2019b)。arXiv:1910.01663
[202] Novak,R.、Xiao,L.、Hron,J.、Lee,J.,Alemi,A.A.、Sohl-Dickstein,J.和Schoenholz,S.S.:神经切线:快速简单的蟒蛇无限神经网络(2019b)。arXiv:1912.02803号
[203] Lee,J.、Xiao,L.、Schoenholz,S.、Bahri,Y.、Novak,R.、Sohl-Dickstein,J.和Pennington,J.:任意深度的宽神经网络在梯度下降下演化为线性模型。在:神经信息处理系统的进展,第8570-8581页(2019a)
[204] Sirignano,J.,Spiliopoulos,K.:深层神经网络的平均场分析(2019)。arXiv公司:1903.04440·Zbl 1441.60022号
[205] Araujo,D.,Oliveira,R.I.,Yukimura,D.:某些深层神经网络的平均场极限(2019)arXiv:1900.0193
[206] Nguyen,P.-M.:多层神经网络学习动力学的平均场极限(2019a)。arXiv:1902.02880
[207] Mei,S.,Montanari,A.,Nguyen,P.-M.:两层神经网络景观的平均视野(2018)。arXiv:1804.06561·Zbl 1416.92014号
[208] Sirignano,J.,Spiliopoulos,K.:神经网络的平均场分析(2018)。arXiv:1805.01053号·Zbl 1441.60022号
[209] Rotskoff,G.M.,Vanden Eijnden,E.:作为相互作用粒子系统的神经网络:损失景观的渐近凸性和近似误差的普遍标度(2018)。arXiv公司:1805.00915
[210] Chizat,L.,Oyallon,E.,Bach,F.:关于使用最优传输的超参数模型梯度下降的全局收敛性。摘自:神经信息处理系统进展,第3040-3050页(2018年)
[211] Williams,F.,Trager,M.,Silva,C.,Panozzo,D.,Zorin,D.,Bruna,J.:浅层单变量relu网络的梯度动力学,收录:神经信息处理系统的进展,第8376-8385页(2019)
[212] Venturi,L.,Bandeira,A.,Bruna,J.:具有有限内在维数的神经网络没有虚假谷(2018a)。arXiv:1802.06384。15
[213] Haeffele,B.D.,Vidal,R.:神经网络训练中的全局优化。摘自:IEEE计算机视觉和模式识别会议记录,第7331-7339页(2017年)
[214] Burer,S。;Monteiro,RDC,低秩半定规划中的局部极小与收敛,数学。程序。,103, 3, 427-444 (2005) ·Zbl 1099.90040号 ·doi:10.1007/s10107-004-0564-1
[215] Ge,R.,Lee,J.D.,Ma,T.:通过景观设计学习单层神经网络(2017)。arXiv:1711.00501
[216] Gao,W.,Makkuva,A.V.,Oh,S.,Viswanath,P.:在一般输入分布下学习单层神经网络(2018)。arXiv:1810.04133
[217] Feizi,S.、Javadi,H.、Zhang,J.、Tse,D.:豪猪神经网络:(几乎)所有局部优化都是全局的(2017)。arXiv:1710.02196
[218] Panigrahy,R.,Rahimi,A.,Sachdeva,S.,Zhang,Q.:通过电动力学的神经网络收敛结果(2017)。arXiv:1702.00458
[219] Soltanolkotabi,M。;爪哇马德,A。;Lee,JD,超参数化浅层神经网络优化前景的理论见解,IEEE Trans。《信息论》,65,2742-769(2019)·兹比尔1428.68255 ·doi:10.1109/TIT.2018.2854560
[220] Soudry,D.,Hoffer,E.:多层神经网络中指数消失的次优局部极小值(2017)。arXiv公司:1702.05777
[221] Laurent,T.,von Brecht,J.:关系网络的多线性结构(2017)。arXiv:1712.10132号
[222] Tian,Y.:双层relu网络的种群梯度分析公式及其在收敛和临界点分析中的应用。见:《第34届国际机器学习会议记录》,第70卷,第3404-3413页。JMLR公司。组织(2017)
[223] Brutzkus,A.,Globerson,A.:具有高斯输入的卷积网络的全局最优梯度下降。摘自:第34届国际机器学习会议记录,第70卷,第605-614页(2017)
[224] Zhong,K.,Song,Z.,Jain,P.,Bartlett,P.L.,Dhillon,I.S.:单层神经网络的恢复保证。摘自:第34届国际机器学习会议记录,第70卷,第4140-4149页(2017)
[225] Li,Y.,Yuan,Y.:具有relu激活的两层神经网络的收敛性分析。摘自:《神经信息处理系统进展》,第597-607页(2017年)
[226] Brutzkus,A.,Globerson,A.,Malach,E.,Shalev-Shwartz,S.:Sgd学习在线性可分数据上可证明推广的过参数网络。学习代表国际会议(2018年)
[227] Wang,G.,Giannakis,G.B.,Chen,J.:线性可分数据上的学习relu网络:算法、优化和泛化(2018)。arXiv:1808.04685·Zbl 1458.68185号
[228] Zhang,X.,Yu,Y.,Wang,L.,Gu,Q.:通过梯度下降学习单层relu网络(2018)。arXiv公司:1806.07808
[229] Du,S.S.,Lee,J.D.:关于二次激活神经网络中过参数化的功效(2018年)。arXiv公司:1803.01206
[230] Oymak,S.,Soltanolkotabi,M.:走向适度超参数化:浅层神经网络训练的全局收敛保证(2019年)。arXiv公司:1902.04674
[231] Su,L.,Yang,P.:关于参数化神经网络的学习:一个函数逼近的前景。摘自:《神经信息处理系统进展》第2637-2646页(2019年)
[232] Janzamin,M.,Sedghi,H.,Anandkumar,A.:克服非凸性的危险:使用张量方法保证神经网络的训练(2015)。arXiv公司:1506.08473
[233] Mondelli,M.,Montanari,A.:关于学习双层神经网络和张量分解之间的联系(2018年)。arXiv公司:1802.07301
[234] Boob,D.,Lan,G.:双层神经网络全局优化器的理论性质(2017)。arXiv:1710.11241
[235] Du,S.S.,Lee,J.D.,Tian,Y.,Poczos,B.,Singh,A.:梯度下降学习单层CNN:不要害怕虚假的局部极小值(2017)。arXiv:1712.00779
[236] Vempala,S.,Wilmes,J.:训练单层神经网络的梯度下降多项式收敛性(2018)。arXiv:1805.02677
[237] Ge,R.,Kuditipudi,R.、Li,Z.、Wang,X.:学习具有对称输入的双层神经网络(2018)。arXiv公司:1810.06793
[238] Oymak,S.,Soltanolkotabi,M.:过度参数化非线性学习:梯度下降采用最短路径?(2018). arXiv公司:1812.10004
[239] Ju,S.:关于“可证明非凸方法/算法”的工作列表。https://sunju.org/research/nocovev/
[240] Leventhal,D。;Lewis,AS,线性约束的随机方法:收敛速度和条件,数学。操作。第35、3、641-654号决议(2010年)·Zbl 1216.15006号 ·doi:10.1287/门.1100.0456
[241] Nesterov,Y.,协调下降法在大规模优化问题上的效率,SIAM J.Optim。,22, 2, 341-362 (2012) ·Zbl 1257.90073号 ·数字对象标识代码:10.1137/100802001
[242] Johnson,R.,Zhang,T.:使用预测方差减少加速随机梯度下降。摘自:《神经信息处理系统进展》,第315-323页(2013年)
[243] Defazio,A.,Bach,F.,Lacoste Julien,S.:Saga:一种支持非强凸复合目标的快速增量梯度方法。摘自:《神经信息处理系统的进展》,第1646-1654页(2014年)
[244] 赖特,S。;Nocedal,J.,《数值优化》,《科学》,35,67-68,7(1999)·Zbl 0930.65067号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。