孙若瑜 深度学习优化:概述。 (英文) Zbl 1463.90212号 《运营杂志》。Res.Soc.中国 8,第2期,249-294(2020). 摘要:优化是深度学习的关键组成部分。由于各种原因,我们认为神经网络的优化是一个有趣的理论研究课题。首先,尽管它是非凸的,但它的可处理性是一个有趣的问题,可能会大大扩展我们对可处理问题的理解。其次,经典优化理论远远不足以解释许多现象。因此,我们希望从理论的角度理解挑战和机遇,并回顾该领域的现有研究。首先,我们讨论梯度爆炸/消失的问题和更普遍的不良谱问题,然后讨论实际的解决方案,包括仔细的初始化、归一化方法和跳跃连接。其次,我们回顾了用于训练神经网络的通用优化方法,如随机梯度下降法和自适应梯度法,以及现有的理论结果。第三,我们回顾了神经网络训练全局问题的现有研究,包括全局景观、模式连通性、彩票假设和神经切线核等方面的研究成果。 引用于5文件 MSC公司: 90立方 非线性规划 68问题32 计算学习理论 关键词:深度学习;非凸优化;神经网络;汇聚;景观 软件:神经切线;阿达德尔塔;单词2vec;RMS公司;新加坡元-QN;张紧器2传感器;亚当;手套;高效网络;新加坡存托凭证;达奇;传奇;AlexNet公司;阿达格拉德;ImageNet公司;BERT(误码率);Entropy-SGD公司 PDF格式BibTeX公司 XML格式引用 \textit{R.-Y.Sun},J.Oper。中国研究院8号,第2期,249--294(2020;Zbl 1463.90212) 全文: 内政部 参考文献: [1] Bertsekas,DP,非线性规划,J.Oper。Res.Soc.,48,3,334-334(1997)·doi:10.1057/palgrave.jors.2600425 [2] Sra,S。;Nowozin,S。;SJ Wright,《机器学习优化》(2012),剑桥:麻省理工学院出版社,剑桥 [3] 博图,L。;FE柯蒂斯;Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.,60,2,223-311(2018)·兹比尔1397.65085 ·doi:10.1137/16M1080173 [4] 古德费罗,I。;Y.本吉奥。;科尔维尔,A。;Bengio,Y.,《深度学习》(2016),剑桥:麻省理工学院出版社,剑桥·Zbl 1373.68009号 [5] Jakubovitz博士。;Giryes,R。;罗德里格斯,MRD;Boche,H。;Caire,G。;卡尔德班克,R。;Kutyniok,G。;Mathar,R.,深度学习中的泛化错误,压缩传感及其应用,153-193(2019),柏林:施普林格出版社,柏林·Zbl 1494.68240号 [6] Shamir,O.:一维深度线性神经网络梯度下降的指数收敛时间(2018)。arXiv公司:1809.08587 [7] 莱昂·博图:假释调查局。摘自:《神经尼姆学报》88,第197-218页。法国尼姆(1988)。http://leon.bottu.org/papers/bottou-88b [8] LeCun,Y。;博图,L。;Orr,GB;穆勒,K-R;蒙塔文,G。;Orr,GB;Müller,K-R,《高效反向支持》,《神经网络:交易技巧》,9-50(1998),柏林:施普林格出版社,柏林 [9] 通用电气公司Hinton;Salakhutdinov,RR,《用神经网络降低数据的维数》,《科学》,3135786504-507(2006)·Zbl 1226.68083号 ·doi:10.1126/science.1127647 [10] Erhan,D。;Y.本吉奥。;科尔维尔,A。;曼扎戈尔,P-A;文森特,P。;Bengio,S.,为什么无监督的预培训有助于深度学习?,J.马赫。学习。2010年2月11日第625-660号决议·Zbl 1242.68219号 [11] Glrot,X.,Bengio,Y.:理解训练深度前馈神经网络的困难。摘自:《第十三届国际人工智能与统计会议记录》,第249-256页(2010年) [12] Glrot,X.,Bordes,A.,Bengio,Y.:深度稀疏整流器神经网络。摘自:《第十四届国际人工智能与统计会议记录》,第315-323页(2011年) [13] He,K.,Zhang,X.,Ren,S.,Sun,J.:深入研究整流器:在图像网络分类方面超越人类水平的表现。摘自:IEEE计算机视觉国际会议记录,第1026-1034页(2015年)。https://openreview.net/forum?id=rkxQ-nA9FX公司 [14] Mishkin,D.,Matas,J.:你所需要的只是一个好的init(2015)。arXiv:1511.06422 [15] Saxe,A.M.,McClelland,J.L.,Ganguli,S.:深度线性神经网络学习非线性动力学的精确解(2013)。arXiv:1312.6120 [16] Poole,B.,Lahiri,S.,Raghu,M.,Sohl-Dickstein,J.,Ganguli,S.:通过瞬态混沌在深层神经网络中的指数表达性。摘自:《神经信息处理系统进展》,第3360-3368页(2016年) [17] Jacot,A.,Gabriel,F.,Hongler,C.:神经切线核:神经网络中的收敛和泛化。摘自:《神经信息处理系统进展》,第8571-8580页(2018年) [18] Hanin,B.,Rolnick,D.:如何开始培训:初始化和架构的影响。摘自:《神经信息处理系统进展》,第569-579页(2018年) [19] Orhan,A.E.,Pitkow,X.:跳过连接消除奇点(2017)。arXiv:1701.09175 [20] Pennington,J.,Schoenholz,S.,Ganguli,S.:通过动态等距恢复深度学习中的乙状结肠:理论与实践。摘自:《神经信息处理系统进展》,第4785-4795页(2017年) [21] Pennington,J.、Schoenholz,S.S.、Ganguli,S.:深网络中光谱普遍性的出现(2018)。arXiv公司:1802.09979 [22] Xiao,L.,Bahri,Y.,Sohl-Dickstein,J.,Schoenholz,S.S.,Pennington,J.:CNN的动态等距和平均场理论:如何训练10000层香草卷积神经网络(2018)。arXiv:1806.05393 [23] Li,P.,Nguyen,P.-M.:关于随机深部加权时间自编码器:精确渐近分析、相变和训练意义。参加:2019年(2019年)ICLR第七届国际学习代表大会https://openreview.net/forum?id=HJx54i05tX [24] Gilboa,D.,Chang,B.,Chen,M.,Yang,G.,Schoenholz,S.S.,Chi,E.H.,Pennington,J.:LSTM和GRU的动力学等距和平均场理论(2019)。arXiv公司:1901.08987 [25] Dauphin,Y.N.,Schoenholz,S.:Metainit:通过学习初始化来初始化学习。摘自:《神经信息处理系统进展》,第12624-12636页(2019年) [26] Ioffe,S.,Szegedy,C.:批量规范化:通过减少内部协变量偏移来加速深层网络培训(2015)。arXiv:1502.03167 [27] Santurkar,S.、Tsipras,D.、Ilyas,A.、Madry,A.:批处理规范化如何帮助优化?在:《神经信息处理系统的进展》,第2483-2493页(2018) [28] 比约克,N.,戈麦斯,C.P.,塞尔曼,B.,温伯格,K.Q.:理解批次标准化。摘自:神经信息处理系统进展,第7694-7705页(2018年) [29] Arora,S.,Li,Z.,Lyu,K.:通过批量归一化进行自动速率调整的理论分析。参加:国际学习代表大会(2019c)。https://openreview.net/forum?id=rkxQ-nA9FX公司 [30] Cai,Y.,Li,Q.,Shen,Z.:批量归一化对梯度下降影响的定量分析。摘自:机器学习国际会议,第882-890页(2019年) [31] Kohler,J.、Daneshmand,H.、Lucchi,A.、Hofmann,T.、Zhou,M.、Neymeyr,K.:批次标准化的指数收敛率:非凸优化中纵向解耦的威力。摘自:第22届国际人工智能与统计会议,第806-815页(2019年) [32] Ghorbani,B.,Krishnan,S.,Xiao,Y.:通过hessian特征值密度研究神经网络优化(2019)。arXiv:1901.10159 [33] Salimans,T.,Kingma,D.P.:权重归一化:一种简单的重新参数化,用于加速深度神经网络的训练。摘自:《神经信息处理系统进展》,第901-909页(2016年) [34] Ba,J.L.,Kiros,J.R.,Hinton,G.E.:层标准化(2016)。arXiv:1607.06450 [35] Ulyanov,D.,Vedaldi,A.,Lempitsky,V.:实例规范化:快速风格化的缺失要素(2016)。arXiv:1607.08022 [36] Wu,Y.,He,K.:集团规范化。摘自:《欧洲计算机视觉会议记录》,第3-19页(2018年) [37] Miyato,T.、Kataoka,T.,Koyama,M.、Yoshida,Y.:生成性对抗网络的频谱归一化(2018)。arXiv公司:1802.05957 [38] Luo,P.,Zhang,R.,Ren,J.,Peng,Z.,Li,J.:从学习到深度表征的可切换规范化。IEEE传输。模式分析。机器。智力。(2019) [39] Krizhevsky,A.,Sutskever,I.,Hinton,G.E.:基于深度卷积神经网络的Imagenet分类。摘自:《神经信息处理系统进展》,第1097-1105页(2012年) [40] Szegedy,C.、Liu,W.、Jia,Y.、Sermanet,P.、Reed,S.、Anguelov,D.、Erhan,D.、Vanhoucke,V.、Rabinovich,A.:用卷积深入研究。摘自:IEEE计算机视觉和模式识别会议记录,第1-9页(2015年) [41] He,K.,Zhang,X.,Ren,S.,Sun,J.:图像识别的深度剩余学习。摘自:IEEE计算机视觉和模式识别会议记录,第770-778页(2016) [42] Simonyan,K.,Zisserman,A.:用于大规模图像识别的极深卷积网络arXiv:1409.1556(2014) [43] Srivastava,R.K.,Greff,K.,Schmidhuber,J.:公路网(2015)。arXiv公司:1505.00387 [44] Huang,G.,Liu,Z.,Van Der Maaten,L.,Weinberger,K.Q.:紧密连接卷积网络。摘自:IEEE计算机视觉和模式识别会议记录,第4700-4708页(2017) [45] Xie,S.,Girshick,R.,DolláR,P.,Tu,Z.,He,K.:深层神经网络的聚合残差变换。摘自:IEEE计算机视觉和模式识别会议记录,第1492-1500页(2017年) [46] Zoph,B.,Le,Q.V.:神经架构搜索与强化学习(2016)。arXiv公司:1611.01578 [47] Yu,J.,Huang,T.:通过可精简网络进行网络精简:朝着一次性架构搜索频道数量的方向发展(2019)。arXiv:1903.11728年 [48] Tan,M.,Le,Q.V.:效率网:卷积神经网络模型缩放的再思考(2019)。arXiv:1905.11946年 [49] Hanin,B.:哪些神经网络架构会导致梯度的爆炸和消失?摘自:神经信息处理系统进展,第580-589页(2018年) [50] Tarnowski,W.,Warchoł,P.,Jastrzębski,S.,Tabor,J.:Nowak,Maciej:对于任何激活函数,动态等距是以通用方式在剩余网络中实现的。摘自:第22届国际人工智能与统计会议,第2221-2230页(2019年) [51] Yang,G.,Schoenholz,S.:平均场剩余网络:混沌边缘。摘自:《神经信息处理系统进展》,第7103-7114页(2017年) [52] Balduzzi,D.,Frean,M.,Leary,L.,Lewis,J.P.,Ma,K.W.-D.,McWilliams,B.:破碎梯度问题:如果resnet是答案,那么问题是什么?参见:第34届国际机器学习会议记录,第70卷,第342-350页。JMLR公司。组织(2017) [53] Zhang,H.,Dauphin,Y.N.,Ma,T.:修复初始化:无标准化的剩余学习(2019a)。arXiv:1901.09321 [54] Curtis,F.E.,Scheinberg,K.:监督机器学习的优化方法:从线性模型到深度学习。摘自:《信息社区的领先发展》,第89-114页。信息(2017) [55] Goyal,P.、Dollár,P.和Girshick,r.、Noordhuis,P.,Wesolowski,L.、Kyrola,A.、Tulloch,A.、Jia,Y.、He,K.:准确、大批量sgd:1小时内的训练图像网(2017)。arXiv公司:1706.02677 [56] Vaswani,A.、Shazeer,N.、Parmar,N.,Uszkoreit,J.、Jones,L.、Gomez,A.N.、Kaiser,Ł。,波洛什金:你所需要的就是专注。摘自:神经信息处理系统进展,第5998-6008页(2017) [57] Devlin,J.,Chang,M.-W.,Lee,K.,Toutanova,K.:伯特:语言理解的深层双向变形金刚预训练(2018)。arXiv:1810.04805 [58] Gotmare,A.、Keskar,N.S.、Xiong,C.、Socher,R.:深入研究深度学习启发式:学习速率重启、预热和蒸馏。参加:国际学习代表大会(2019年)。https://openreview.net/forum?id=r14EOsCqKX [59] Smith,法律公告:训练神经网络的循环学习率。2017年IEEE计算机视觉应用冬季会议,第464-472页。IEEE(2017) [60] Loshchilov,I.,Hutter,F.:Sgdr:带热重启的随机梯度下降(2016)。arXiv:1608.03983 [61] Smith,Negal,Topin,N.:超收敛:使用大学习率快速训练神经网络(2017)。arXiv:1708.07120 [62] Powell,MJD,共轭梯度法的重新启动程序,数学。程序。,12, 1, 241-254 (1977) ·Zbl 0396.90072号 ·doi:10.1007/BF01593790 [63] 奥多诺休,B。;Candes,E.,《加速梯度方案的自适应重启》,Found。计算。数学。,15, 3, 715-732 (2015) ·Zbl 1320.90061号 ·doi:10.1007/s10208-013-9150-3 [64] 罗,Z-Q,关于线性前馈网络自适应学习率lms算法的收敛性,神经计算。,3, 2, 226-245 (1991) ·doi:10.1162/neco.1991.3.2.226 [65] Schmidt,M.,Roux,法律公告:强增长条件下随机梯度下降的快速收敛(2013)。arXiv公司:1308.6370 [66] Vaswani,S.、Bach,F.、Schmidt,M.:超参数模型和加速感知器的sgd快速收敛(2018)。arXiv:1810.07288 [67] Liu,C.,Belkin,M.:Mass:一种用于过参数化学习的加速随机方法(2018b)。arXiv:1810.13395 [68] Bottou,L.,在线学习和随机近似,在线学习。神经网络。,17, 9, 142 (1998) ·Zbl 0968.68127号 [69] Ruder,Sebastian:梯度下降优化算法概述(2016)。arXiv公司:1609.04747 [70] Devolder,O。;Glineur,F。;Nesterov,Y.,带不精确预言的光滑凸优化的一阶方法,数学。程序。,146, 1-2, 37-75 (2014) ·Zbl 1317.90196号 ·doi:10.1007/s10107-013-0677-5 [71] Devolder,O.,Glineur,F.,Nesterov,Y.等人:具有不精确预言的一阶方法:强凸情形。编号:2013016。鲁汶天主教大学运营研究和计量经济中心(CORE),2013年·Zbl 1317.90196号 [72] Kidambi,R.、Netrapalli,P.、Jain,P.和Kakade,S.:关于随机优化现有动量方案的不足。参见:2018年信息理论与应用研讨会(ITA),第1-9页。IEEE(2018) [73] Lin,H.,Mairal,J.,Harchaoui,Z.:一级优化的通用催化剂。摘自:《神经信息处理系统进展》,第3384-3392页(2015年) [74] Allen-Zhu,Z.,Katyusha:随机梯度法的第一次直接加速,J.Mach。学习。研究,18,1,8194-8244(2017)·Zbl 1475.90044号 [75] Defazio,A.,Bottou,L.:关于方差减少优化对深度学习的无效性。摘自:《神经信息处理系统进展》,第1753-1763页(2019年) [76] Jain,P.、Kakade,S.M.、Kidambi,R.、Netrapali,P.、Sidford,A.:加速随机梯度下降(2017)。arXiv:1704.08227·Zbl 1469.68088号 [77] Liu,C.,Belkin,M.:加速超参数学习的sgd(2018)arXiv:1810.13395 [78] 卡蒙,Y。;杜奇,JC;Hinder,O。;Sidford,A.,非凸优化的加速方法,SIAM J.Optim。,28, 2, 1751-1772 (2018) ·Zbl 1400.90250号 ·doi:10.1137/17M1114296 [79] Carmon,Y.,Duchi,J.C.,Hinder,O.,Sidford,A.:证明有罪之前是凸的:非凸函数上梯度下降的无量纲加速。收录于:《第34届国际机器学习大会论文集》,第70卷,第654-663页(2017) [80] Xu,Y.,Rong,Jing,Y.和Tianbao:在几乎线性时间内逃离鞍点的一阶随机算法。摘自:《神经信息处理系统进展》,第5535-5545页(2018年) [81] Fang,C.,Li,C.J.,Lin,Z.,Zhang,T.:蜘蛛:通过随机路径积分微分估计的近最优非凸优化。摘自:神经信息处理系统进展,第687-697页(2018年) [82] Allen-Zhu,Z.:Natasha 2:比sgd更快的非凸优化。摘自:《神经信息处理系统进展》,第2680-2691页(2018年) [83] 杜奇,J。;哈赞,E。;Singer,Y.,在线学习和随机优化的自适应次梯度方法,J.Mach。学习。2011年7月12日第2121-2159号决议·Zbl 1280.68164号 [84] Tieleman,T。;Hinton,G.,讲座6.5-rmsrop:将梯度除以最近震级的运行平均值,COURSERA神经网络。机器。学习。,4, 2, 26-31 (2012) [85] Kingma,D.P.,Ba,J.:亚当:随机优化方法(2014)。arXiv:1412.6980 [86] 医学博士Zeiler:Adadelta:一种自适应学习率方法(2012年)。arXiv:1212.5701 [87] Dozat,T.,Adam,I.N.:学习代表国际会议。研讨会(ICLRW)(第1-6页)。In:《将内斯特罗夫动量纳入亚当的程序》(2016) [88] Mikolov,T.,Chen,K.,Corrado,G.,Dean,J.:向量空间中单词表示的有效估计(2013)。arXiv:1301.3781 [89] Pennington,J.,Socher,R.,Manning,C.:手套:单词表示的全局向量。摘自:《2014年自然语言处理实证方法会议论文集》,第1532-1543页(2014) [90] Wilson,A.C.、Roelofs,R.、Stern,M.、Srebro,N.、Recht,B.:机器学习中自适应梯度方法的边际值。摘自:《神经信息处理系统进展》,第4148-4158页(2017年) [91] Keskar,N.S.、Socher,R.:通过从adam切换到sgd来提高泛化性能(2017)。arXiv:1712.07628 [92] Sivaprasad,P.T.,Mai,F.,Vogels,T.,Jaggi,M.,Fleuret,F.:关于深度学习中优化器的可调性(2019)。arXiv:1910.11758年 [93] Reddi,S.J.,Kale,S.,Kumar,S.:关于亚当及其后的收敛。参加:学习代表国际会议(2018年) [94] Chen,X.,Liu,S.,Sun,R.,Hong,M.:关于非凸优化的一类adam型算法的收敛性(2018)。arXiv:1808.02941 [95] Zhou,D.、Tang,Y.、Yang,Z.、Cao,Y.和Gu,Q.:关于非凸优化自适应梯度方法的收敛性(2018)。arXiv:1808.05671 [96] Zou,F.,Shen,L.:关于训练深度神经网络的adagrad与动量的收敛性(2018)。arXiv:1808.03408 [97] De,S.,Mukherjee,A.,Ullah,E.:RMSProp和ADAM在非凸优化中的收敛保证,以及与Nesterov加速度的经验比较(2018)arXiv:1807.06766 [98] 邹飞、沈立、杰、Z、张、我们、。,Liu,W.:adam和rmsprop收敛的一个充分条件(2018b)。arXiv公司:1811.09358 [99] Ward,R.,Wu,X.,Bottou,L.:Adagrad步长:从任何初始化开始,非凸景观上的急剧收敛(2018)。arXiv:1806.01811年 [100] Barakat,A.,Bianchi,P.:非凸优化中具有自适应步长的动量算法的收敛性分析(2019)。arXiv:1911.07596号 [101] Bertsekas,D.P.,Tsitsiklis,J.N:并行和分布式计算:数值方法,第23卷。普伦蒂斯·霍尔(Prentice Hall),恩格尔伍德悬崖(Englewood Cliffs)(1989年)·Zbl 0743.65107号 [102] Smith,S.L.,Kindermans,P.-J.,Le,Q.V.:不要降低学习率,增加批量。参加:学习代表国际会议(2018年)。https://openreview.net/论坛?id=B1Yy1BxCZ [103] Akiba,T.、Suzuki,S.、Fukuda,K.:超大迷你批次sgd:15分钟内在imagenet上训练resnet-50(2017)。arXiv:1711.04325 [104] Jia,X.,Song,S.,He,W.,Wang,Y.,Rong,H.,Zhou,F.,Xie,L.,Guo,Z.,Yang,Y.Y.,Yu,L.等:具有混合决策的高度可扩展的深度学习培训系统:四分钟内的培训图像网(2018)。arXiv:1807.11205 [105] Mikami,H.、Suganuma,H.,Tanaka,Y.、Kageyama,Y.等人:大规模分布的sgd:Imagenet/resnet-50培训(2018年)。arXiv:1811.05233号 [106] Ying,C.,Kumar,S.,Chen,D.,Wang,T.,Cheng,Y.:超级计算机规模下的图像分类(2018)。arXiv公司:1811.06992 [107] Yamazaki,M.、Kasagi,A.、Tabuchi,A.、Honda,T.、Miwa,M.,Fukumoto,N.、Tabaru,T.,Ike,A.、Nakashima,K.:另一个加速的sgd:Resnet-50在imagenet上的训练时间为74.7秒(2019年)。arXiv:1903.12650 [108] You,Y.,Zhang,Z.,Hsieh,C.-J.,Demmel,J.,Keutzer,K.:Imagenet训练分钟数。摘自:第47届并行处理国际会议记录,第1页。ACM(2018) [109] Yuan,Y.,梯度法的步长,AMS IP Stud.Adv.Math。,42, 2, 785 (2008) ·Zbl 1172.90509号 [110] Barzilai,J。;Borwein,JM,两点步长梯度法,IMA J.Numer。分析。,8, 1, 141-148 (1988) ·Zbl 0638.65055号 ·doi:10.1093/imanum/8.1.141 [111] Becker,S.,Le Cun,Y.等人:用二阶方法改进反向传播学习的收敛性。收录于:《1988年康涅狄格州示范暑期学校学报》,第29-37页(1988) [112] Bordes,A。;博图,L。;Gallinari,P.,Sgd-qn:谨慎的准牛顿随机梯度下降,J.Mach。学习。1737-1754年7月10日决议(2009年)·兹比尔1235.68130 [113] 乐村,YA;博图,L。;Orr,GB;穆勒,K-R;蒙塔文,G。;Orr,GB;Müller,K-R,《高效支持》,《神经网络:贸易的诡计》,9-48(2012),柏林:施普林格出版社,柏林 [114] Schaul,T.、Zhang,S.、LeCun,Y.:不再有令人讨厌的学习率。摘自:机器学习国际会议,第343-351页(2013) [115] Tan,C.,Ma,S.,Dai,Y.-H.,Qian,Y.:随机梯度下降的Barzilai-borwein步长。摘自:《神经信息处理系统进展》,第685-693页(2016年) [116] Orabona,F.,Tommasi,T.:通过投币来训练深度网络,而不需要学习速度。摘自:《神经信息处理系统进展》,第2160-2170页(2017年) [117] Martens,J.,通过无粗麻布优化的深度学习,ICML,27335-742(2010) [118] Pearlmutter,BA,麻布的快速精确乘法,神经计算。,6, 1, 147-160 (1994) ·doi:10.1162/neco.1996.1.147 [119] Schraudolph,NN,二阶梯度下降的快速曲率矩阵向量积,神经计算。,14, 7, 1723-1738 (2002) ·Zbl 1037.68119号 ·doi:10.1162/08997660260028683 [120] Berahas,A.S.、Jahani,M.、Takáč,M.:深度学习的准纽顿方法:忘记过去,只是样本(2019年)。arXiv:1901.09997 [121] 阿玛里,S-I;帕克,H。;Fukumizu,K.,多层感知器实现自然梯度学习的自适应方法,神经计算。,12, 6, 1399-1409 (2000) ·doi:10.11162/089977600300015420 [122] Martens,J.:关于自然梯度法的新见解和观点(2014年)。arXiv:1412.1193 [123] 阿玛里,S。;长冈,H.,《信息几何方法》(2007),普罗维登斯:美国数学学会,普罗维登斯 [124] Martens,J.,Grosse,R.:用kronecker-factor近似曲率优化神经网络。摘自:机器学习国际会议,第2408-2417页(2015) [125] Osawa,K.、Tsuji,Y.、Ueno,Y.,Naruse,A.、Yokota,R.、Matsuoka,S.:大型迷你背带的二阶优化方法:35个时期内在imagenet上训练resnet-50(2018)。arXiv:1811.12019年 [126] Anil,R.,Gupta,V.,Koren,T.,Regan,K.,Singer,Y.:二阶优化变得实用(2020年)。arXiv:2002.09018号 [127] Gupta,V.,Koren,T.,Singer,Y.:洗发水:预处理随机张量优化(2018)。arXiv:1802.09568 [128] Vidal,R.、Bruna,J.、Giryes,R.和Soatto,S.:深度学习数学(2017)。arXiv公司:1712.04741 [129] 卢,C。;邓,Z。;周,J。;Guo,X.,基于敏感特征向量的二次约束二次规划全局算法,J.Glob。最佳。,73, 1-18 (2019) ·兹比尔1421.90106 ·doi:10.1007/s10898-018-0726-y [130] 费雷拉,OP;Németh,SZ,关于二次函数的球面凸性,J.Glob。最佳。,73, 3, 537-545 (2019) ·Zbl 1434.90133号 ·doi:10.1007/s10898-018-0710-6 [131] Chi,Y。;Lu,YM;Chen,Y.,非凸优化满足低秩矩阵分解:概述,IEEE Trans。信号处理。,67,20,5239-5269(2019)·Zbl 07123429号 ·doi:10.1109/TSP.2019.2937282 [132] Dauphin,Y.N.,Pascanu,R.,Gulcehre,C.,Cho,K.,Ganguli,S.,Bengio,Y.:识别和解决高维非凸优化中的鞍点问题。摘自:《神经信息处理系统进展》,第2933-2941页(2014年) [133] Goodfellow,I.J.,Vinyals,O.,Saxe,A.M.:定性描述神经网络优化问题(2014)。arXiv:1412.6544 [134] Poggio,T.,Liao,Q.:理论II:深度学习中的经验风险景观。博士论文,大脑、思维和机器中心(CBMM)(2017年)。arXiv:1703.09833号 [135] Li,H.,Xu,Z.,Taylor,G.,Studer,C.,Goldstein,T.:可视化神经网络的损失景观。摘自:神经信息处理系统进展,第6391-6401页(2018b) [136] Baity-Jesi,M.、Sagun,L.、Geiger,M.,Spigler,S.、Arous,G.B.、Cammarota,C.、LeCun,Y.、Wyart,M.和Biroli,G.:比较动力学:深层神经网络与玻璃系统(2018)。arXiv公司:1803.06969 [137] Franz,S.,Hwang,S.,Urbani,P.:多层监督学习模型中的干扰(2018)。arXiv:1809.09945 [138] Geiger,M.、Spigler,S.、d'Ascoli,S.,Sagun,L.、Baity-Jesi,M.,Biroli,G.、Wyart,M.:干扰过渡作为理解深层神经网络损失前景的范例(2018)。arXiv公司:1809.09349 [139] Draxler,F.、Veschgini,K.、Salmhofer,M.、Hamprecht,F.A.:神经网络能源领域基本上没有障碍(2018)arXiv:1803.00885 [140] Garipov,T.、Izmailov,P.、Podoprikhin,D.、Vetrov,D.P.、Wilson,A.G.:DNNS的损耗表面、模式连接性和快速集成。摘自:《神经信息处理系统进展》,第8789-8798页(2018年) [141] Freeman,C.D.,Bruna,J.:半整流网络优化的拓扑和几何(2016)。arXiv:1611.01540 [142] Nguyen,Q.:深度学习中的连通子层集(2019b)。arXiv公司:1901.07417 [143] Kuditipudi,R.,Wang,X.,Lee,H.,Zhang,Y.,Li,Z.,Hu,W.,Arora,S.,Ge,R.:解释多层网络低成本解决方案的景观连通性(2019)。阿西夫:1906.06247 [144] Han,S.,Mao,H.,Dally,W.J.:深度压缩:使用修剪、训练量化和哈夫曼编码压缩深度神经网络(2015)。arXiv:1510.00149 [145] Liu,Z.,Sun,M.,Zhou,T.,Huang,G.,Darrell,T.:重新思考网络修剪的价值(2018)。arXiv:1810.05270 [146] Lee,N.,Ajanthan,T.,Torr,P.:SNIP:基于连接敏感性的单发网络修剪。参加:国际学习代表大会(2019b)。https://openreview.net/forum?id=B1VZqjAcYX [147] Frankle,J.、Dziugaite,G.K.、Roy,D.M.、Carbin,M.:规模彩票假设(2019年)。arXiv:1903.01611年 [148] Frankle,J.,Carbin,M.:彩票假设:发现稀疏、可训练的神经网络(2018)。arXiv公司:1803.03635 [149] 周,H.,兰,J.,刘,R.,约辛斯基,J.:解构彩票:零、符号和超人面具(2019)。arXiv:1905.01067年 [150] Morcos,A.S.,Yu,H.,Paganini,M.,Tian,Y.:一票全胜:跨数据集和优化器推广彩票初始化(2019年)。arXiv:1906.02773号 [151] Tian,Y.,Jiang,T.,Gong,Q.,Morcos,A.:运气很重要:了解深度关系网络的培训动态(2019年)。arXiv:1905.13405 [152] Hochreiter,S。;Schmidhuber,J.,平面极小值,神经计算。,9, 1, 1-42 (1997) ·Zbl 0872.68150号 ·doi:10.1162/neco.1997.9.1.1 [153] Keskar,N.S.、Mudigere,D.、Nocedal,J.、Smelyanskiy,M.、Tang,P.T.P.:关于深度学习的大范围训练:泛化差距和显著极小值(2016)。arXiv:1609.04836 [154] Dinh,L.,Pascanu,R.,Bengio,S.,Bengino,Y.:尖锐极小值可以推广到深网。摘自:第34届国际机器学习会议记录,第70卷,第1019-1028页(2017) [155] Neyshabur,B.,Salakhuttinov,R.R.,Srebro,N.:路径sgd:深度神经网络中的路径归一化优化。摘自:《神经信息处理系统进展》,第2422-2430页(2015年) [156] Yi,M.,Meng,Q.,Chen,W.,Ma,Z.,Liu,T.-Y.:相对神经网络的正尺度-变平坦度(2019)。arXiv:1903.02237 [157] He,H.,Huang,G.,Yuan,Y.:不对称山谷:超越尖锐和平坦的局部极小值(2019年)。arXiv:1902.00744号 [158] Chaudhari,P.、Choromanska,A.、Soatto,S.、LeCun,Y.、Baldassi,C.、Borgs,C.、Chayes,J.、Sagun,L.、Zecchina,R.:Entropy-sgd:向宽山谷倾斜梯度下降(2016)。arXiv:1611.01838年 [159] Kawaguchi,K.:深度学习,没有糟糕的局部最低要求。摘自:《神经信息处理系统进展》,第586-594页(2016年) [160] Lu,H.,Kawaguchi,K.:深度创造了良好的局部极小值(2017)。arXiv:1702.08580 [161] Laurent,T.,Brecht,J.:具有任意损失的深线性网络:所有局部极小值都是全局的。在:国际机器学习会议,第2908-2913页(2018) [162] Nouiehed,M.,Razaviyayn,M.:学习深层模型:关键点和地方开放(2018)。arXiv公司:1803.02968 [163] 张,L.:深度不再创造虚假的局部极小值(2019)。arXiv:1901.09827 [164] Yun,C.,Sra,S.,Jadbabaie,A.:深层神经网络的全局最优条件(2017)。arXiv公司:1707.02444 [165] 周瑜、梁瑜:线性神经网络的临界点:分析形式和景观特性(2018)arXiv:1710.11205 [166] Livni,R.,Shalev-Shwartz,S.,Shamir,O.:关于训练神经网络的计算效率。摘自:《神经信息处理系统进展》,第855-863页(2014年) [167] Neyshabur,B.,Bhojanapalli,S.,McAllester,D.,Srebro,N.:探索深度学习中的泛化。摘自:《神经信息处理系统进展》,第5947-5956页(2017年) [168] Zhang,C.,Bengio,S.,Hardt,M.,Recht,B.,Vinyals,O.:理解深度学习需要重新思考泛化(2016)。arXiv公司:1611.03530 [169] Nguyen,Q.、Mukkamala,M.C.、Hein,M.:关于一类无不良局部山谷的深度神经网络的损失情况(2018年)。arXiv公司:1809.10749 [170] Li,Dawei,D.,Tian,S.,Ruoyu:超参数深度神经网络对于任何连续激活都没有严格的局部极小值(2018a)。arXiv:1812.11039年 [171] Yu,X。;Pasupathy,S.,基于创新的瑞利平坦衰落信道MLSE,IEEE Trans。社区。,43, 1534-1544 (1995) ·doi:10.1109/26.380203 [172] Ding,T.,Li,D.,Sun,R.:几乎所有过参数化神经网络都存在次优局部极小值。在线优化(2019)arXiv:1911.01413 [173] Bartlett,P.L.,Foster,D.J.,Telgarsky,M.J.:神经网络的光谱规范化边界。摘自:《神经信息处理系统进展》,第6240-6249页(2017年) [174] Wei,C.,Lee,J.D.,Liu,Q.,Ma,T.:关于前馈神经网络的边际理论(2018)。arXiv:1810.05369 [175] Wu,L.,Zhu,Z.,et al.:走向理解深度学习的泛化:损失景观的视角(2017)。arXiv:1706.10239 [176] Belkin,M.,Hsu,D.,Ma,S.,Mandal,S.:调和现代机器学习和偏差-方差权衡(2018)。arXiv:1812.11118年·Zbl 1433.68325号 [177] Mei,S.,Montanari,A.:随机特征回归的泛化误差:精确渐近和双下降曲线(2019)。arXiv:1908.05355 [178] Liang,S.,Sun,R.,Lee,J.D.,Srikant,R.:添加一个神经元可以消除所有不良的局部极小值。摘自:《神经信息处理系统进展》,第4355-4365页(2018a) [179] Kawaguchi,K.,Kaelbling,L.P.:消除深度学习中的所有不良局部极小值(2019年)。arXiv:1901.00279·兹比尔1494.68241 [180] Liang,S.,Sun,R.,Srikant,R.:重新审视深层神经网络中的景观分析:消除通向无穷大的递减路径(2019年)。arXiv:1912.13472 [181] Shalev-Shwartz,S.、Shamir,O.、Shammah,S.:基于梯度的深度学习的失败。见:《第34届国际机器学习会议记录》,第70卷,第3067-3075页。JMLR公司。组织(2017) [182] Swirszcz,G.、Czarnecki,W.M.、Pascanu,R.:深层网络培训中的局部极小值(2016)。arXiv公司:1611.06310 [183] 周瑜、梁瑜:神经网络的关键点:分析形式和景观特性(2017)。arXiv:1710.11205 [184] Safran,I.,Shamir,O.:伪局部极小值在双层relu神经网络中很常见(2017)。arXiv公司:1712.08968 [185] Venturi,L.,Bandeira,A.,Bruna,J.:双层神经网络优化环境中的虚假谷(2018b)。arXiv公司:1802.06384·Zbl 1434.68464号 [186] Liang,S.,Sun,R.,Li,Y.,Srikant,R.:了解二元分类神经网络的损失面(2018b)。arXiv公司:1803.00909 [187] Yun,C.,Sra,S.,Jadbabaie,A.:激活函数中的小非线性会在神经网络中产生坏的局部极小值(2018年)。arXiv公司:1802.03487 [188] Bartlett,P.,Helmbold,D.,Long,P.:带有身份初始化的梯度下降有效地学习正定线性变换。摘自:机器学习国际会议,第520-529页(2018年) [189] Arora,S.、Cohen,N.、Golowich,N.和Hu,W.:深度线性神经网络梯度下降的收敛性分析(2018)。arXiv:1810.02281 [190] Ji,Z.,Telgarsky,M.:梯度下降使深层线性网络层对齐(2018)。arXiv:1810.02032 [191] Du,S.S.,Lee,J.D.,Li,H.,Wang,L.,Zhai,X.:梯度下降发现深层神经网络的全局极小值(2018)。arXiv:1811.03804年 [192] Yang,G.:具有权重分担的宽神经网络的缩放极限:高斯过程行为、梯度独立性和神经切线核推导(2019年)。arXiv:1902.04760 [193] Novak,R.、Xiao,L.、Bahri,Y.、Lee,J.、Yang,G.、Abolafia,D.A.、Pennington,J.和Sohl-dickstein,J.:具有多个信道的贝叶斯深度卷积网络是高斯过程。参加:国际学习代表大会(2019a)。https://openreview.net/forum?id=B1g30j0qF7 [194] Allen-Zhu,Z.,Li,Y.,Song,Z.:通过过度参数化实现深度学习的收敛理论(2018)。arXiv:1811.03962 [195] 邹,D.,曹,Y.,周,D.,顾,Q.:随机梯度下降优化了过参数化深relu网络(2018a)。arXiv:1811.08888·Zbl 1494.68245号 [196] Li,Y.,Liang,Y.:通过结构化数据上的随机梯度下降学习超参数神经网络。在:《神经信息处理系统的进展》,第8168-8177页(2018) [197] Arora,S.,Du,S.S.,Hu,W.,Li,Z.,Salakhutdinov,R.,Wang,R.:关于无限宽神经网络的精确计算(2019a)。arXiv:1904.11955年 [198] Zhang,H.,Yu,D.,Chen,W.,Liu,T.-Y.:训练过参数化的深层网络几乎与训练双层网络一样容易(2019b)。arXiv:1903.07120号 [199] Ma,C.,Wu,L.等人:带跳跃连接的深度神经网络模型的梯度下降算法分析(2019年)。arXiv:1904.05263 [200] Li,Z.,Wang,R.,Yu,D.,Du,S.S.,Hu,W.,Salakhutdinov,R.和Arora,S.:增强卷积神经切线核(2019)arXiv:1806.05393 【201】 Arora,S.、Du,S.S.、Li,Z.、Salakhutdinov,R.、Wang,R.和Yu,D.:在小数据任务中利用无限宽深网的能力(2019b)。arXiv:1910.01663 [202] Novak,R.、Xiao,L.、Hron,J.、Lee,J.,Alemi,A.A.、Sohl-Dickstein,J.和Schoenholz,S.S.:神经切线:快速简单的蟒蛇无限神经网络(2019b)。arXiv:1912.02803号 [203] Lee,J.、Xiao,L.、Schoenholz,S.、Bahri,Y.、Novak,R.、Sohl-Dickstein,J.和Pennington,J.:任意深度的宽神经网络在梯度下降下演化为线性模型。在:神经信息处理系统的进展,第8570-8581页(2019a) [204] Sirignano,J.,Spiliopoulos,K.:深层神经网络的平均场分析(2019)。arXiv公司:1903.04440·Zbl 1441.60022号 [205] Araujo,D.,Oliveira,R.I.,Yukimura,D.:某些深层神经网络的平均场极限(2019)arXiv:1900.0193 [206] Nguyen,P.-M.:多层神经网络学习动力学的平均场极限(2019a)。arXiv:1902.02880 [207] Mei,S.,Montanari,A.,Nguyen,P.-M.:两层神经网络景观的平均视野(2018)。arXiv:1804.06561·Zbl 1416.92014号 [208] Sirignano,J.,Spiliopoulos,K.:神经网络的平均场分析(2018)。arXiv:1805.01053号·Zbl 1441.60022号 [209] Rotskoff,G.M.,Vanden Eijnden,E.:作为相互作用粒子系统的神经网络:损失景观的渐近凸性和近似误差的普遍标度(2018)。arXiv公司:1805.00915 [210] Chizat,L.,Oyallon,E.,Bach,F.:关于使用最优传输的超参数模型梯度下降的全局收敛性。摘自:神经信息处理系统进展,第3040-3050页(2018年) [211] Williams,F.,Trager,M.,Silva,C.,Panozzo,D.,Zorin,D.,Bruna,J.:浅层单变量relu网络的梯度动力学,收录:神经信息处理系统的进展,第8376-8385页(2019) [212] Venturi,L.,Bandeira,A.,Bruna,J.:具有有限内在维数的神经网络没有虚假谷(2018a)。arXiv:1802.06384。15 [213] Haeffele,B.D.,Vidal,R.:神经网络训练中的全局优化。摘自:IEEE计算机视觉和模式识别会议记录,第7331-7339页(2017年) [214] Burer,S。;Monteiro,RDC,低秩半定规划中的局部极小与收敛,数学。程序。,103, 3, 427-444 (2005) ·Zbl 1099.90040号 ·doi:10.1007/s10107-004-0564-1 [215] Ge,R.,Lee,J.D.,Ma,T.:通过景观设计学习单层神经网络(2017)。arXiv:1711.00501 [216] Gao,W.,Makkuva,A.V.,Oh,S.,Viswanath,P.:在一般输入分布下学习单层神经网络(2018)。arXiv:1810.04133 [217] Feizi,S.、Javadi,H.、Zhang,J.、Tse,D.:豪猪神经网络:(几乎)所有局部优化都是全局的(2017)。arXiv:1710.02196 [218] Panigrahy,R.,Rahimi,A.,Sachdeva,S.,Zhang,Q.:通过电动力学的神经网络收敛结果(2017)。arXiv:1702.00458 [219] Soltanolkotabi,M。;爪哇马德,A。;Lee,JD,超参数化浅层神经网络优化前景的理论见解,IEEE Trans。《信息论》,65,2742-769(2019)·兹比尔1428.68255 ·doi:10.1109/TIT.2018.2854560 [220] Soudry,D.,Hoffer,E.:多层神经网络中指数消失的次优局部极小值(2017)。arXiv公司:1702.05777 [221] Laurent,T.,von Brecht,J.:关系网络的多线性结构(2017)。arXiv:1712.10132号 [222] Tian,Y.:双层relu网络的种群梯度分析公式及其在收敛和临界点分析中的应用。见:《第34届国际机器学习会议记录》,第70卷,第3404-3413页。JMLR公司。组织(2017) [223] Brutzkus,A.,Globerson,A.:具有高斯输入的卷积网络的全局最优梯度下降。摘自:第34届国际机器学习会议记录,第70卷,第605-614页(2017) [224] Zhong,K.,Song,Z.,Jain,P.,Bartlett,P.L.,Dhillon,I.S.:单层神经网络的恢复保证。摘自:第34届国际机器学习会议记录,第70卷,第4140-4149页(2017) [225] Li,Y.,Yuan,Y.:具有relu激活的两层神经网络的收敛性分析。摘自:《神经信息处理系统进展》,第597-607页(2017年) [226] Brutzkus,A.,Globerson,A.,Malach,E.,Shalev-Shwartz,S.:Sgd学习在线性可分数据上可证明推广的过参数网络。学习代表国际会议(2018年) [227] Wang,G.,Giannakis,G.B.,Chen,J.:线性可分数据上的学习relu网络:算法、优化和泛化(2018)。arXiv:1808.04685·Zbl 1458.68185号 [228] Zhang,X.,Yu,Y.,Wang,L.,Gu,Q.:通过梯度下降学习单层relu网络(2018)。arXiv公司:1806.07808 [229] Du,S.S.,Lee,J.D.:关于二次激活神经网络中过参数化的功效(2018年)。arXiv公司:1803.01206 [230] Oymak,S.,Soltanolkotabi,M.:走向适度超参数化:浅层神经网络训练的全局收敛保证(2019年)。arXiv公司:1902.04674 [231] Su,L.,Yang,P.:关于参数化神经网络的学习:一个函数逼近的前景。摘自:《神经信息处理系统进展》第2637-2646页(2019年) [232] Janzamin,M.,Sedghi,H.,Anandkumar,A.:克服非凸性的危险:使用张量方法保证神经网络的训练(2015)。arXiv公司:1506.08473 [233] Mondelli,M.,Montanari,A.:关于学习双层神经网络和张量分解之间的联系(2018年)。arXiv公司:1802.07301 [234] Boob,D.,Lan,G.:双层神经网络全局优化器的理论性质(2017)。arXiv:1710.11241 [235] Du,S.S.,Lee,J.D.,Tian,Y.,Poczos,B.,Singh,A.:梯度下降学习单层CNN:不要害怕虚假的局部极小值(2017)。arXiv:1712.00779 [236] Vempala,S.,Wilmes,J.:训练单层神经网络的梯度下降多项式收敛性(2018)。arXiv:1805.02677 [237] Ge,R.,Kuditipudi,R.、Li,Z.、Wang,X.:学习具有对称输入的双层神经网络(2018)。arXiv公司:1810.06793 [238] Oymak,S.,Soltanolkotabi,M.:过度参数化非线性学习:梯度下降采用最短路径?(2018). arXiv公司:1812.10004 [239] Ju,S.:关于“可证明非凸方法/算法”的工作列表。https://sunju.org/research/nocovev/ [240] Leventhal,D。;Lewis,AS,线性约束的随机方法:收敛速度和条件,数学。操作。第35、3、641-654号决议(2010年)·Zbl 1216.15006号 ·doi:10.1287/门.1100.0456 [241] Nesterov,Y.,协调下降法在大规模优化问题上的效率,SIAM J.Optim。,22, 2, 341-362 (2012) ·Zbl 1257.90073号 ·数字对象标识代码:10.1137/100802001 [242] Johnson,R.,Zhang,T.:使用预测方差减少加速随机梯度下降。摘自:《神经信息处理系统进展》,第315-323页(2013年) [243] Defazio,A.,Bach,F.,Lacoste Julien,S.:Saga:一种支持非强凸复合目标的快速增量梯度方法。摘自:《神经信息处理系统的进展》,第1646-1654页(2014年) [244] 赖特,S。;Nocedal,J.,《数值优化》,《科学》,35,67-68,7(1999)·Zbl 0930.65067号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。