文件Zbl 1463.90212-zbMATH Open

深度学习优化：概述。（英文） Zbl 1463.90212号

《运营杂志》。Res.Soc.中国 8，第2期，249-294（2020）.

摘要：优化是深度学习的关键组成部分。由于各种原因，我们认为神经网络的优化是一个有趣的理论研究课题。首先，尽管它是非凸的，但它的可处理性是一个有趣的问题，可能会大大扩展我们对可处理问题的理解。其次，经典优化理论远远不足以解释许多现象。因此，我们希望从理论的角度理解挑战和机遇，并回顾该领域的现有研究。首先，我们讨论梯度爆炸/消失的问题和更普遍的不良谱问题，然后讨论实际的解决方案，包括仔细的初始化、归一化方法和跳跃连接。其次，我们回顾了用于训练神经网络的通用优化方法，如随机梯度下降法和自适应梯度法，以及现有的理论结果。第三，我们回顾了神经网络训练全局问题的现有研究，包括全局景观、模式连通性、彩票假设和神经切线核等方面的研究成果。

引用于5文件

MSC公司：

90立方	非线性规划
68问题32	计算学习理论

关键词：

深度学习;非凸优化;神经网络;汇聚;景观

软件：

神经切线;阿达德尔塔;单词2vec;RMS公司;新加坡元-QN;张紧器2传感器;亚当;手套;高效网络;新加坡存托凭证;达奇;传奇;AlexNet公司;阿达格拉德;ImageNet公司;BERT（误码率）;Entropy-SGD公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Bertsekas，DP，非线性规划，J.Oper。Res.Soc.，48，3，334-334（1997）·doi:10.1057/palgrave.jors.2600425
[2]	Sra，S。；Nowozin，S。；SJ Wright，《机器学习优化》（2012），剑桥：麻省理工学院出版社，剑桥
[3]	博图，L。；FE柯蒂斯；Nocedal，J.，《大规模机器学习的优化方法》，SIAM Rev.，60，2，223-311（2018）·兹比尔1397.65085 ·doi:10.1137/16M1080173
[4]	古德费罗，I。；Y.本吉奥。；科尔维尔，A。；Bengio，Y.，《深度学习》（2016），剑桥：麻省理工学院出版社，剑桥·Zbl 1373.68009号
[5]	Jakubovitz博士。；Giryes，R。；罗德里格斯，MRD；Boche，H。；Caire，G。；卡尔德班克，R。；Kutyniok，G。；Mathar，R.，深度学习中的泛化错误，压缩传感及其应用，153-193（2019），柏林：施普林格出版社，柏林·Zbl 1494.68240号
[6]	Shamir，O.：一维深度线性神经网络梯度下降的指数收敛时间（2018）。arXiv公司：1809.08587
[7]	莱昂·博图：假释调查局。摘自：《神经尼姆学报》88，第197-218页。法国尼姆（1988）。http://leon.bottu.org/papers/bottou-88b
[8]	LeCun，Y。；博图，L。；Orr，GB；穆勒，K-R；蒙塔文，G。；Orr，GB；Müller，K-R，《高效反向支持》，《神经网络：交易技巧》，9-50（1998），柏林：施普林格出版社，柏林
[9]	通用电气公司Hinton；Salakhutdinov，RR，《用神经网络降低数据的维数》，《科学》，3135786504-507（2006）·Zbl 1226.68083号 ·doi:10.1126/science.1127647
[10]	Erhan，D。；Y.本吉奥。；科尔维尔，A。；曼扎戈尔，P-A；文森特，P。；Bengio，S.，为什么无监督的预培训有助于深度学习？，J.马赫。学习。2010年2月11日第625-660号决议·Zbl 1242.68219号
[11]	Glrot，X.，Bengio，Y.：理解训练深度前馈神经网络的困难。摘自：《第十三届国际人工智能与统计会议记录》，第249-256页（2010年）
[12]	Glrot，X.，Bordes，A.，Bengio，Y.：深度稀疏整流器神经网络。摘自：《第十四届国际人工智能与统计会议记录》，第315-323页（2011年）
[13]	He，K.，Zhang，X.，Ren，S.，Sun，J.：深入研究整流器：在图像网络分类方面超越人类水平的表现。摘自：IEEE计算机视觉国际会议记录，第1026-1034页（2015年）。https://openreview.net/forum？id=rkxQ-nA9FX公司
[14]	Mishkin，D.，Matas，J.：你所需要的只是一个好的init（2015）。arXiv:1511.06422
[15]	Saxe，A.M.，McClelland，J.L.，Ganguli，S.：深度线性神经网络学习非线性动力学的精确解（2013）。arXiv:1312.6120
[16]	Poole，B.，Lahiri，S.，Raghu，M.，Sohl-Dickstein，J.，Ganguli，S.：通过瞬态混沌在深层神经网络中的指数表达性。摘自：《神经信息处理系统进展》，第3360-3368页（2016年）
[17]	Jacot，A.，Gabriel，F.，Hongler，C.：神经切线核：神经网络中的收敛和泛化。摘自：《神经信息处理系统进展》，第8571-8580页（2018年）
[18]	Hanin，B.，Rolnick，D.：如何开始培训：初始化和架构的影响。摘自：《神经信息处理系统进展》，第569-579页（2018年）
[19]	Orhan，A.E.，Pitkow，X.：跳过连接消除奇点（2017）。arXiv:1701.09175
[20]	Pennington，J.，Schoenholz，S.，Ganguli，S.：通过动态等距恢复深度学习中的乙状结肠：理论与实践。摘自：《神经信息处理系统进展》，第4785-4795页（2017年）
[21]	Pennington，J.、Schoenholz，S.S.、Ganguli，S.：深网络中光谱普遍性的出现（2018）。arXiv公司：1802.09979
[22]	Xiao，L.，Bahri，Y.，Sohl-Dickstein，J.，Schoenholz，S.S.，Pennington，J.：CNN的动态等距和平均场理论：如何训练10000层香草卷积神经网络（2018）。arXiv:1806.05393
[23]	Li，P.，Nguyen，P.-M.：关于随机深部加权时间自编码器：精确渐近分析、相变和训练意义。参加：2019年（2019年）ICLR第七届国际学习代表大会https://openreview.net/forum？id=HJx54i05tX
[24]	Gilboa，D.，Chang，B.，Chen，M.，Yang，G.，Schoenholz，S.S.，Chi，E.H.，Pennington，J.：LSTM和GRU的动力学等距和平均场理论（2019）。arXiv公司：1901.08987
[25]	Dauphin，Y.N.，Schoenholz，S.：Metainit：通过学习初始化来初始化学习。摘自：《神经信息处理系统进展》，第12624-12636页（2019年）
[26]	Ioffe，S.，Szegedy，C.：批量规范化：通过减少内部协变量偏移来加速深层网络培训（2015）。arXiv:1502.03167
[27]	Santurkar，S.、Tsipras，D.、Ilyas，A.、Madry，A.：批处理规范化如何帮助优化？在：《神经信息处理系统的进展》，第2483-2493页（2018）
[28]	比约克，N.，戈麦斯，C.P.，塞尔曼，B.，温伯格，K.Q.：理解批次标准化。摘自：神经信息处理系统进展，第7694-7705页（2018年）
[29]	Arora，S.，Li，Z.，Lyu，K.：通过批量归一化进行自动速率调整的理论分析。参加：国际学习代表大会（2019c）。https://openreview.net/forum？id=rkxQ-nA9FX公司
[30]	Cai，Y.，Li，Q.，Shen，Z.：批量归一化对梯度下降影响的定量分析。摘自：机器学习国际会议，第882-890页（2019年）
[31]	Kohler，J.、Daneshmand，H.、Lucchi，A.、Hofmann，T.、Zhou，M.、Neymeyr，K.：批次标准化的指数收敛率：非凸优化中纵向解耦的威力。摘自：第22届国际人工智能与统计会议，第806-815页（2019年）
[32]	Ghorbani，B.，Krishnan，S.，Xiao，Y.：通过hessian特征值密度研究神经网络优化（2019）。arXiv:1901.10159
[33]	Salimans，T.，Kingma，D.P.：权重归一化：一种简单的重新参数化，用于加速深度神经网络的训练。摘自：《神经信息处理系统进展》，第901-909页（2016年）
[34]	Ba，J.L.，Kiros，J.R.，Hinton，G.E.：层标准化（2016）。arXiv:1607.06450
[35]	Ulyanov，D.，Vedaldi，A.，Lempitsky，V.：实例规范化：快速风格化的缺失要素（2016）。arXiv:1607.08022
[36]	Wu，Y.，He，K.：集团规范化。摘自：《欧洲计算机视觉会议记录》，第3-19页（2018年）
[37]	Miyato，T.、Kataoka，T.，Koyama，M.、Yoshida，Y.：生成性对抗网络的频谱归一化（2018）。arXiv公司：1802.05957
[38]	Luo，P.，Zhang，R.，Ren，J.，Peng，Z.，Li，J.：从学习到深度表征的可切换规范化。IEEE传输。模式分析。机器。智力。(2019)
[39]	Krizhevsky，A.，Sutskever，I.，Hinton，G.E.：基于深度卷积神经网络的Imagenet分类。摘自：《神经信息处理系统进展》，第1097-1105页（2012年）
[40]	Szegedy，C.、Liu，W.、Jia，Y.、Sermanet，P.、Reed，S.、Anguelov，D.、Erhan，D.、Vanhoucke，V.、Rabinovich，A.：用卷积深入研究。摘自：IEEE计算机视觉和模式识别会议记录，第1-9页（2015年）
[41]	He，K.，Zhang，X.，Ren，S.，Sun，J.：图像识别的深度剩余学习。摘自：IEEE计算机视觉和模式识别会议记录，第770-778页（2016）
[42]	Simonyan，K.，Zisserman，A.：用于大规模图像识别的极深卷积网络arXiv:1409.1556（2014）
[43]	Srivastava，R.K.，Greff，K.，Schmidhuber，J.：公路网（2015）。arXiv公司：1505.00387
[44]	Huang，G.，Liu，Z.，Van Der Maaten，L.，Weinberger，K.Q.：紧密连接卷积网络。摘自：IEEE计算机视觉和模式识别会议记录，第4700-4708页（2017）
[45]	Xie，S.，Girshick，R.，DolláR，P.，Tu，Z.，He，K.：深层神经网络的聚合残差变换。摘自：IEEE计算机视觉和模式识别会议记录，第1492-1500页（2017年）
[46]	Zoph，B.，Le，Q.V.：神经架构搜索与强化学习（2016）。arXiv公司：1611.01578
[47]	Yu，J.，Huang，T.：通过可精简网络进行网络精简：朝着一次性架构搜索频道数量的方向发展（2019）。arXiv:1903.11728年
[48]	Tan，M.，Le，Q.V.：效率网：卷积神经网络模型缩放的再思考（2019）。arXiv:1905.11946年
[49]	Hanin，B.：哪些神经网络架构会导致梯度的爆炸和消失？摘自：神经信息处理系统进展，第580-589页（2018年）
[50]	Tarnowski，W.，Warchoł，P.，Jastrzębski，S.，Tabor，J.：Nowak，Maciej：对于任何激活函数，动态等距是以通用方式在剩余网络中实现的。摘自：第22届国际人工智能与统计会议，第2221-2230页（2019年）
[51]	Yang，G.，Schoenholz，S.：平均场剩余网络：混沌边缘。摘自：《神经信息处理系统进展》，第7103-7114页（2017年）
[52]	Balduzzi，D.，Frean，M.，Leary，L.，Lewis，J.P.，Ma，K.W.-D.，McWilliams，B.：破碎梯度问题：如果resnet是答案，那么问题是什么？参见：第34届国际机器学习会议记录，第70卷，第342-350页。JMLR公司。组织（2017）
[53]	Zhang，H.，Dauphin，Y.N.，Ma，T.：修复初始化：无标准化的剩余学习（2019a）。arXiv：1901.09321
[54]	Curtis，F.E.，Scheinberg，K.：监督机器学习的优化方法：从线性模型到深度学习。摘自：《信息社区的领先发展》，第89-114页。信息（2017）
[55]	Goyal，P.、Dollár，P.和Girshick，r.、Noordhuis，P.，Wesolowski，L.、Kyrola，A.、Tulloch，A.、Jia，Y.、He，K.：准确、大批量sgd：1小时内的训练图像网（2017）。arXiv公司：1706.02677
[56]	Vaswani，A.、Shazeer，N.、Parmar，N.，Uszkoreit，J.、Jones，L.、Gomez，A.N.、Kaiser，Ł。，波洛什金：你所需要的就是专注。摘自：神经信息处理系统进展，第5998-6008页（2017）
[57]	Devlin，J.，Chang，M.-W.，Lee，K.，Toutanova，K.：伯特：语言理解的深层双向变形金刚预训练（2018）。arXiv:1810.04805
[58]	Gotmare，A.、Keskar，N.S.、Xiong，C.、Socher，R.：深入研究深度学习启发式：学习速率重启、预热和蒸馏。参加：国际学习代表大会（2019年）。https://openreview.net/forum？id=r14EOsCqKX
[59]	Smith，法律公告：训练神经网络的循环学习率。2017年IEEE计算机视觉应用冬季会议，第464-472页。IEEE（2017）
[60]	Loshchilov，I.，Hutter，F.：Sgdr：带热重启的随机梯度下降（2016）。arXiv:1608.03983
[61]	Smith，Negal，Topin，N.：超收敛：使用大学习率快速训练神经网络（2017）。arXiv:1708.07120
[62]	Powell，MJD，共轭梯度法的重新启动程序，数学。程序。，12, 1, 241-254 (1977) ·Zbl 0396.90072号 ·doi:10.1007/BF01593790
[63]	奥多诺休，B。；Candes，E.，《加速梯度方案的自适应重启》，Found。计算。数学。，15, 3, 715-732 (2015) ·Zbl 1320.90061号 ·doi:10.1007/s10208-013-9150-3
[64]	罗，Z-Q，关于线性前馈网络自适应学习率lms算法的收敛性，神经计算。，3, 2, 226-245 (1991) ·doi:10.1162/neco.1991.3.2.226
[65]	Schmidt，M.，Roux，法律公告：强增长条件下随机梯度下降的快速收敛（2013）。arXiv公司：1308.6370
[66]	Vaswani，S.、Bach，F.、Schmidt，M.：超参数模型和加速感知器的sgd快速收敛（2018）。arXiv:1810.07288
[67]	Liu，C.，Belkin，M.：Mass:一种用于过参数化学习的加速随机方法（2018b）。arXiv:1810.13395
[68]	Bottou，L.，在线学习和随机近似，在线学习。神经网络。，17, 9, 142 (1998) ·Zbl 0968.68127号
[69]	Ruder，Sebastian：梯度下降优化算法概述（2016）。arXiv公司：1609.04747
[70]	Devolder，O。；Glineur，F。；Nesterov，Y.，带不精确预言的光滑凸优化的一阶方法，数学。程序。，146, 1-2, 37-75 (2014) ·Zbl 1317.90196号 ·doi:10.1007/s10107-013-0677-5
[71]	Devolder，O.，Glineur，F.，Nesterov，Y.等人：具有不精确预言的一阶方法：强凸情形。编号：2013016。鲁汶天主教大学运营研究和计量经济中心（CORE），2013年·Zbl 1317.90196号
[72]	Kidambi，R.、Netrapalli，P.、Jain，P.和Kakade，S.：关于随机优化现有动量方案的不足。参见：2018年信息理论与应用研讨会（ITA），第1-9页。IEEE（2018）
[73]	Lin，H.，Mairal，J.，Harchaoui，Z.：一级优化的通用催化剂。摘自：《神经信息处理系统进展》，第3384-3392页（2015年）
[74]	Allen-Zhu，Z.，Katyusha：随机梯度法的第一次直接加速，J.Mach。学习。研究，18，1，8194-8244（2017）·Zbl 1475.90044号
[75]	Defazio，A.，Bottou，L.：关于方差减少优化对深度学习的无效性。摘自：《神经信息处理系统进展》，第1753-1763页（2019年）
[76]	Jain，P.、Kakade，S.M.、Kidambi，R.、Netrapali，P.、Sidford，A.：加速随机梯度下降（2017）。arXiv:1704.08227·Zbl 1469.68088号
[77]	Liu，C.，Belkin，M.：加速超参数学习的sgd（2018）arXiv:1810.13395
[78]	卡蒙，Y。；杜奇，JC；Hinder，O。；Sidford，A.，非凸优化的加速方法，SIAM J.Optim。，28, 2, 1751-1772 (2018) ·Zbl 1400.90250号 ·doi:10.1137/17M1114296
[79]	Carmon，Y.，Duchi，J.C.，Hinder，O.，Sidford，A.：证明有罪之前是凸的：非凸函数上梯度下降的无量纲加速。收录于：《第34届国际机器学习大会论文集》，第70卷，第654-663页（2017）
[80]	Xu，Y.，Rong，Jing，Y.和Tianbao:在几乎线性时间内逃离鞍点的一阶随机算法。摘自：《神经信息处理系统进展》，第5535-5545页（2018年）
[81]	Fang，C.，Li，C.J.，Lin，Z.，Zhang，T.：蜘蛛：通过随机路径积分微分估计的近最优非凸优化。摘自：神经信息处理系统进展，第687-697页（2018年）
[82]	Allen-Zhu，Z.：Natasha 2：比sgd更快的非凸优化。摘自：《神经信息处理系统进展》，第2680-2691页（2018年）
[83]	杜奇，J。；哈赞，E。；Singer，Y.，在线学习和随机优化的自适应次梯度方法，J.Mach。学习。2011年7月12日第2121-2159号决议·Zbl 1280.68164号
[84]	Tieleman，T。；Hinton，G.，讲座6.5-rmsrop：将梯度除以最近震级的运行平均值，COURSERA神经网络。机器。学习。，4, 2, 26-31 (2012)
[85]	Kingma，D.P.，Ba，J.：亚当：随机优化方法（2014）。arXiv:1412.6980
[86]	医学博士Zeiler：Adadelta：一种自适应学习率方法（2012年）。arXiv:1212.5701
[87]	Dozat，T.，Adam，I.N.：学习代表国际会议。研讨会（ICLRW）（第1-6页）。In:《将内斯特罗夫动量纳入亚当的程序》（2016）
[88]	Mikolov，T.，Chen，K.，Corrado，G.，Dean，J.：向量空间中单词表示的有效估计（2013）。arXiv:1301.3781
[89]	Pennington，J.，Socher，R.，Manning，C.：手套：单词表示的全局向量。摘自：《2014年自然语言处理实证方法会议论文集》，第1532-1543页（2014）
[90]	Wilson，A.C.、Roelofs，R.、Stern，M.、Srebro，N.、Recht，B.：机器学习中自适应梯度方法的边际值。摘自：《神经信息处理系统进展》，第4148-4158页（2017年）
[91]	Keskar，N.S.、Socher，R.：通过从adam切换到sgd来提高泛化性能（2017）。arXiv:1712.07628
[92]	Sivaprasad，P.T.，Mai，F.，Vogels，T.，Jaggi，M.，Fleuret，F.：关于深度学习中优化器的可调性（2019）。arXiv:1910.11758年
[93]	Reddi，S.J.，Kale，S.，Kumar，S.：关于亚当及其后的收敛。参加：学习代表国际会议（2018年）
[94]	Chen，X.，Liu，S.，Sun，R.，Hong，M.：关于非凸优化的一类adam型算法的收敛性（2018）。arXiv:1808.02941
[95]	Zhou，D.、Tang，Y.、Yang，Z.、Cao，Y.和Gu，Q.：关于非凸优化自适应梯度方法的收敛性（2018）。arXiv:1808.05671
[96]	Zou，F.，Shen，L.：关于训练深度神经网络的adagrad与动量的收敛性（2018）。arXiv:1808.03408
[97]	De，S.，Mukherjee，A.，Ullah，E.：RMSProp和ADAM在非凸优化中的收敛保证，以及与Nesterov加速度的经验比较（2018）arXiv:1807.06766
[98]	邹飞、沈立、杰、Z、张、我们、。，Liu，W.：adam和rmsprop收敛的一个充分条件（2018b）。arXiv公司：1811.09358
[99]	Ward，R.，Wu，X.，Bottou，L.：Adagrad步长：从任何初始化开始，非凸景观上的急剧收敛（2018）。arXiv:1806.01811年
[100]	Barakat，A.，Bianchi，P.：非凸优化中具有自适应步长的动量算法的收敛性分析（2019）。arXiv:1911.07596号
[101]	Bertsekas，D.P.，Tsitsiklis，J.N：并行和分布式计算：数值方法，第23卷。普伦蒂斯·霍尔（Prentice Hall），恩格尔伍德悬崖（Englewood Cliffs）（1989年）·Zbl 0743.65107号
[102]	Smith，S.L.，Kindermans，P.-J.，Le，Q.V.：不要降低学习率，增加批量。参加：学习代表国际会议（2018年）。https://openreview.net/论坛？id=B1Yy1BxCZ
[103]	Akiba，T.、Suzuki，S.、Fukuda，K.：超大迷你批次sgd：15分钟内在imagenet上训练resnet-50（2017）。arXiv:1711.04325
[104]	Jia，X.，Song，S.，He，W.，Wang，Y.，Rong，H.，Zhou，F.，Xie，L.，Guo，Z.，Yang，Y.Y.，Yu，L.等：具有混合决策的高度可扩展的深度学习培训系统：四分钟内的培训图像网（2018）。arXiv:1807.11205
[105]	Mikami，H.、Suganuma，H.，Tanaka，Y.、Kageyama，Y.等人：大规模分布的sgd:Imagenet/resnet-50培训（2018年）。arXiv:1811.05233号
[106]	Ying，C.，Kumar，S.，Chen，D.，Wang，T.，Cheng，Y.：超级计算机规模下的图像分类（2018）。arXiv公司：1811.06992
[107]	Yamazaki，M.、Kasagi，A.、Tabuchi，A.、Honda，T.、Miwa，M.，Fukumoto，N.、Tabaru，T.，Ike，A.、Nakashima，K.：另一个加速的sgd：Resnet-50在imagenet上的训练时间为74.7秒（2019年）。arXiv:1903.12650
[108]	You，Y.，Zhang，Z.，Hsieh，C.-J.，Demmel，J.，Keutzer，K.：Imagenet训练分钟数。摘自：第47届并行处理国际会议记录，第1页。ACM（2018）
[109]	Yuan，Y.，梯度法的步长，AMS IP Stud.Adv.Math。，42, 2, 785 (2008) ·Zbl 1172.90509号
[110]	Barzilai，J。；Borwein，JM，两点步长梯度法，IMA J.Numer。分析。，8, 1, 141-148 (1988) ·Zbl 0638.65055号 ·doi:10.1093/imanum/8.1.141
[111]	Becker，S.，Le Cun，Y.等人：用二阶方法改进反向传播学习的收敛性。收录于：《1988年康涅狄格州示范暑期学校学报》，第29-37页（1988）
[112]	Bordes，A。；博图，L。；Gallinari，P.，Sgd-qn：谨慎的准牛顿随机梯度下降，J.Mach。学习。1737-1754年7月10日决议（2009年）·兹比尔1235.68130
[113]	乐村，YA；博图，L。；Orr，GB；穆勒，K-R；蒙塔文，G。；Orr，GB；Müller，K-R，《高效支持》，《神经网络：贸易的诡计》，9-48（2012），柏林：施普林格出版社，柏林
[114]	Schaul，T.、Zhang，S.、LeCun，Y.：不再有令人讨厌的学习率。摘自：机器学习国际会议，第343-351页（2013）
[115]	Tan，C.，Ma，S.，Dai，Y.-H.，Qian，Y.：随机梯度下降的Barzilai-borwein步长。摘自：《神经信息处理系统进展》，第685-693页（2016年）
[116]	Orabona，F.，Tommasi，T.：通过投币来训练深度网络，而不需要学习速度。摘自：《神经信息处理系统进展》，第2160-2170页（2017年）
[117]	Martens，J.，通过无粗麻布优化的深度学习，ICML，27335-742（2010）
[118]	Pearlmutter，BA，麻布的快速精确乘法，神经计算。，6, 1, 147-160 (1994) ·doi:10.1162/neco.1996.1.147
[119]	Schraudolph，NN，二阶梯度下降的快速曲率矩阵向量积，神经计算。，14, 7, 1723-1738 (2002) ·Zbl 1037.68119号 ·doi:10.1162/08997660260028683
[120]	Berahas，A.S.、Jahani，M.、Takáč，M.：深度学习的准纽顿方法：忘记过去，只是样本（2019年）。arXiv:1901.09997
[121]	阿玛里，S-I；帕克，H。；Fukumizu，K.，多层感知器实现自然梯度学习的自适应方法，神经计算。，12, 6, 1399-1409 (2000) ·doi:10.11162/089977600300015420
[122]	Martens，J.：关于自然梯度法的新见解和观点（2014年）。arXiv:1412.1193
[123]	阿玛里，S。；长冈，H.，《信息几何方法》（2007），普罗维登斯：美国数学学会，普罗维登斯
[124]	Martens，J.，Grosse，R.：用kronecker-factor近似曲率优化神经网络。摘自：机器学习国际会议，第2408-2417页（2015）
[125]	Osawa，K.、Tsuji，Y.、Ueno，Y.，Naruse，A.、Yokota，R.、Matsuoka，S.：大型迷你背带的二阶优化方法：35个时期内在imagenet上训练resnet-50（2018）。arXiv:1811.12019年
[126]	Anil，R.，Gupta，V.，Koren，T.，Regan，K.，Singer，Y.：二阶优化变得实用（2020年）。arXiv:2002.09018号
[127]	Gupta，V.，Koren，T.，Singer，Y.：洗发水：预处理随机张量优化（2018）。arXiv：1802.09568
[128]	Vidal，R.、Bruna，J.、Giryes，R.和Soatto，S.：深度学习数学（2017）。arXiv公司：1712.04741
[129]	卢，C。；邓，Z。；周，J。；Guo，X.，基于敏感特征向量的二次约束二次规划全局算法，J.Glob。最佳。，73, 1-18 (2019) ·兹比尔1421.90106 ·doi:10.1007/s10898-018-0726-y
[130]	费雷拉，OP；Németh，SZ，关于二次函数的球面凸性，J.Glob。最佳。，73, 3, 537-545 (2019) ·Zbl 1434.90133号 ·doi:10.1007/s10898-018-0710-6
[131]	Chi，Y。；Lu，YM；Chen，Y.，非凸优化满足低秩矩阵分解：概述，IEEE Trans。信号处理。，67，20，5239-5269（2019）·Zbl 07123429号 ·doi:10.1109/TSP.2019.2937282
[132]	Dauphin，Y.N.，Pascanu，R.，Gulcehre，C.，Cho，K.，Ganguli，S.，Bengio，Y.：识别和解决高维非凸优化中的鞍点问题。摘自：《神经信息处理系统进展》，第2933-2941页（2014年）
[133]	Goodfellow，I.J.，Vinyals，O.，Saxe，A.M.：定性描述神经网络优化问题（2014）。arXiv:1412.6544
[134]	Poggio，T.，Liao，Q.：理论II：深度学习中的经验风险景观。博士论文，大脑、思维和机器中心（CBMM）（2017年）。arXiv:1703.09833号
[135]	Li，H.，Xu，Z.，Taylor，G.，Studer，C.，Goldstein，T.：可视化神经网络的损失景观。摘自：神经信息处理系统进展，第6391-6401页（2018b）
[136]	Baity-Jesi，M.、Sagun，L.、Geiger，M.，Spigler，S.、Arous，G.B.、Cammarota，C.、LeCun，Y.、Wyart，M.和Biroli，G.：比较动力学：深层神经网络与玻璃系统（2018）。arXiv公司：1803.06969
[137]	Franz，S.，Hwang，S.，Urbani，P.：多层监督学习模型中的干扰（2018）。arXiv:1809.09945
[138]	Geiger，M.、Spigler，S.、d'Ascoli，S.，Sagun，L.、Baity-Jesi，M.，Biroli，G.、Wyart，M.：干扰过渡作为理解深层神经网络损失前景的范例（2018）。arXiv公司：1809.09349
[139]	Draxler，F.、Veschgini，K.、Salmhofer，M.、Hamprecht，F.A.：神经网络能源领域基本上没有障碍（2018）arXiv:1803.00885
[140]	Garipov，T.、Izmailov，P.、Podoprikhin，D.、Vetrov，D.P.、Wilson，A.G.：DNNS的损耗表面、模式连接性和快速集成。摘自：《神经信息处理系统进展》，第8789-8798页（2018年）
[141]	Freeman，C.D.，Bruna，J.：半整流网络优化的拓扑和几何（2016）。arXiv:1611.01540
[142]	Nguyen，Q.：深度学习中的连通子层集（2019b）。arXiv公司：1901.07417
[143]	Kuditipudi，R.，Wang，X.，Lee，H.，Zhang，Y.，Li，Z.，Hu，W.，Arora，S.，Ge，R.：解释多层网络低成本解决方案的景观连通性（2019）。阿西夫：1906.06247
[144]	Han，S.，Mao，H.，Dally，W.J.：深度压缩：使用修剪、训练量化和哈夫曼编码压缩深度神经网络（2015）。arXiv:1510.00149
[145]	Liu，Z.，Sun，M.，Zhou，T.，Huang，G.，Darrell，T.：重新思考网络修剪的价值（2018）。arXiv:1810.05270
[146]	Lee，N.，Ajanthan，T.，Torr，P.：SNIP：基于连接敏感性的单发网络修剪。参加：国际学习代表大会（2019b）。https://openreview.net/forum？id=B1VZqjAcYX
[147]	Frankle，J.、Dziugaite，G.K.、Roy，D.M.、Carbin，M.：规模彩票假设（2019年）。arXiv:1903.01611年
[148]	Frankle，J.，Carbin，M.：彩票假设：发现稀疏、可训练的神经网络（2018）。arXiv公司：1803.03635
[149]	周，H.，兰，J.，刘，R.，约辛斯基，J.：解构彩票：零、符号和超人面具（2019）。arXiv:1905.01067年
[150]	Morcos，A.S.，Yu，H.，Paganini，M.，Tian，Y.：一票全胜：跨数据集和优化器推广彩票初始化（2019年）。arXiv:1906.02773号
[151]	Tian，Y.，Jiang，T.，Gong，Q.，Morcos，A.：运气很重要：了解深度关系网络的培训动态（2019年）。arXiv:1905.13405
[152]	Hochreiter，S。；Schmidhuber，J.，平面极小值，神经计算。，9, 1, 1-42 (1997) ·Zbl 0872.68150号 ·doi:10.1162/neco.1997.9.1.1
[153]	Keskar，N.S.、Mudigere，D.、Nocedal，J.、Smelyanskiy，M.、Tang，P.T.P.：关于深度学习的大范围训练：泛化差距和显著极小值（2016）。arXiv:1609.04836
[154]	Dinh，L.，Pascanu，R.，Bengio，S.，Bengino，Y.：尖锐极小值可以推广到深网。摘自：第34届国际机器学习会议记录，第70卷，第1019-1028页（2017）
[155]	Neyshabur，B.，Salakhuttinov，R.R.，Srebro，N.：路径sgd：深度神经网络中的路径归一化优化。摘自：《神经信息处理系统进展》，第2422-2430页（2015年）
[156]	Yi，M.，Meng，Q.，Chen，W.，Ma，Z.，Liu，T.-Y.：相对神经网络的正尺度-变平坦度（2019）。arXiv:1903.02237
[157]	He，H.，Huang，G.，Yuan，Y.：不对称山谷：超越尖锐和平坦的局部极小值（2019年）。arXiv:1902.00744号
[158]	Chaudhari，P.、Choromanska，A.、Soatto，S.、LeCun，Y.、Baldassi，C.、Borgs，C.、Chayes，J.、Sagun，L.、Zecchina，R.：Entropy-sgd：向宽山谷倾斜梯度下降（2016）。arXiv:1611.01838年
[159]	Kawaguchi，K.：深度学习，没有糟糕的局部最低要求。摘自：《神经信息处理系统进展》，第586-594页（2016年）
[160]	Lu，H.，Kawaguchi，K.：深度创造了良好的局部极小值（2017）。arXiv:1702.08580
[161]	Laurent，T.，Brecht，J.：具有任意损失的深线性网络：所有局部极小值都是全局的。在：国际机器学习会议，第2908-2913页（2018）
[162]	Nouiehed，M.，Razaviyayn，M.：学习深层模型：关键点和地方开放（2018）。arXiv公司：1803.02968
[163]	张，L.：深度不再创造虚假的局部极小值（2019）。arXiv:1901.09827
[164]	Yun，C.，Sra，S.，Jadbabaie，A.：深层神经网络的全局最优条件（2017）。arXiv公司：1707.02444
[165]	周瑜、梁瑜：线性神经网络的临界点：分析形式和景观特性（2018）arXiv:1710.11205
[166]	Livni，R.，Shalev-Shwartz，S.，Shamir，O.：关于训练神经网络的计算效率。摘自：《神经信息处理系统进展》，第855-863页（2014年）
[167]	Neyshabur，B.，Bhojanapalli，S.，McAllester，D.，Srebro，N.：探索深度学习中的泛化。摘自：《神经信息处理系统进展》，第5947-5956页（2017年）
[168]	Zhang，C.，Bengio，S.，Hardt，M.，Recht，B.，Vinyals，O.：理解深度学习需要重新思考泛化（2016）。arXiv公司：1611.03530
[169]	Nguyen，Q.、Mukkamala，M.C.、Hein，M.：关于一类无不良局部山谷的深度神经网络的损失情况（2018年）。arXiv公司：1809.10749
[170]	Li，Dawei，D.，Tian，S.，Ruoyu：超参数深度神经网络对于任何连续激活都没有严格的局部极小值（2018a）。arXiv:1812.11039年
[171]	Yu，X。；Pasupathy，S.，基于创新的瑞利平坦衰落信道MLSE，IEEE Trans。社区。，43, 1534-1544 (1995) ·doi:10.1109/26.380203
[172]	Ding，T.，Li，D.，Sun，R.：几乎所有过参数化神经网络都存在次优局部极小值。在线优化（2019）arXiv:1911.01413
[173]	Bartlett，P.L.，Foster，D.J.，Telgarsky，M.J.：神经网络的光谱规范化边界。摘自：《神经信息处理系统进展》，第6240-6249页（2017年）
[174]	Wei，C.，Lee，J.D.，Liu，Q.，Ma，T.：关于前馈神经网络的边际理论（2018）。arXiv：1810.05369
[175]	Wu，L.，Zhu，Z.，et al.：走向理解深度学习的泛化：损失景观的视角（2017）。arXiv:1706.10239
[176]	Belkin，M.，Hsu，D.，Ma，S.，Mandal，S.：调和现代机器学习和偏差-方差权衡（2018）。arXiv:1812.11118年·Zbl 1433.68325号
[177]	Mei，S.，Montanari，A.：随机特征回归的泛化误差：精确渐近和双下降曲线（2019）。arXiv:1908.05355
[178]	Liang，S.，Sun，R.，Lee，J.D.，Srikant，R.：添加一个神经元可以消除所有不良的局部极小值。摘自：《神经信息处理系统进展》，第4355-4365页（2018a）
[179]	Kawaguchi，K.，Kaelbling，L.P.：消除深度学习中的所有不良局部极小值（2019年）。arXiv:1901.00279·兹比尔1494.68241
[180]	Liang，S.，Sun，R.，Srikant，R.：重新审视深层神经网络中的景观分析：消除通向无穷大的递减路径（2019年）。arXiv:1912.13472
[181]	Shalev-Shwartz，S.、Shamir，O.、Shammah，S.：基于梯度的深度学习的失败。见：《第34届国际机器学习会议记录》，第70卷，第3067-3075页。JMLR公司。组织（2017）
[182]	Swirszcz，G.、Czarnecki，W.M.、Pascanu，R.：深层网络培训中的局部极小值（2016）。arXiv公司：1611.06310
[183]	周瑜、梁瑜：神经网络的关键点：分析形式和景观特性（2017）。arXiv:1710.11205
[184]	Safran，I.，Shamir，O.：伪局部极小值在双层relu神经网络中很常见（2017）。arXiv公司：1712.08968
[185]	Venturi，L.，Bandeira，A.，Bruna，J.：双层神经网络优化环境中的虚假谷（2018b）。arXiv公司：1802.06384·Zbl 1434.68464号
[186]	Liang，S.，Sun，R.，Li，Y.，Srikant，R.：了解二元分类神经网络的损失面（2018b）。arXiv公司：1803.00909
[187]	Yun，C.，Sra，S.，Jadbabaie，A.：激活函数中的小非线性会在神经网络中产生坏的局部极小值（2018年）。arXiv公司：1802.03487
[188]	Bartlett，P.，Helmbold，D.，Long，P.：带有身份初始化的梯度下降有效地学习正定线性变换。摘自：机器学习国际会议，第520-529页（2018年）
[189]	Arora，S.、Cohen，N.、Golowich，N.和Hu，W.：深度线性神经网络梯度下降的收敛性分析（2018）。arXiv:1810.02281
[190]	Ji，Z.，Telgarsky，M.：梯度下降使深层线性网络层对齐（2018）。arXiv:1810.02032
[191]	Du，S.S.，Lee，J.D.，Li，H.，Wang，L.，Zhai，X.：梯度下降发现深层神经网络的全局极小值（2018）。arXiv：1811.03804年
[192]	Yang，G.：具有权重分担的宽神经网络的缩放极限：高斯过程行为、梯度独立性和神经切线核推导（2019年）。arXiv:1902.04760
[193]	Novak，R.、Xiao，L.、Bahri，Y.、Lee，J.、Yang，G.、Abolafia，D.A.、Pennington，J.和Sohl-dickstein，J.：具有多个信道的贝叶斯深度卷积网络是高斯过程。参加：国际学习代表大会（2019a）。https://openreview.net/forum？id=B1g30j0qF7
[194]	Allen-Zhu，Z.，Li，Y.，Song，Z.：通过过度参数化实现深度学习的收敛理论（2018）。arXiv:1811.03962
[195]	邹，D.，曹，Y.，周，D.，顾，Q.：随机梯度下降优化了过参数化深relu网络（2018a）。arXiv:1811.08888·Zbl 1494.68245号
[196]	Li，Y.，Liang，Y.:通过结构化数据上的随机梯度下降学习超参数神经网络。在：《神经信息处理系统的进展》，第8168-8177页（2018）
[197]	Arora，S.，Du，S.S.，Hu，W.，Li，Z.，Salakhutdinov，R.，Wang，R.：关于无限宽神经网络的精确计算（2019a）。arXiv:1904.11955年
[198]	Zhang，H.，Yu，D.，Chen，W.，Liu，T.-Y.：训练过参数化的深层网络几乎与训练双层网络一样容易（2019b）。arXiv:1903.07120号
[199]	Ma，C.，Wu，L.等人：带跳跃连接的深度神经网络模型的梯度下降算法分析（2019年）。arXiv:1904.05263
[200]	Li，Z.，Wang，R.，Yu，D.，Du，S.S.，Hu，W.，Salakhutdinov，R.和Arora，S.：增强卷积神经切线核（2019）arXiv:1806.05393
【201】	Arora，S.、Du，S.S.、Li，Z.、Salakhutdinov，R.、Wang，R.和Yu，D.：在小数据任务中利用无限宽深网的能力（2019b）。arXiv:1910.01663
[202]	Novak，R.、Xiao，L.、Hron，J.、Lee，J.，Alemi，A.A.、Sohl-Dickstein，J.和Schoenholz，S.S.：神经切线：快速简单的蟒蛇无限神经网络（2019b）。arXiv:1912.02803号
[203]	Lee，J.、Xiao，L.、Schoenholz，S.、Bahri，Y.、Novak，R.、Sohl-Dickstein，J.和Pennington，J.：任意深度的宽神经网络在梯度下降下演化为线性模型。在：神经信息处理系统的进展，第8570-8581页（2019a）
[204]	Sirignano，J.，Spiliopoulos，K.：深层神经网络的平均场分析（2019）。arXiv公司：1903.04440·Zbl 1441.60022号
[205]	Araujo，D.，Oliveira，R.I.，Yukimura，D.：某些深层神经网络的平均场极限（2019）arXiv：1900.0193
[206]	Nguyen，P.-M.：多层神经网络学习动力学的平均场极限（2019a）。arXiv:1902.02880
[207]	Mei，S.，Montanari，A.，Nguyen，P.-M.：两层神经网络景观的平均视野（2018）。arXiv:1804.06561·Zbl 1416.92014号
[208]	Sirignano，J.，Spiliopoulos，K.：神经网络的平均场分析（2018）。arXiv:1805.01053号·Zbl 1441.60022号
[209]	Rotskoff，G.M.，Vanden Eijnden，E.：作为相互作用粒子系统的神经网络：损失景观的渐近凸性和近似误差的普遍标度（2018）。arXiv公司：1805.00915
[210]	Chizat，L.，Oyallon，E.，Bach，F.：关于使用最优传输的超参数模型梯度下降的全局收敛性。摘自：神经信息处理系统进展，第3040-3050页（2018年）
[211]	Williams，F.，Trager，M.，Silva，C.，Panozzo，D.，Zorin，D.，Bruna，J.：浅层单变量relu网络的梯度动力学，收录：神经信息处理系统的进展，第8376-8385页（2019）
[212]	Venturi，L.，Bandeira，A.，Bruna，J.：具有有限内在维数的神经网络没有虚假谷（2018a）。arXiv:1802.06384。15
[213]	Haeffele，B.D.，Vidal，R.：神经网络训练中的全局优化。摘自：IEEE计算机视觉和模式识别会议记录，第7331-7339页（2017年）
[214]	Burer，S。；Monteiro，RDC，低秩半定规划中的局部极小与收敛，数学。程序。，103, 3, 427-444 (2005) ·Zbl 1099.90040号 ·doi:10.1007/s10107-004-0564-1
[215]	Ge，R.，Lee，J.D.，Ma，T.：通过景观设计学习单层神经网络（2017）。arXiv:1711.00501
[216]	Gao，W.，Makkuva，A.V.，Oh，S.，Viswanath，P.：在一般输入分布下学习单层神经网络（2018）。arXiv:1810.04133
[217]	Feizi，S.、Javadi，H.、Zhang，J.、Tse，D.：豪猪神经网络：（几乎）所有局部优化都是全局的（2017）。arXiv:1710.02196
[218]	Panigrahy，R.，Rahimi，A.，Sachdeva，S.，Zhang，Q.：通过电动力学的神经网络收敛结果（2017）。arXiv:1702.00458
[219]	Soltanolkotabi，M。；爪哇马德，A。；Lee，JD，超参数化浅层神经网络优化前景的理论见解，IEEE Trans。《信息论》，65，2742-769（2019）·兹比尔1428.68255 ·doi:10.1109/TIT.2018.2854560
[220]	Soudry，D.，Hoffer，E.：多层神经网络中指数消失的次优局部极小值（2017）。arXiv公司：1702.05777
[221]	Laurent，T.，von Brecht，J.：关系网络的多线性结构（2017）。arXiv:1712.10132号
[222]	Tian，Y.：双层relu网络的种群梯度分析公式及其在收敛和临界点分析中的应用。见：《第34届国际机器学习会议记录》，第70卷，第3404-3413页。JMLR公司。组织（2017）
[223]	Brutzkus，A.，Globerson，A.：具有高斯输入的卷积网络的全局最优梯度下降。摘自：第34届国际机器学习会议记录，第70卷，第605-614页（2017）
[224]	Zhong，K.，Song，Z.，Jain，P.，Bartlett，P.L.，Dhillon，I.S.：单层神经网络的恢复保证。摘自：第34届国际机器学习会议记录，第70卷，第4140-4149页（2017）
[225]	Li，Y.，Yuan，Y.：具有relu激活的两层神经网络的收敛性分析。摘自：《神经信息处理系统进展》，第597-607页（2017年）
[226]	Brutzkus，A.，Globerson，A.，Malach，E.，Shalev-Shwartz，S.：Sgd学习在线性可分数据上可证明推广的过参数网络。学习代表国际会议（2018年）
[227]	Wang，G.，Giannakis，G.B.，Chen，J.：线性可分数据上的学习relu网络：算法、优化和泛化（2018）。arXiv:1808.04685·Zbl 1458.68185号
[228]	Zhang，X.，Yu，Y.，Wang，L.，Gu，Q.：通过梯度下降学习单层relu网络（2018）。arXiv公司：1806.07808
[229]	Du，S.S.，Lee，J.D.：关于二次激活神经网络中过参数化的功效（2018年）。arXiv公司：1803.01206
[230]	Oymak，S.，Soltanolkotabi，M.：走向适度超参数化：浅层神经网络训练的全局收敛保证（2019年）。arXiv公司：1902.04674
[231]	Su，L.，Yang，P.：关于参数化神经网络的学习：一个函数逼近的前景。摘自：《神经信息处理系统进展》第2637-2646页（2019年）
[232]	Janzamin，M.，Sedghi，H.，Anandkumar，A.：克服非凸性的危险：使用张量方法保证神经网络的训练（2015）。arXiv公司：1506.08473
[233]	Mondelli，M.，Montanari，A.：关于学习双层神经网络和张量分解之间的联系（2018年）。arXiv公司：1802.07301
[234]	Boob，D.，Lan，G.：双层神经网络全局优化器的理论性质（2017）。arXiv:1710.11241
[235]	Du，S.S.，Lee，J.D.，Tian，Y.，Poczos，B.，Singh，A.：梯度下降学习单层CNN：不要害怕虚假的局部极小值（2017）。arXiv:1712.00779
[236]	Vempala，S.，Wilmes，J.：训练单层神经网络的梯度下降多项式收敛性（2018）。arXiv:1805.02677
[237]	Ge，R.，Kuditipudi，R.、Li，Z.、Wang，X.：学习具有对称输入的双层神经网络（2018）。arXiv公司：1810.06793
[238]	Oymak，S.，Soltanolkotabi，M.：过度参数化非线性学习：梯度下降采用最短路径？(2018). arXiv公司：1812.10004
[239]	Ju，S.：关于“可证明非凸方法/算法”的工作列表。https://sunju.org/research/nocovev/
[240]	Leventhal，D。；Lewis，AS，线性约束的随机方法：收敛速度和条件，数学。操作。第35、3、641-654号决议（2010年）·Zbl 1216.15006号 ·doi:10.1287/门.1100.0456
[241]	Nesterov，Y.，协调下降法在大规模优化问题上的效率，SIAM J.Optim。，22, 2, 341-362 (2012) ·Zbl 1257.90073号 ·数字对象标识代码：10.1137/100802001
[242]	Johnson，R.，Zhang，T.：使用预测方差减少加速随机梯度下降。摘自：《神经信息处理系统进展》，第315-323页（2013年）
[243]	Defazio，A.，Bach，F.，Lacoste Julien，S.：Saga：一种支持非强凸复合目标的快速增量梯度方法。摘自：《神经信息处理系统的进展》，第1646-1654页（2014年）
[244]	赖特，S。；Nocedal，J.，《数值优化》，《科学》，35，67-68，7（1999）·Zbl 0930.65067号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
作业成本法*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

深度学习优化：概述。（英文） Zbl 1463.90212号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

深度学习优化：概述。 （英文） Zbl 1463.90212号

MSC公司：

关键词：

软件：

参考文献：

深度学习优化：概述。（英文） Zbl 1463.90212号