×

死亡ReLU和初始化:理论和数值示例。 (英语) Zbl 1507.68248号

小结:濒临死亡的ReLU是指当ReLU神经元处于非活动状态,并且对任何输入仅输出0时出现的问题。关于ReLU神经元死亡的原因,有许多经验性和启发性的解释。然而,对其理论分析知之甚少。在本文中,我们严格证明了深度ReLU网络最终会随着深度的增加而以概率消亡。已经提出了几种方法来缓解濒临死亡的ReLU。也许,最简单的处理方法之一是修改初始化过程。初始化权重和偏差的一种常见方法是使用对称概率分布,这会受到濒临死亡的ReLU的影响。因此,我们提出了一种新的初始化过程,即随机非对称初始化。我们证明了新的初始化可以有效地防止死亡的ReLU。理论上设计了新初始化所需的所有参数。通过数值算例验证了新初始化程序的有效性。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68T07型 人工神经网络与深度学习
62M45型 神经网络及从随机过程推断的相关方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] A.F.阿加拉普。使用校正线性单位(relu)进行深度学习。arXiv预印arXiv:1803.083752018。
[2] S.Amari、H.Park和T.Ozeki。奇异性影响神经流形的学习动力学。神经计算,18(5):1007-10652006·Zbl 1092.68636号
[3] S.Arora、N.Cohen、N.Golowich和W.Hu。深度线性神经网络梯度下降的收敛性分析。arXiv预印arXiv:1810.022812018。
[4] J.L.Ba、J.R.Kiros和G.E.Hinton。层规范化。arXiv预印arXiv:1607.064502016。
[5] R.H.Byrd、P.Lu、J.Nocedal和C.Zhu。一种用于约束约束优化的有限内存算法。SIAM科学计算杂志,16(5):1190-12081995·Zbl 0836.65080号
[6] M.Chen、J.Pennington和S.Schoenholz。动态等距和rnns的平均场理论:选通使信号能够在递归神经网络中传播。在2018年国际机器学习会议上,第872-881页。
[7] D.A.Clevert、T.Unterthiner和S.Hochreiter。通过指数线性单位(elus)快速准确地进行深度网络学习。arXiv预印arXiv:1511.072892015。
[8] S.S.Du、C.Jin、J.D.Lee、M.I.Jordan、A.Singh和B.Poczos。梯度下降可能需要指数时间才能摆脱鞍点。《神经信息处理系统进展》,第1067-1077页,2017年。
[9] 杜松生(S.S.Du)、李嘉诚(J.D.Lee)、李浩(H.Li)、王力宏(L.Wang)和翟志刚(X.Zhai)。梯度下降法寻找深层神经网络的全局极小值。arXiv预印arXiv:1811.038042018。
[10] S.S Du、J.D.Lee、Y.Tian、A Singh和B Poczos。梯度下降学习一个隐藏层cnn:不要害怕虚假的局部极小值。在2018年国际机器学习会议上,第1338-1347页。
[11] J.Duchi、E.Hazan和Y.Singer。在线学习和随机优化的自适应次梯度方法。机器学习研究杂志,12(7月):2121-21592011·Zbl 1280.68164号
[12] K.Fukumizu和S.Amari。多层感知器层次结构中的局部极小值和平台。神经网络,13(3):317-3272000。
[13] R.Ge、F.Huang、C.Jin和Y.Yuan。张量分解的在线随机梯度上逃离鞍点。学习理论会议,第797-842页,2015年。
[14] R.Ge、J.D.Lee和T.Ma。矩阵完成没有虚假的局部极小值。《神经信息处理系统进展》,第2973-2981页,2016年。
[15] X.Glorit和Y.Bengio。了解训练深度前馈神经网络的困难。国际人工智能与统计会议,第249-2562010页。
[16] X.Glorit、A.Bordes和Y.Bengio。深度稀疏整流器神经网络。在2011年国际人工智能和统计会议上,第315-323页。
[17] B.哈宁。哪些神经网络结构会产生爆炸和消失梯度?《神经信息处理系统进展》,第580-589页,2018年。
[18] B.哈宁和M.塞尔克。用最小宽度的关系网逼近连续函数。arXiv预印arXiv:1710.112782017。
[19] 何俊杰、李丽丽、徐俊杰和郑正中。ReLU深度神经网络和线性有限元。计算数学杂志,38(3):502-5272020·Zbl 1463.68072号
[20] 何凯(K.He)、张旭(X.Zhang)、任志刚(S.Ren)和孙建中(J.Sun)。深入研究整流器:在图像网络分类方面超越人类水平的性能。2015年IEEE国际计算机视觉会议,第1026-1034页。
[21] 何凯(K.He)、张旭(X.Zhang)、任志刚(S.Ren)和孙建中(J.Sun)。用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议,第770-778页。
[22] G.欣顿。迷你背带梯度下降概述。http://www.cs.toronto.edu网站/tijmen/csc321/slides/lecure_slides_lec6.pdf,2014年。
[23] G.Hinton、L.Deng、D.Yu、G.E.Dahl、A.Mohamed、N.Jaitly、A.Senior、V.Vanhoucke、P.Nguyen、T.N.Sainath等。语音识别中声学建模的深层神经网络:四个研究小组的共同观点。IEEE信号处理杂志,29(6):82-972012。
[24] S.Ioffe和C.Szegedy。批量规范化:通过减少内部协变量偏移来加速深层网络培训。在2015年国际机器学习会议上。
[25] C.Jin、R.Ge、P.Netrapalli、S.M.Kakade和M.I.Jordan。如何有效地避开鞍点。《第34届国际机器学习会议论文集》,第70卷,第1724-1732页,2017年。
[26] K.川口。深度学习,没有不良的局部极小值。《神经信息处理系统进展》,第586-594页,2016年。
[27] D.P.Kingma和J.Ba.Adam:一种随机优化方法。2015年国际学习代表大会。
[28] G.Klambauer、T.Unterthiner、A.Mayr和S.Hochreiter。自归一化神经网络。《神经信息处理系统进展》,第972-981页,2017年。
[29] A.Krizhevsky、I.Sutskever和G.E.Hinton。基于深度卷积神经网络的图像元分类。《神经信息处理系统进展》,第1097-1105页,2012年。
[30] Y.LeCun、Y.Bengio和G.Hinton。深度学习。《自然》,521(7553):4362015年。
[31] Y.LeCun、L.Bottou、G.B.Orr和K.-R.Müller。高效的后盾。《神经网络:交易技巧》,第9-50页。斯普林格,1998年。
[32] J.D.Lee、M.Simchowitz、M.I.Jordan和B.Recht。梯度下降只收敛到极小值。学习理论会议,第1246-1257页,2016年。
[33] A.L.Maas、A.Y.Hannun和A.Y.Ng。整流器非线性改进了神经网络声学模型。2013年国际机器学习会议,第30卷,第3页。
[34] D.Mishkin和J.Matas。你所需要的只是一个好的初始值。在2016年国际学习代表大会上。
[35] V.Nair和G.E.Hinton。整流线性单元改善了受限的玻尔兹曼机器。第27届国际机器学习会议(ICML-10)会议记录,第807-8142010页。
[36] Y.内斯特罗夫。凸优化入门讲座:基础课程,第87卷。施普林格科学与商业媒体,2013·Zbl 1086.90045号
[37] J.Nocedal和S.J.Wright。数值优化。斯普林格,2006年·Zbl 1104.65059号
[38] P.Petersen和F.Voigtlaender。使用深相关神经网络对分段光滑函数进行最佳逼近。2018年学习理论会议·兹伯利1434.68516
[39] B.Poole、S.Lahiri、M.Raghu、J.Sohl-Dickstein和S.Ganguli。通过瞬态混沌在深度神经网络中的指数表示性。《神经信息处理系统进展》,第3360-3368页,2016年。
[40] P.Ramachandran、B.Zoph和Q.V.Le。搜索激活功能。arXiv预印arXiv:1710.059412017。
[41] I.萨夫兰和O.沙米尔。伪局部极小值在双层relu神经网络中很常见。在2018年国际机器学习会议上,第4430-4438页。
[42] T.Salimans和D.P.Kingma。权重归一化:一种简单的重新参数化以加速深层神经网络的训练。《神经信息处理系统进展》,第901-909页,2016年。
[43] A.M.Saxe、J.L.McClelland和S.Ganguli。深度线性神经网络中非线性学习动力学的精确解。在2014年国际学习代表大会上。
[44] D.Silver、A.Huang、C.J.Maddison、A.Guez、L.Sifre、G.Van Den Driessche、J.Schrittwieser、I.Antonoglou、V.Panneershelvam、M.Lanctot等。掌握深度神经网络和树搜索的围棋游戏。《自然》,529(7587):4842016年。
[45] N.Srivastava、G.Hinton、A.Krizhevsky、I.Sutskever和R.Salakhutdinov。辍学:防止神经网络过度拟合的简单方法。机器学习研究杂志,15(1):1929-19582014·Zbl 1318.68153号
[46] R.K.Srivastava、K.Greff和J.Schmidhuber。训练深度网络。《神经信息处理系统进展》,第2377-2385页,2015年。
[47] 孙毅、王晓红和唐晓红。深入学习的人脸表示是稀疏的、选择性的和健壮的。《IEEE计算机视觉和模式识别会议论文集》,第2892-2900页,2015年。
[48] I.Sutskever、J.Martens、G.Dahl和G.Hinton。关于深度学习中初始化和动量的重要性。在2013年国际机器学习会议上,第1139-1147页。
[49] C.Szegedy、W.Liu、Y.Jia、P.Sermanet、S.Reed、D.Anguelov、D.Erhan、V.Vanhoucke和A.Rabinovich。用卷积深入。《IEEE计算机视觉和模式识别会议论文集》,第1-9页,2015年。
[50] L.Trottier,P.Gigu,B.Chaib-draa等。深度卷积神经网络的参数指数线性单位。2017年第16届IEEE机器学习与应用国际会议(ICMLA),第207-214页。IEEE,2017年。
[51] D.Ulyanov、A.Vedaldi和V.Lempitsky。实例规范化:快速风格化所缺少的元素。arXiv预印arXiv:1607.080222016。
[52] C.Wu、J.Luo和J.Lee。在两个隐藏单元的relu网络中没有虚假的局部极小值。在2018年国际学习代表大会研讨会上。
[53] Y.Wu和K.He。组规范化。《欧洲计算机视觉会议论文集》,2018年第3-19页。
[54] D.雅罗斯基。深度relu网络近似的误差边界。神经网络,94:103-1142017·Zbl 1429.68260号
[55] C.Yun、S.Sra和Jadbabaie A.激活函数中的小非线性会在神经网络中产生坏的局部极小值。arXiv预印arXiv:1802.034872018。
[56] M.D.Zeiler博士。Adadelta:一种自适应学习速率方法。arXiv预印arXiv:12122.57012012。
[57] Y.Zhou和Y.Liang。神经网络的关键点:分析形式和景观特性。arXiv预印arXiv:1710.112052017
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。