×

梯度下降优化了过参数化的深层ReLU网络。 (英语) Zbl 1494.68245号

摘要:我们研究了利用校正线性单元(ReLU)激活函数和交叉熵损失函数训练深度全连通神经网络以进行梯度下降二值分类的问题。我们证明了在对训练数据进行一定假设的情况下,通过适当的随机权值初始化,梯度下降法可以找到超参数化深度ReLU网络训练损失的全局最小值。我们证明的关键思想是,高斯随机初始化和梯度下降产生了一系列迭代,这些迭代停留在以初始权重为中心的小扰动区域内,其中深层ReLU网络的训练损失函数具有良好的局部曲率特性,保证了梯度下降的全局收敛性。我们的证明技术的核心是(1)对训练数据的温和假设;(2) 梯度下降轨迹长度的精确分析;(3)扰动区域大小的精细表征。与同期工作相比[Z.Allen-Zhu先生等,“通过过度参数化进行深度学习的收敛理论”,预印本,arXiv:1811.03962;S.S.杜等,“梯度下降发现深层神经网络的全局极小值”,预印本,arXiv公司:1811.03804]沿着这条路线,我们的结果依赖于神经网络宽度的温和的过参数化条件,并且对于训练深层神经网络来说,具有更快的梯度下降全局收敛速度。

MSC公司:

68T07型 人工神经网络与深度学习
65年第68季度 算法和问题复杂性分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Allen-Zhu,Z.,Li,Y.,&Song,Z.(2018a)。通过过度参数化进行深度学习的收敛理论。arXiv预印本arXiv:1811.03962
[2] Allen-Zhu,Z.,Li,Y.,&Song,Z.(2018b)关于训练递归神经网络的收敛速度。arXiv预打印arXiv:1810.12065
[3] Arora,S.、Cohen,N.、Golowich,N.和Hu,W.(2018a)。深度线性神经网络梯度下降的收敛性分析。arXiv预打印arXiv:1810.02281
[4] Arora,S.、Cohen,N.和Hazan,E.(2018b)。深度网络优化:通过超参数化实现隐式加速。arXiv预打印arXiv:1802.06509
[5] Bartlett,P.、Helmbold,D.和Long,P.(2018年)。带有身份初始化的梯度下降有效地学习正定线性变换。在机器学习国际会议上,第520-529页·Zbl 1475.68311号
[6] Brutzkus,A.和Globerson,A.(2017年)。高斯输入卷积网络的全局最优梯度下降。arXiv预打印arXiv:1702.07966
[7] Du,S.S.、Lee,J.D.和Tian,Y.(2017)。卷积滤波器什么时候容易学习?arXiv预打印arXiv:1709.06129
[8] Du,S.S.、Lee,J.D.、Li,H.、Wang,L.和Zhai,X.(2018a)。梯度下降法寻找深层神经网络的全局极小值。arXiv预打印arXiv:1811.03804
[9] Du,S.S.、Zhai,X.、Poczos,B.和Singh,A.(2018b)。梯度下降可证明优化了过参数化神经网络。arXiv预打印arXiv:1810.02054
[10] Gunasekar,S.、Lee,J.、Soudry,D.和Srebro,N.(2018年)。线性卷积网络上梯度下降的隐式偏差。arXiv预打印arXiv:1806.00468
[11] Hanin,B.(2017)。具有有界宽度和ReLU激活的深度神经网络的通用函数逼近。arXiv预打印arXiv:1708.02691
[12] Hanin,B.,Sellke,M.(2017年)。用最小宽度的ReLU网逼近连续函数。arXiv预印本arXiv:1710.11278
[13] Hardt,M.和Ma,T.(2016)。身份在深度学习中很重要。arXiv预打印arXiv:1611.04231
[14] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2015)。深入研究整流器:在图像网络分类方面超越人类水平的性能。IEEE计算机视觉国际会议论文集,第1026-1034页。
[15] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。用于图像识别的深度残差学习。《IEEE计算机视觉和模式识别会议论文集》,第770-778页。
[16] 辛顿,G。;邓,L。;Yu,D。;Dahl,通用电气;Ar,穆罕默德;北卡罗来纳州贾特利。;高级,A。;Vanhoucke,V。;Nguyen,P。;Sainath,TN,《语音识别中声学建模的深度神经网络:四个研究小组的共同观点》,IEEE Signal Processing Magazine,29,6,82-97(2012)·doi:10.1109/MSP.2012.2205597
[17] Hochreiter,S。;Schmidhuber,J.,《长短期记忆,神经计算》,第9、8、1735-1780页(1997年)·doi:10.1162/neco.1997.9.8.1735
[18] Hornik,K.,多层前馈网络的逼近能力,神经网络,4,2251-257(1991)·doi:10.1016/0893-6080(91)90009-T
[19] 川口,K.(2016)。深度学习,没有不良的局部极小值。《神经信息处理系统进展》,第586-594页。
[20] Krizhevsky,A.(2009)。从微小图像中学习多层特征。Citeser技术代表。
[21] Krizhevsky,A.、Sutskever,I.和Hinton,G.E.(2012)。基于深度卷积神经网络的Imagenet分类。《神经信息处理系统进展》,第1097-1105页。
[22] LeCun,Y。;博图,L。;本吉奥,Y。;Haffner,P.,《基于梯度的学习应用于文档识别》,IEEE会议记录,86,11,2278-2324(1998)·数字对象标识代码:10.1109/5.726791
[23] Li,Y.,&Liang,Y..(2018年)。基于结构化数据的随机梯度下降学习超参数神经网络。arXiv预打印arXiv:1808.01204
[24] Li,Y.,&Yuan,Y.(2017)。ReLU激活的双层神经网络的收敛性分析。arXiv预打印arXiv:1705.09886
[25] Liang,S.和Srikant,R.(2016)。为什么用深层神经网络进行函数逼近?arXiv预打印arXiv:1610.04161
[26] Lin,H.和Jegelka,S.(2018年)。具有单神经元隐藏层的Resnet是一种通用逼近器。《神经信息处理系统进展》,第6172-6181页。
[27] Lu,Z.,Pu,H.,Wang,F.,Hu,Z.&Wang,L.(2017)。神经网络的表达能力:从宽度的角度来看。arXiv预打印arXiv:1709.02540
[28] Silver博士。;黄,A。;CJ麦迪逊;A.盖兹。;Sifre,L。;Van Den Driessche,G。;Schrittwieser,J。;安东尼奥卢,I。;Panneershelvam,V。;Lanctot,M.,《掌握深度神经网络和树搜索的游戏》,《自然》,529,7587,484-489(2016)·doi:10.1038/nature16961
[29] Telgarsky,M.(2015)。表示深度前馈网络的优点。arXiv预打印arXiv:1509.08101
[30] Telgarsky,M.(2016)。神经网络的深度优势。arXiv预印本arXiv:1602.04485
[31] 田毅(2017)。二层ReLU网络种群梯度的解析公式及其在收敛性和临界点分析中的应用。arXiv预打印arXiv:1703.00560
[32] Vershynin,R.(2010年)。介绍随机矩阵的非渐近分析。arXiv预打印arXiv:1011.3027
[33] Yarotsky,D.,深度ReLU网络近似的误差界,神经网络,94,103-114(2017)·Zbl 1429.68260号 ·doi:10.1016/j.neunet.2017.07.002
[34] Yarotsky,D.(2018)。用非常深的ReLU网络对连续函数进行最佳逼近。arXiv预打印arXiv:1802.03620
[35] Zhang,X.,Yu,Y.,Wang,L.,&Gu,Q.(2018)。通过梯度下降学习单层ReLU网络。arXiv预打印arXiv:1806.07808
[36] 周大新(2019)。深度卷积神经网络的普遍性。在应用和计算谐波分析中。
[37] 邹,D.,曹,Y.,Zhou。D.,&Gu,Q.(2018)。随机梯度下降优化了过参数化的深relu网络。arXiv预印本arXiv:1811.08888·Zbl 1494.68245号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。