×

用于训练深度神经网络的块层分解方案。 (英语) Zbl 1441.90127号

摘要:深度前馈神经网络(DFNN)的权重估计依赖于一个非常大的非凸优化问题的解,该问题可能有许多局部(非全局)极小值点、鞍点和大平台。此外,找到训练问题的良好解决方案所需的时间在很大程度上取决于样本数和权重(变量)数。在这项工作中,我们展示了块坐标下降(BCD)方法如何有效地应用于DFNN权重优化问题,并嵌入在线框架中,从而避免出现坏的平稳点。我们首先描述了一种批量BCD方法,该方法能够有效地解决由于网络深度带来的困难;然后我们进一步扩展了该算法,提出了一种在线BCD方案,该方案能够根据变量数量和样本数量进行缩放。我们使用各种深度网络对标准数据集进行了广泛的数值计算。我们表明,将BCD方法应用于DFNN的训练问题,在训练阶段比标准的批处理/在线算法有了改进,同时保证了良好的泛化性能。

理学硕士:

90C26型 非凸规划,全局优化
90C06型 数学规划中的大尺度问题
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 贝克,A。;Tetraushvili,L.,关于块坐标下降型方法的收敛性,SIAM J.Optim。,2037-2060年4月23日(2013年)·Zbl 1297.90113号
[2] Bertsekas,DP,增量最小二乘法和扩展卡尔曼滤波器,SIAM J.Optim。,6、3、807-822(1996年)·Zbl 0945.93026号
[3] Bertsekas,DP,非线性规划,J.Oper。Res.Soc.,48,3,334-334(1997)
[4] Bertsekas,D.P.:凸优化的增量梯度、次梯度和近似方法:一项调查。CoRR,arXiv:abs/1507.01030(2015)
[5] Bertsekas,DP;Tsitsiklis,JN,有误差梯度方法中的梯度收敛,SIAM J.Optim。,10, 3, 627-642 (2000) ·Zbl 1049.90130号
[6] Bottou,L.:具有随机梯度下降的大规模机器学习。纳入:COMPSTAT(2010)·Zbl 1436.68293号
[7] 博图,L。;FE柯蒂斯;Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.,60,2,223-311(2018)·Zbl 1397.65085号
[8] Bravi,L。;Sciandone,M.,无约束优化的增量分解方法,应用。数学。计算。,235, 80-86 (2014) ·Zbl 1334.90071号
[9] Buzzi,C。;格里波,L。;Sciandone,M.,训练RBF神经网络的收敛分解技术,神经计算。,13, 8, 1891-1920 (2001) ·Zbl 0986.68109号
[10] Chauhan,V.K.,Dahiya,K.,Sharma,A.:基于Mini-bactch块坐标的随机平均调整梯度方法,用于解决大数据问题。摘自:《第九届亚洲机器学习会议论文集》,《机器学习研究论文集》第77卷,第49-64页。PMLR,2017年11月15-17日
[11] Chollet,F.等人:Keras(2015)
[12] Dauphin,YN;帕斯卡努,R。;Gulcehre,C.公司。;Cho,K。;神经节,S。;Bengio,Y.,《识别和解决高维非凸优化中的鞍点问题》,《高级神经信息处理》。系统。,27, 2933-2941 (2014)
[13] 德法齐奥,A。;巴赫,F。;Lacoste-Julien,S.,SAGA:支持非强凸复合目标的快速增量梯度方法,高级神经信息处理。系统。,27, 1646-1654 (2014)
[14] 杜奇,J。;哈赞,E。;Singer,Y.,在线学习和随机优化的自适应次梯度方法,J.Mach。学习。第2121-2159号决议(2011年)·Zbl 1280.68164号
[15] 费希尔,RA;约翰逊,荷兰;Kotz,S.,研究工作者的统计方法,统计学突破,66-70(1992),柏林:施普林格,柏林
[16] Glrot,X.,Bengio,Y.:理解训练深度前馈神经网络的困难。摘自:《第十三届国际人工智能与统计会议记录》,第249-256页(2010年)
[17] 古德费罗,I。;Y.本吉奥。;Courville,A.,《深度学习》(2016),剑桥:麻省理工学院出版社,剑桥·兹比尔1373.68009
[18] 格里波,L。;Manno,A。;Sciandone,M.,多层感知器训练的分解技术,IEEE Trans。神经网络。学习。系统。,27, 11, 2146-2159 (2016)
[19] 格里波,L。;Sciandone,M.,无约束优化的全局收敛块坐标技术,Optim。方法软件。,10, 4, 587-637 (1999) ·Zbl 0940.65070号
[20] 黄,G。;朱,Q。;Siew,C.,《极限学习机器:理论与应用》,神经计算,70489-501(2006)
[21] 黄,G-B;王,DH;Lan,Y.,《极限学习机器:一项调查》,Int.J.Mach。学习。赛博。,2, 2, 107-122 (2011)
[22] 约翰逊,R。;Zhang,T.,使用预测方差减少加速随机梯度下降,高级神经信息处理。系统。,26, 315-323 (2013)
[23] Jones,E.,Oliphant,T.,Peterson,P.等人:SciPy:Python的开源科学工具。[在线;今天访问\(<\)\(>](2001)\)
[24] Kingma,D.P.,Ba,J.:亚当:随机优化方法。CoRR,arXiv:abs/1412.6980(2014)
[25] Nesterov,Y.,坐标下降法在大规模优化问题上的效率,SIAM J.Optim。,22, 2, 341-362 (2012) ·Zbl 1257.90073号
[26] Nesterov,YE,一种求解收敛速度为o((1/{\rmk}\hat{}2)的凸规划问题的方法,Dokl。阿卡德。瑙克SSSR,269543-547(1983)
[27] Nocedal,J。;Wright,SJ,《数值优化》(2006),纽约:Springer,纽约
[28] Palagi,L.,深度网络回归中的全局优化问题:综述,环球杂志。最佳。,73, 239-277 (2018) ·Zbl 1421.90154号
[29] 秦,T。;谢恩伯格,K。;Goldfarb,D.,组套索的高效块坐标下降算法,数学。程序。计算。,5, 6, 143-169 (2013) ·Zbl 1275.90059
[30] 罗宾斯,H。;Monro,S.,《随机近似方法》,《数学年鉴》。《统计》,22,400-407(1951)·Zbl 0054.05901号
[31] Tieleman,T。;Hinton,G.,第6.5讲-RMSProp:将梯度除以最近量级的运行平均值,COURSERA Neural Netw。机器。学习。,4, 2, 26-31 (2012)
[32] Wang,H.,Banerjee,A.:用于在线和随机优化的随机块坐标下降。arXiv预印arXiv:1407.0107(2014)
[33] Wright,SJ,坐标下降算法,数学。程序。,151, 1, 3-34 (2015) ·Zbl 1317.49038号
[34] Yu,A.W.,Huang,L.,Lin,Q.,Salakhutdinov,R.,Carbonell,J.:深度神经网络训练的自适应步长法归一化梯度。CoRR arXiv:abs/1707.04822(2017)
[35] Zhao,T.,Yu,M.,Wang,Y.,Arora,R.,Liu,H.:加速微束随机区组坐标下降法。摘自:《神经信息处理系统进展》,第3329-3337页(2014年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。