×

结构非凸问题的随机近似线性方法。 (英语) Zbl 1464.90066号

摘要:在这项工作中,出于学习深度神经网络这一挑战性任务的动机,我们考虑了优化问题,其中包括最小化非凸函数和非光滑函数的有限和,其中非光滑性显示为具有Lipschitz连续梯度的非凸函数的最大值。由于总和的规模很大,在实践中,我们将重点放在随机一阶方法上,并提出了随机近似线性方法(SPLM),该方法基于在每次迭代时最小化适当的主元,并保证几乎肯定会收敛到目标函数的临界点,其中我们还证明了它在寻找临界点时的收敛速度。

MSC公司:

90C26型 非凸规划,全局优化
26对25 多变量实函数的凸性,推广
49平方米27 分解方法
52A41型 凸几何中的凸函数和凸规划
65千5 数值数学规划方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agarwal,N.、Allen-Zhu,Z.、Bullins,B.、Hazan,E.和Ma,T.,寻找线性时间非凸优化的近似局部极小值,《计算理论研讨会》,2017年·Zbl 1369.68290号
[2] Auslender,A.,用于非线性、半定和二阶锥规划的扩展序列二次约束二次规划算法,J.Optim。理论应用。,156, 2, 183-212 (2013) ·Zbl 1290.90060
[3] 贝克,A。;Teboulle,M.,用于凸最小化和应用的快速对偶最近点梯度算法,Oper。Res.Lett.公司。,42, 1, 1-6 (2014) ·Zbl 1408.90232号
[4] Bertsekas,D.P。;Tsitsiklis,J.N.,《并行和分布式计算:数值方法》(1989),新泽西州恩格尔伍德悬崖普伦蒂斯·霍尔·Zbl 0743.65107号
[5] 博尔特,J。;Pauwels,E.,半代数和驯化程序的优化-最小化程序和SQP方法的收敛性,数学。操作。决议,41,2,442-465(2016)·Zbl 1338.65156号
[6] 博图,L。;柯蒂斯,F.E。;Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.,60,2,223-311(2018)·Zbl 1397.65085号
[7] Carmon,Y.、Duchi,J.C.、Hinder,O.和Sidford,A.,《证明有罪之前的凸:非凸函数梯度下降的无量纲加速》,第34届国际机器学习会议论文集,2017年第70卷,第654-663页。
[8] 卡蒙,Y。;杜奇,J.C。;Hinder,O。;Sidford,A.,非凸优化的加速方法,SIAM J.Optim。,28, 2, 1751-1772 (2018) ·Zbl 1400.90250号
[9] Davis,D。;Edmunds,B。;Udell,M.,《APALM鼓掌之声:使用随机异步PALM进行更快的非光滑非凸优化》,高级神经信息处理。系统。,226-234 (2016)
[10] 德法齐奥,A。;巴赫,F。;Lacoste-Julien,S.,SAGA:支持非强凸复合目标的快速增量梯度方法,高级神经信息处理。系统。,1646-1654 (2014)
[11] Duchi,Y。;哈赞,E。;Singer,Y.,在线学习和随机优化的自适应次梯度方法,J.Mach。学习。第2121-2159号决议(2011年)·Zbl 1280.68164号
[12] Ge,R.,Huang,F.,Jin,C.和Yuan,Y.,逃离鞍点用于张量分解的在线随机梯度,学习理论会议,2015,第797-842页。
[13] 约翰逊,R。;Zhang,T.,使用预测方差减少加速随机梯度下降,高级神经网络。信息处理。系统。,315-323 (2013)
[14] Kingma,D.和Ba,J.,Adam:随机优化方法,预印本(2014)。可从arXiv:1412.6980获取。
[15] Lee,H。;Kwon,H.,《利用上下文CNN进行高光谱图像分类的深入研究》,IEEE T.图像处理。,26, 10, 4843-4855 (2017)
[16] Lee,J.D.、Simchowitz,M.、Jordan,M.I.和Recht,B.,《梯度下降仅收敛到最小化》,学习理论会议,2016年,第1246-1257页。
[17] 刘易斯,A.S。;Wright,S.J.,复合最小化的近似方法,数学。程序。,158, 1-2, 501-546 (2016) ·Zbl 1345.49041号
[18] 刘,S。;凯尔库拉,B。;陈,P.Y。;Ting,P。;Chang,S。;Amini,L.,非凸优化的零阶随机方差缩减,高级神经网络。信息处理。系统。,3727-3737 (2018)
[19] Pauwels,E.,复合优化中收敛分析的值函数方法,Oper。Res.Lett.公司。,44, 6, 790-795 (2016) ·Zbl 1408.90283号
[20] Reddi,S.J.、Hefny,A.、Sra,S.、Poczos,B.和Smola,A.,非凸优化的随机方差缩减,国际机器学习会议,2016年,第314-323页。
[21] 罗宾斯,H。;Monro,S.,《随机近似方法》,《数学年鉴》。《统计》,22,400-407(1951)·Zbl 0054.05901号
[22] Rockafellar,R.T.,《凸分析》(1970),普林斯顿大学出版社:普林斯顿大学出版,新泽西州普林斯顿·Zbl 0229.90020号
[23] Rockafellar,R.T。;Wets,R.J.-B.,变分分析,317(1998),《施普林格-弗拉格:施普林格》,柏林·Zbl 0888.49001号
[24] 施密特,M。;Le Roux,N。;巴赫,F.,用随机平均梯度最小化有限和,数学。程序。,162, 1-2, 1-30 (2017) ·Zbl 1358.90073号
[25] 沙列夫·施瓦茨,S。;辛格,Y。;北斯雷布罗。;Cotter,A.,Pegasos:SVM的原始估计子梯度解算器,数学。程序。,127, 1, 83-112 (2011) ·Zbl 1211.90239号
[26] Staib,M.、Reddi,S.J.、Kale,S.、Kumar,S.和Sra,S.,用自适应梯度方法逃离鞍点,机器学习国际会议,2019年,第5956-5965页。
[27] Teboulle,M.,优化一阶方法的简化视图,数学。程序。,170, 67-96 (2018) ·Zbl 1391.90482号
[28] Wang,J.、Yang,Y.、Mao,J.,Huang,Z.、Huang、C.和Xu,W.,CNN-RNN:多标签图像分类的统一框架,IEEE计算机视觉和模式识别会议论文集,2016年,第5-16页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。