×

使用归一化梯度进行搜索方向校正使一阶方法更快。 (英语) Zbl 1477.90107号

摘要:所谓快速惯性松弛引擎是解决无约束光滑优化问题的一阶方法。它通过过去搜索方向、当前渐变和规范化渐变方向的线性组合来更新搜索方向。我们探索了更一般的组合规则,并将这种广义技术称为搜索方向校正(SDC)。SDC也扩展到了复合和随机优化问题。从二阶常微分方程出发,我们提出了一种快速惯性搜索方向校正(FISC)算法,作为SDC方法的一个例子。我们证明了凸优化问题FISC的(mathcal{O}(k^{-2})收敛速度。稀疏优化、逻辑回归和深度学习的数值结果表明,我们提出的方法与其他最先进的一阶算法相比具有相当大的竞争力。

MSC公司:

90立方 非线性规划
90立方厘米 随机规划
65千5 数值数学规划方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] H.Attouch、Z.Chbani、J.Fadili和H.Riahi,通过带有麻布驱动阻尼的惯性系统的一阶优化算法,数学。程序。,2020, https://doi.org/10.1007/s10107-020-01591-1。 ·Zbl 1497.37121号
[2] J.Barzilai和J.M.Borwein,两点步长梯度法,IMA J.Numer。分析。,8(1988),第141-148页·Zbl 0638.65055号
[3] A.Beck和M.Teboulle,线性反问题的快速迭代收缩阈值算法,SIAM J.成像科学。,2(2009年),第183-202页·Zbl 1175.94009号
[4] E.Bitzek、P.Koskinen、F.Gaöhler、M.Moseler和P.Gumbsch,《结构松弛变得简单》,Phys。修订稿。,97 (2006).
[5] C.-C.Chang和C.-J.Lin,LIBSVM:支持向量机库,ACM Trans。智力。系统。技术。,2 (2011), 27.
[6] 戴勇,非线性共轭梯度法,上海科学技术,上海,2000。
[7] A.Defazio,F.Bach和S.Lacoste-Julien,SAGA:支持非强凸复合目标的快速增量梯度法,《神经信息处理系统学报》,2014年,第1646-1654页。
[8] J.Duchi、E.Hazan和Y.Singer,在线学习和随机优化的自适应次梯度方法,J.Mach。学习。Res.,12(2011),第2121-2159页·兹比尔1280.68164
[9] E.Ghadimi、H.R.Feyzmahdavian和M.Johansson,凸优化重锤法的全局收敛性,《欧洲控制会议(ECC)论文集》,IEEE,2015年,第310-315页。
[10] K.He、X.Zhang、S.Ren和J.Sun,图像识别的深度剩余学习,《IEEE计算机视觉和模式识别会议论文集》,2016年,第770-778页。
[11] G.Huang,Z.Liu,L.Van Der Maaten和K.Q.Weinberger,《紧密连接卷积网络》,《IEEE计算机视觉和模式识别会议论文集》,2017年,第4700-4708页。
[12] R.Johnson和T.Zhang,使用预测方差减少加速随机梯度下降,《神经信息处理系统进展学报》,2013年,第315-323页。
[13] D.P.Kingma和J.Ba,Adam:随机优化方法,《2015年学习表征国际会议论文集》。
[14] A.Krizhevsky,《从微小图像中学习多层特征》,多伦多大学计算机科学系硕士论文,2009年。
[15] L.Lessard、B.Recht和A.Packard,通过积分二次约束分析和设计优化算法,SIAM J.Optim。,26(2016),第57-95页·Zbl 1329.90103号
[16] D.C.Liu和J.Nocedal,关于大规模优化的有限内存BFGS方法,数学。程序。,45(1989),第503-528页·Zbl 0696.90048号
[17] L.Luo、Y.Xiong、Y.Liu和X.Sun,学习速率动态界的自适应梯度方法,《学习表征国际会议论文集》,2018年。
[18] A.Milzarek和M.Ulbrich,(l_1)-优化的多维滤波器全球化半光滑牛顿法,SIAM J.Optim。,24(2014),第298-333页·Zbl 1295.49022号
[19] A.Milzarek,X.Xiao,S.Cen,Z.Wen,M.Ulbrich,非光滑非凸优化的随机半光滑牛顿法,SIAM J.Optim。,29(2019),第2916-2948页·Zbl 1434.90108号
[20] Y.Nesterov,一种求解具有收敛速度的凸规划问题的方法\(O(1/k^2)\),苏联数学。道克。,27(1983年),第372-376页·兹伯利0535.90071
[21] Y.Nesterov,凸优化入门讲座:基础课程,应用。最佳方案。87,施普林格,纽约,2013年·Zbl 1086.90045号
[22] B.O'Donoghue和E.J.Candeás,《加速梯度方案的自适应重启》,Found。计算。数学。,15(2015),第715-732页·Zbl 1320.90061号
[23] B.T.Polyak,最优化导论,最优化软件,纽约,1987年·Zbl 0625.62093号
[24] M.Schmidt、N.LeRoux和F.Bach,《利用随机平均梯度最小化有限和》,技术报告,INRIA,2013年。
[25] W.Su、S.Boyd和E.J.CandèS,用于建模Nesterov加速梯度法的微分方程:理论和见解,J.Mach。学习。第17号决议(2016年)·Zbl 1391.90667号
[26] Z.Wen、W.Yin、W.Goldfarb和D.Zhang,基于收缩、子空间优化和延拓的稀疏重建快速算法,SIAM J.Sci。计算。,32(2010年),第1832-1857页·Zbl 1215.49039号
[27] A.Wibisono,A.C.Wilson和M.I.Jordan,优化中加速方法的变分视角,Proc。国家。阿卡德。科学。美国,113(2016),第E7351-E7358页·Zbl 1404.90098号
[28] A.C.Wilson、B.Recht和M.I.Jordan,优化中动量方法的Lyapunov分析,https://arxiv.org/abs/1611.02635, 2016.
[29] S.J.Wright、R.D.Nowak和M.A.Figueiredo,可分离近似稀疏重建,IEEE Trans。信号处理。,57(2009),第2479-2493页·Zbl 1391.94442号
[30] L·肖和T·张,带逐步方差缩减的近似随机梯度法,SIAM J.Optim。,24(2014),第2057-2075页·Zbl 1321.65016号
[31] X.Xiao,Y.Li,Z.Wen,L.Zhang,复合凸规划的带投影步长的正则化半光滑牛顿法,J.Sci。计算。,76(2018),第364-389页·Zbl 1394.90534号
[32] 张宏,海格,非单调线搜索技术及其在无约束优化中的应用,SIAM J.Optim。,14(2004),第1043-1056页·Zbl 1073.90024号
[33] J.Zhang、A.Mokhtari、S.Sra和A.Jadbabaie,《直接龙格-库塔离散化实现加速》,载于《第32届国际神经信息处理系统会议论文集》,2018,第3900-3909页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。