×

一种具有较大步长和可能不可分离函数的坐标下降原对偶算法。 (英语) Zbl 1411.90265号

小结:本文介绍了Vũ-Condat算法的一种随机坐标渐变版本。通过坐标下降,我们的意思是在每次迭代时仅更新原始迭代和对偶迭代的坐标子集,其他坐标保持为其过去的值。我们的方法允许我们用可微函数和约束以及不可分离和不可微正则化子的组合来解决优化问题。我们表明,与以前的方法相比,对于更大范围的参数值,由我们的算法生成的序列几乎肯定会收敛到所涉问题的鞍点。特别是,步长的条件取决于可微函数梯度的坐标Lipschitz常数,这是允许经典坐标下降在适用时表现良好的一个主要特征。然后,我们证明了一般情况下的次线性收敛速度,以及当目标具有强凸性时的线性收敛速度。我们说明了该算法在全变量正则化最小二乘回归问题和大规模支持向量机问题上的性能。

MSC公司:

90C25型 凸面编程
49平方米25 最优控制中的离散逼近
90C06型 数学规划中的大尺度问题
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] H.H.Bauschke、J.M.Borwein和P.L.Combettes,《Bregman单调优化算法》,SIAM J.Control Optim,42(2003),第596-636页·兹比尔1049.90053
[2] A.Beck和M.Teboulle,{线性反问题的快速迭代收缩阈值算法},SIAM J.成像科学。,2(2009年),第183-202页·Zbl 1175.94009号
[3] A.Beck和L.Terumeshvili,{关于块坐标下降型方法的收敛性},SIAM J.Optim。,23(2013),第2037-2060页·Zbl 1297.90113号
[4] D.P.Bertsekas,{大规模凸优化的增量近似方法},数学。程序。,129(2011),第163-195页·兹比尔1229.90121
[5] D.P.Bertsekas和J.N.Tsitsiklis,{并行和分布式计算:数值方法},Prentice-Hall,Englewood Cliffs,NJ,1989年·Zbl 0743.65107号
[6] P.Bianchi和O.Fercoq,{\it Using big steps in coordinate descenting primarl-dual algorithms},《2016年IEEE第55届决策与控制会议论文集》,内华达州拉斯维加斯,IEEE出版社,新泽西州皮斯卡塔韦,2016年,第1895-1899页。
[7] P.Bianchi、W.Hachem和F.Iutzeler,《随机坐标下降原对偶算法及其在大规模复合优化中的应用》,预印本,2014年·Zbl 1359.90090号
[8] S.Boyd、N.Parikh、E.Chu、B.Peleato和J.Eckstein,《通过交替方向乘数法进行分布式优化和统计学习》,Found。趋势。机器。学习。,3(2011年),第1-122页·Zbl 1229.90122号
[9] V.Cevher、S.Becker和M.Schmidt,《大数据的凸优化:大数据分析的可伸缩、随机和并行算法》,IEEE信号处理。Mag.,31(2014),第32-43页。
[10] A.Chambolle、V.Caselles、D.Cremers、M.Novaga和T.Pock,《图像分析总变差简介》,载于《稀疏恢复的理论基础和数值方法》,《计算氡级数》。申请。数学。2010年9月,Walter De Gruyter,柏林,第263-340页·Zbl 1209.94004号
[11] A.Chambolle和C.Dossal,{关于“快速迭代收缩/阈值算法”迭代的收敛性,}J.Optim。理论应用,166(2015),第968-982页·Zbl 1371.65047号
[12] A.Chambolle、M.J.Ehrhardt、P.Richtaárik和C.B.Scho¨nlieb,《随机原始-双重混合梯度算法与任意采样和成像应用》,预印本,2017年·Zbl 06951767号
[13] A.Chambolle和T.Pock,{\it凸问题的一阶原对偶算法及其在成像中的应用},J.Math。《成像视觉》,40(2011),第120-145页·Zbl 1255.68217号
[14] A.Chambolle和T.Pock,关于一阶原对偶算法的遍历收敛率,Math。程序。,159(2016),第253-287页·Zbl 1350.49035号
[15] C.-C.Chang和C.-J.Lin,{it LIBSVM:支持向量机库},ACM Trans。智力。系统。技术。,2 (2011), 27.
[16] P.L.Combettes和J.-C.Pesquet,{随机拟Fejer块坐标不动点迭代与随机扫描},SIAM J.Optim。,25(2015),第1221-1248页·Zbl 1317.65135号
[17] L.Condat,{它是一种求解涉及Lipschitz、近似和线性复合项}的凸优化问题的原对偶分裂方法,J.Optim。理论应用。,158(2013),第460-479页·Zbl 1272.90110号
[18] D.Davis和W.Yin,{三算子分裂方案及其优化应用},预印本,2015年·兹比尔1464.47041
[19] D.Davis和W.Yin,{放松Peaceman-Rachford和ADMM在正则性假设下的更快收敛速度},数学。操作。决议,42(2017),第783-805页·Zbl 1379.65035号
[20] E.Dohmatob、A.Gramfort、B.Thirion和G.Varoquaux,电视基准解算器-\(ℓ_1)脑成像中的最小二乘和逻辑回归},《2014年神经成像模式识别国际研讨会论文集》,IEEE出版社,新泽西州皮斯卡塔韦,2014,DOI:10.1109/PRNI.2014.6858516。
[21] O.Fercoq和P.Richtaárik,{加速、平行和近端坐标下降},SIAM J.Optim。,25(2015),第1997-2023页·兹比尔1327.65108
[22] J.Friedman,T.Hastie,H.Ho¨fling,和R.Tibshirani,《路径坐标优化》,Ann.Appl。《法律总汇》,1(2007),第302-332页·Zbl 1378.90064号
[23] D.Gabay,《乘子法在变分不等式中的应用》,增广拉格朗日方法:在边值问题数值解中的应用,数学研究。适用。15,M.Fortin和R.Glowinski编辑,Elsevier,纽约,1983年,第299-331页·Zbl 0525.65045号
[24] D.Gabay和B.Mercier,{通过有限元近似求解非线性变分问题的对偶算法},计算。数学。申请。,2(1976年),第17-40页·Zbl 0352.65034号
[25] X.Gao,Y.Xu,and S.Zhang,{随机原始-双重邻近块坐标更新},预印本,2016年·Zbl 1438.90255号
[26] X.Gao和S.-Z.Zhang,{不可分离目标和耦合约束凸优化的一阶算法},J.Oper。《中国研究社会》,第5期(2017年),第131-159页·Zbl 1390.90423号
[27] R.Glowinski和A.Marroco,《{\it Sur l’A approximation》,《par eéleéments finis d’ordre un》,《et la reésolution》,par peénalisation-qualite⁄d’une classe de problèmes de Dirichlet non-line \aires},RAIRO Analyse Numeárique,9(1975),第41-76页·Zbl 0368.65053号
[28] I.Guyon、V.Lemaire、M.Boulleí、G.Dror和D.Vogel,《KDD Cup的分析》(2009年):大型Orange客户数据库的快速得分》,Proc。机器。学习。决议7,第1-22页;可从获取。
[29] B.He和X.Yuan,{鞍点问题原对偶算法的收敛性分析:从收缩角度},SIAM J.成像科学。,5(2012),第119-149页·Zbl 1250.90066号
[30] M.Hong,X.Wang,M.Razaviyayn,和Z.-Q.Luo,{块坐标下降法的迭代复杂性分析},数学。程序。,163(2017),第85-114页·Zbl 1367.49010号
[31] R.A.Horn和C.R.Johnson,《矩阵分析》,剑桥大学出版社,剑桥,2012年。
[32] F.Iutzeler、P.Bianchi、P.Ciblat和W.Hachem,{使用随机交替方向乘数法的异步分布式优化},《IEEE第52届决策与控制年会论文集》,IEEE出版社,新泽西州皮斯卡塔韦,2013年,第3671-3676页。
[33] D.D.Lewis、Y.Yang、T.G.Rose和F.Li,{《RCV1:文本分类研究的新基准集》},J.Mach。学习。Res.,5(2004),第361-397页。
[34] Q.Lin、Z.Lu和L.Xiao,《高级神经信息过程》中的一种加速近端坐标梯度方法。系统。27,Z.Ghahramani,M.Welling,C.Cortes,N.D.Lawrence和K.Q.Weinberger,eds.,Curran Associates,Red Hook,NY,2014年,第3059-3067页。
[35] 罗志清,曾培生,{关于凸可微极小化的坐标下降法的收敛性},J.Optim。理论应用。,72(1992),第7-35页·Zbl 0795.90069号
[36] J.Mairal,{增量优化-最小化优化及其在大规模机器学习中的应用},SIAM J.Optim。,25(2015),第829-855页·Zbl 1320.90047号
[37] I.Necoara和A.Patrascu,{\it A Random Coordinate Descent Algorithm for Optimization Problems with Composite Object Function and Linear Coupled Constraints},技术报告,布加勒斯特政治大学,2012年·Zbl 1304.90160号
[38] Y.Nesterov,{坐标下降法在大规模优化问题上的效率},SIAM J.Optim。,22(2012),第341-362页·Zbl 1257.90073号
[39] Y.Nesterov,{大规模优化问题的子梯度方法},数学。程序。,146(2014),第275-297页·Zbl 1297.90120号
[40] J.-C.Pesquet和A.Repetti,{\it分布式优化的一类随机原对偶算法},J.非线性凸分析。,16(2015),第2453-2490页·Zbl 1336.65113号
[41] P.Richtaárik和M.Takaáč,{\it最小化复合函数的随机块坐标下降方法的迭代复杂性},数学。程序。,144(2014),第1-38页·Zbl 1301.65051号
[42] P.Richtárik和M.Takáč,大数据优化的并行坐标下降方法,数学。程序。,156(2016),第433-484页·兹比尔1342.90102
[43] P.Richtaárik和M.Takaáč,{大型桁架拓扑设计的高效串行和并行坐标下降法},Oper。研究过程。2011年,施普林格出版社,2012年,第27-32页·Zbl 1306.74043号
[44] H.Robbins和D.Siegmund,{非负几乎上鞅的收敛定理及其应用},《统计学中的优化方法》,学术出版社,1971年,第233-257页·Zbl 0286.60025号
[45] S.Shalev-Shwartz和T.Zhang,{正则化损失最小化的随机双坐标上升法},J.Mach。学习。研究,14(2013),第567-599页·Zbl 1307.68073号
[46] 铃木,{交替方向乘子法随机双坐标上升},Proc。机器。学习。2014年第32号决议,第736-744页;可从获取。
[47] Q.Tran-Dinh和V.Cevher,《约束凸极小化的原始-对偶算法框架》,预印本,2014年·Zbl 1311.90104号
[48] Q.Tran-Dinh、O.Fercoq和V.Cevher,《非光滑复合凸极小化的光滑原对偶优化框架》,预印本,2016年·Zbl 1386.90109号
[49] P.Tseng,{\it关于凹凸优化的加速近似梯度法},SIAM J.Optim。,提交。
[50] P.Tseng和C.O.L.Mangasarian,{不可微极小化块坐标下降法的收敛性},J.Optim。理论应用。,(2001),第475-494页·Zbl 1006.65062号
[51] 曾培生,云S.,{非光滑可分离极小化的坐标梯度下降法},数学。程序。,117(2009),第387-423页·Zbl 1166.90016号
[52] P.Tseng和S.Yun,{线性约束光滑优化和支持向量机训练的坐标梯度下降法},计算。最佳方案。申请。,47(2010年),第179-206页·Zbl 1226.90062号
[53] B.C.Vu͂,{\it涉及共操作算子的对偶单调包含的分裂算法},Adv.Comput。数学。,38(2013),第667-681页·Zbl 1284.47045号
[54] J.Warga,{最小化某些凸函数},J.Soc.Indust。申请。数学。,11(1963年),第588-593页·Zbl 0128.05801
[55] Y.Zhang和L.Xiao,{正则经验风险最小化的随机主对偶坐标方法},预印本,2014年。
[56] C.Zhu、R.H.Byrd、P.Lu和J.Nocedal,{it Algorithm 778:L-BFGS-B:大规模有界约束优化的FORTRAN子程序},ACM Trans。数学。《软件》,23(1997),第550-560页·Zbl 0912.65057号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。