×

凸优化和非凸优化的块随机梯度迭代。 (英语) Zbl 1342.93125号

摘要:随机梯度(SG)方法可以快速解决目标中含有大量成分的问题,或随机优化问题,达到中等精度。另一方面,块坐标下降/更新(BCD)方法可以快速解决多个(块)变量的问题。本文介绍了一种结合SG和BCD的优点的方法,用于处理目标中含有多个分量和多个(块)变量的问题。本文针对凸规划和非凸规划提出了一种块SG(BSG)方法。BSG通过更新Gauss-Seidel类型的所有变量块(更新当前块取决于先前更新的块)来概括SG,更新顺序可以是固定的,也可以是随机的。尽管BSG在每次迭代中有稍微更多的工作,但它通常优于SG,因为BSG的高斯-塞德尔更新和较大的步长,后者由较小的每块Lipschitz常数决定。对于凸和非凸情况,均建立了BSG的收敛性。在凸的情况下,BSG的收敛速度与SG的收敛速度相同。在非凸的情况中,它的收敛是根据一阶最优性条件的期望破坏来建立的。在这两种情况下,我们的分析都是不平凡的,因为典型的无偏假设不再成立。BSG在以下问题上进行了数值评估:凸的随机最小二乘和logistic回归,非凸的低秩张量恢复和双线性logistic退化。在凸问题上,BSG的表现明显好于SG。在非凸问题中,BSG明显优于确定性BCD方法,因为后者在接近局部极小值的早期趋于停滞。总的来说,BSG继承了SG近似和块坐标更新的优点,特别适用于解决大规模非凸问题。

MSC公司:

93E25型 随机控制中的计算方法(MSC2010)
93E20型 最优随机控制
4.95亿 基于必要条件的数值方法
90立方厘米 随机规划
90C25型 凸面编程
90C26型 非凸规划,全局优化
90立方 非线性规划
65千5 数值数学规划方法
65K10码 数值优化和变分技术
65比99 数值分析中的收敛加速
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] A.Auslender,{芬切尔对偶函数的渐近性质及其在分解问题中的应用},J.Optim。理论应用。,73(1992年),第427-449页·Zbl 0794.49026号
[2] A.Beck和M.Teboulle,{线性反问题的快速迭代收缩阈值算法},SIAM J.成像科学。,2(2009年),第183-202页·Zbl 1175.94009号
[3] A.Beck和L.Terumeshvili,{关于块坐标下降型方法的收敛性},SIAM J.Optim。,23(2013),第2037-2060页·Zbl 1297.90113号
[4] D.P.Bertsekas,《非线性规划》,雅典娜科学出版社,马萨诸塞州贝尔蒙特,1999年·Zbl 1015.90077号
[5] S.Boyd、L.Xiao和A.Mutapcic,{\it Subgradient Methods},EE392o课堂讲稿,秋季学期,2004年,斯坦福大学,加利福尼亚州帕洛阿尔托,2003年。
[6] E.J.Candes和B.Recht,{通过凸优化实现精确矩阵补全},Found。计算。数学。,9(2009),第717-772页·兹比尔1219.90124
[7] K.-W.Chang,C.-J.Xieh,和C.-J Lin,{it大规模坐标下降法\({五十} 2个\)-损失线性支持向量机},J.Mach。学习。Res.,9(2008),第1369-1398页·Zbl 1225.68157号
[8] K.-L.Chung,{论随机逼近方法},《数学年鉴》。统计人员。,25(1954年),第463-483页·Zbl 0059.13203号
[9] C.D.Dang和G.Lan,{非光滑随机优化的随机块镜下降法},SIAM J.Optim。,25(2015),第856-881页·兹比尔1353.90095
[10] M.Dyrholm、C.Christoforou和L.C.Parra,《双线性判别成分分析》,J.Mach。学习。Res.,8(2007),第1097-1111页。
[11] J.Eckstein和D.P.Bertsekas,关于Douglas Rachford分裂方法和最大单调算子的近点算法,数学。程序。,55(1992),第293-318页·兹比尔0765.90073
[12] R.-E.Fan,K.-W.Chang,C.-J.Xieh,X.-R.Wang,C.-J Lin,{it Liblinear:大型线性分类库},J.Mach。学习。Res.,9(2008),第1871-1874页·Zbl 1225.68175号
[13] M.P.Friedlander和M.Schmidt,数据拟合的混合确定性随机方法,SIAM J.Sci。计算。,34(2012年),第A1380-A1405页·Zbl 1262.90090号
[14] R.Gemulla、E.Nijkamp、P.J.Haas和Y.Sismanis,{分布随机梯度下降的大尺度矩阵分解},《第17届ACM SIGKDD国际知识发现和数据挖掘会议论文集》,ACM,纽约,2011年,第69-77页。
[15] S.Ghadimi和G.Lan,非凸非线性和随机规划的加速梯度方法,数学。程序。(2015),DOI:10.1007/s10107-015-0871-8·Zbl 1335.62121号
[16] S.Ghadimi和G.Lan,{强凸随机组合优化的最优随机逼近算法,II:收缩过程和最优算法},SIAM J.Optim。,23(2013),第2061-2089页·Zbl 1293.62167号
[17] S.Ghadimi和G.Lan,{非凸随机规划的随机一阶和零阶方法},SIAM J.Optim。,23(2013),第2341-2368页·Zbl 1295.90026号
[18] S.Ghadimi,G.Lan,和H.Zhang,{非凸随机组合优化的Mini-bactch随机逼近方法},数学。程序。(2015),DOI:10.1007/s10107-014-0846-1·Zbl 1332.90196号
[19] J.L.Goffin,{关于次梯度优化方法的收敛速度},数学。程序。,13(1977年),第329-347页·Zbl 0368.90119号
[20] L.Grippo和M.Sciandone,{关于凸约束下块非线性Gauss-Seidel方法的收敛性},Oper。Res.Lett.公司。,26(2000),第127-136页·Zbl 0955.90128号
[21] L.Grippo和M.Sciandone,{关于凸约束下块非线性Gauss-Seidel方法的收敛性},Oper。Res.Lett.公司。,26(2000),第127-136页·Zbl 0955.90128号
[22] C.Hildreth,{它是一个二次规划程序},海军研究后勤。Q.,4(1957),第79-85页。
[23] M.Hong,X.Wang,M.Razaviyayn,和Z.-Q.Luo,{块坐标下降法的迭代复杂性分析},预印本,arXiv:1310.69572013。
[24] A.J.Kleywegt、A.Shapiro和T.Homem-de-Mello,{随机离散优化的样本平均近似方法},SIAM J.Optim。,12(2002),第479-502页·Zbl 0991.90090号
[25] G.Lan,{随机组合优化的一种优化方法},数学。程序。,133(2012),第365-397页·Zbl 1273.90136号
[26] J.Liu、S.J.Wright和S.Sridhar,{it An Asynchronous Parallel Randomized Kaczmarz Algorithm},预印本,arXiv:1401.47802014。
[27] Z.Lu和L.Xiao,关于随机块坐标下降方法的复杂性分析,数学。程序。,152(2015),第615-642页·Zbl 1321.65100号
[28] Z.Lu和L.Xiao,一类非线性规划的随机块坐标非单调梯度方法,预印本,arXiv:1306.59182013。
[29] 罗志清,曾培生,{关于凸可微极小化的坐标下降法的收敛性},J.Optim。理论应用。,72(1992),第7-35页·Zbl 0795.90069号
[30] J.Mairal,{大规模优化的随机优化最小化算法},《神经信息处理系统进展》,2013年第26期。
[31] J.Mairal、F.Bach、J.Ponce和G.Sapiro,{稀疏编码的在线词典学习},《第26届机器学习国际年会论文集》,美国计算机学会,纽约,2009年,第689-696页·Zbl 1242.62087号
[32] C.Navasca、L.De Lathauwer和S.Kindermann,《第16届欧洲信号处理会议论文集》(EUSIPCO 2008),IEEE,新泽西州皮斯卡塔韦,2008年。
[33] A.Nemirovski、A.Juditsky、G.Lan和A.Shapiro,{随机规划的稳健随机近似方法},SIAM J.Optim。,19(2009),第1574-1609页·Zbl 1189.90109号
[34] A.Nemirovski和D.B.Yudin,优化中的问题复杂性和方法效率,Wiley,Chichester,1983·Zbl 0501.90062号
[35] Y.Nesterov,{凸优化入门讲座},应用。最佳方案。87, 2004. ·Zbl 1086.90045号
[36] Y.Nesterov,{凸问题的原对偶次梯度方法},数学。程序。,120(2009),第221-259页·Zbl 1191.90038号
[37] Y.Nesterov,{坐标下降法在大规模优化问题上的效率},SIAM J.Optim。,22(2012),第341-362页·Zbl 1257.90073号
[38] Y.Nesterov和V.Shikhman,{非光滑凸最小化的收敛次梯度方法},技术报告,卢万天主教大学,运筹学和计量经济中心(CORE),比利时卢瓦因-拉纽夫,2014年·Zbl 1330.90078号
[39] Z.Peng、M.Yan和W.Yin,{并行和分布式稀疏优化},《2013年信号、系统和计算机Asilomar会议论文集》,IEEE,新泽西州皮斯卡塔韦,2013年,第659-646页。
[40] B.T.Polyak,{新随机近似类型程序},Avtomat。i Telemekh。,51(1990年),第98-107页·Zbl 0737.93080号
[41] M.Razaviyayn,M.Hong,and Z.-Q.Luo,{it非光滑优化的块逐次极小化方法的统一收敛性分析},SIAM J.Optim。,23(2013),第1126-1153页·Zbl 1273.90123号
[42] B.Recht和C.Reö,{大规模矩阵补全的并行随机梯度算法},数学。程序。计算。,5(2013年),第201-226页·Zbl 1275.90039号
[43] P.Richtaárik和M.Takaáč,{\it最小化复合函数的随机块坐标下降方法的迭代复杂性},数学。程序。,144(2014),第1-38页·Zbl 1301.65051号
[44] H.Robbins和S.Monro,《随机近似方法》,《数学年鉴》。统计人员。,22(1951年),第400-407页·Zbl 0054.05901号
[45] R.T.Rockafellar,{单调算子和近点算法},SIAM J.控制优化。,14(1976),第877-898页·Zbl 0358.90053号
[46] R.T.Rockafellar和R.J.B.Wets,{变分分析},格兰德克伦数学。威斯。317,柏林斯普林格·弗拉格,1998年·兹比尔0888.49001
[47] J.Sacks,{\it随机逼近过程的渐近分布},Ann.Math。统计人员。,29(1958年),第373-405页·Zbl 0229.62010号
[48] A.Saha和A.Tewari,{关于循环坐标下降法的非辛收敛性},SIAM J.Optim。,23(2013),第576-601页·Zbl 1270.90032号
[49] T.Schaul、S.Zhang和Y.Lecun,{不再有令人讨厌的学习率},《第30届机器学习国际会议论文集》(ICML-13),美国计算机学会,纽约,2013年,第343-351页。
[50] S.Shalev-Shwartz、Y.Singer、N.Srebro和A.Cotter,{it Pegasos:SVM}的原始估计子梯度解算器,数学。程序。,127(2011),第3-30页·Zbl 1211.90239号
[51] S.Shalev Shwartz和A.Tewari,《l1正则化损失最小化的随机方法》,载于ICML’09:第26届国际机器学习年会论文集,ACM,纽约,2009年,第929-936页。
[52] S.K.Shevade和S.S.Keerthi,{使用稀疏逻辑回归进行基因选择的简单有效算法},生物信息学,19(2003),第2246-2253页。
[53] J.V.Shi、Y.Xu和R.G.Baraniuk,{稀疏双线性Logistic回归},预印本,arXiv:1404.41042014。
[54] R.Tibshirani,{通过套索回归收缩和选择},J.R.Stat.Soc.Ser。B方法。,58(1996),第267-288页·Zbl 0850.62538号
[55] P.Tseng,{不可微极小化块坐标下降法的收敛性},J.Optim。理论应用。,109(2001),第475-494页·Zbl 1006.65062号
[56] 曾培生,云S.,{非光滑可分离极小化的坐标梯度下降法},数学。程序。,117(2009),第387-423页·Zbl 1166.90016号
[57] Z.Wen、D.Goldfarb和K.Scheinberg,{半定规划的块坐标下降法},《半定、二次曲线和多项式优化手册》,纽约斯普林格,2012年,第533-564页。f̌ill·Zbl 1334.90118号
[58] Xu Y.和Y.Yin,{正则化多凸优化的块坐标下降法及其在非负张量分解和完成中的应用},SIAM J.成像科学。,6(2013年),第1758-1789页·Zbl 1280.49042号
[59] Y.Xu和W.Yin,{基于块坐标更新的非凸优化全局收敛算法},预印本,arXiv:1410.13862014·Zbl 1378.65126号
[60] T.Zhang,{使用随机梯度下降算法求解大规模线性预测问题},《第二十届机器学习国际会议论文集》,美国计算机学会,纽约,2004,116。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。