×

Frank-Wolfe算法的广义自相关分析。 (英语) Zbl 1512.90163号

摘要:通过Frank-Wolfe方法的不同变体进行的无投影优化已成为机器学习和计算统计大规模优化的基础之一。这些领域中的许多应用都涉及到具有类似自协调特性的函数的最小化。这种广义自相关函数不一定具有Lipschitz连续梯度,也不是强凸的,这使得它们对于一阶方法来说是一类具有挑战性的函数。事实上,在许多应用中,例如二元分类中的协方差逆估计或距离加权判别问题,损失是由具有潜在无界曲率的广义自协方差函数给出的。对于此类问题,无投影极小化方法没有理论上的收敛性保证。本文通过开发具有标准(mathcal{O}(1/k))收敛速度保证的可证明收敛的Frank-Wolfe算法,缩小了文献中的这一明显差距。基于这些新的见解,我们展示了如何通过依赖于局部线性最小化预言的可用性或对分步Frank Wolfe方法的适当修改,来加速这些次线性收敛方法,以产生线性收敛的无投影方法。

MSC公司:

90C25型 凸面编程
65千5 数值数学规划方法
90C06型 数学规划中的大尺度问题
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agafonov,A.、Dvurechensky,P.、Scutari,G.、Gasnikov,A.,Kamzolov,D.、Lukashevich,A.、Daneshmand,A.:分布式随机优化的加速二阶方法。2021年IEEE第60届决策与控制会议(CDC)(2021年)。arXiv:2103.14392
[2] 巴赫,F.,逻辑回归的自洽分析,电子。J.Stat.,4384-414(2010)·Zbl 1329.62324号 ·doi:10.1214/09-EJS521
[3] Baes,M.,《估计序列方法:扩展和近似》(2009),苏黎世联邦理工学院:苏黎世州联邦理工大学运筹研究所
[4] 贝克,A。;Shtern,S.,非强凸函数的线性收敛逐步条件梯度,数学。程序。,164, 1, 1-27 (2017) ·兹比尔1370.90010 ·doi:10.1007/s10107-016-1069-4
[5] 贝克,A。;Teboulle,M.,求解凸线性系统的线性收敛率条件梯度法,数学。方法操作。第59、2、235-247号决议(2004年)·Zbl 1138.90440号 ·doi:10.1007/s001860300327
[6] 贝克,A。;Teboulle,M.,线性反问题的快速迭代收缩阈值算法,SIAM J.成像科学。,2, 1, 183-202 (2009) ·Zbl 1175.94009号 ·doi:10.1137/080716542
[7] Ben-Tal,A.,Nemirovski,A.:现代凸优化讲座(讲稿)。A.Nemirovski的个人网页(2020年)。https://www2.isye.gatech.edu/nemirovs/LMCOLN2020带Sol.pdf
[8] 博姆泽,IM;Mertikopoulos,P。;Schachinger,W。;Staudigl,M.,线性约束优化问题的Hessian障碍算法,SIAM J.Optim。,29, 3, 2100-2127 (2019) ·兹比尔1421.90164 ·doi:10.1137/18M1215682
[9] 坎迪斯,EJ;斯特罗默,T。;Voroninski,V.,PhaseLift:通过凸规划从幅度测量中准确稳定地恢复信号,Commun。纯应用程序。数学。,66, 8, 1241-1274 (2013) ·Zbl 1335.94013号 ·doi:10.1002/cpa.21432
[10] Carderera,A.,Besancon,M.,Pokutta,S.:只需要简单的步骤:Frank-Wolfe和广义自相关函数。arXiv:2105.13913(2021)
[11] 塞萨·比安奇,N。;Lugosi,G.,《预测、学习和游戏》(2006),剑桥:剑桥大学出版社,剑桥·Zbl 1114.91001号 ·doi:10.1017/CBO9780511546921
[12] Chang,CC;Lin,CJ,LIBSVM:支持向量机库,ACM Trans。智力。系统。Technol公司。(2011) ·doi:10.145/1961189.1961199
[13] 封面,TM,环球投资组合,数学。《金融》,1,1,1-29(1991)·Zbl 0900.90052号 ·doi:10.1111/j.1467-9965.1991.tb00002.x
[14] Daneshmand,A.,Scutari,G.,Dvurechensky,P.,Gasnikov,A.:网络上的牛顿方法快速达到统计精度。收录于:Meila,M.,Zhang,T.(编辑)《第38届国际机器学习会议论文集》,《机器学习研究论文集》第139卷,第2398-2409页。PMLR(2021)。http://proceedings.mlr.press/v139/daneshmand21a.html
[15] Dolan,ED;Moré,JJ,带性能配置文件的基准优化软件,数学。程序。,91, 2, 201-213 (2002) ·邮编:1049.90004 ·doi:10.1007/s101070100263
[16] Dvurechensky,P.,Nesterov,Y.:无约束凸极小化二阶方法的全局性能保证(2018)。核心讨论文件2018/32
[17] Dvurechensky,P.、Ostroukhov,P.,Safin,K.、Shtern,S.、Staudigl,M.:Frank-Wolfe算法的自协调分析。在:Singh,H.D.A.(编辑)《第37届国际机器学习会议论文集》,《机器学习研究论文集》,第119卷,第2814-2824页。PMLR,虚拟(2020年)。http://proceedings.mlr.press/v119/dvurechensky20a.html。arXiv:2002.04320号
[18] Dvurechensky,P。;施特恩,S。;Staudigl,M.,凸优化的一阶方法,EURO J.Compute。优化。(2021) ·Zbl 1516.90048号 ·doi:10.1016/j.ejco.2021.100015
[19] Dvurechensky,P.,Staudigl,M.:非凸二次曲线优化的Hessian障碍算法。arXiv:2111.00100(2021)
[20] Dvurechensky,P.,Staudigl,M.,Uribe,C.A.:广义自协调hessian屏障算法。预印arXiv:1911.01522(2019)
[21] M.Epelman。;Freund,RM,计算二次曲线线性系统可靠解的初等算法的条件数复杂性,数学。程序。,88, 3, 451-485 (2000) ·Zbl 0989.65061号 ·数字对象标识代码:10.1007/s101070000136
[22] M.弗兰克。;Wolfe,P.,《二次规划的算法》,《海军研究逻辑》。Q.,3,1-2,95-110(1956)·doi:10.1002/nav.3800030109
[23] 弗洛伊德,RM;格里加斯,P。;Mazumder,R.,“面内”方向的扩展Frank-Wolfe方法及其在低秩矩阵补全中的应用,SIAM J.Optim。,27, 1, 319-346 (2017) ·Zbl 1357.90115号 ·数字对象标识码:10.1137/15M104726X
[24] 加伯,D。;Hazan,E.,强凸性下条件梯度算法的线性收敛变体,及其在在线和随机优化中的应用,SIAM J.Optim。,26, 3, 1493-1528 (2016) ·Zbl 1342.65142号 ·数字对象标识代码:10.1137/140985366
[25] 盖拉特,J。;Marcotte,P.,对Wolfe的“远离步骤”数学的一些评论。程序。,35, 1, 110-119 (1986) ·Zbl 0592.90074号 ·doi:10.1007/BF01589445
[26] Gutman,卫生部;Peña,JF,函数相对于集合的条件数,数学。程序。(2020) ·Zbl 1470.90077号 ·doi:10.1007/s10107-020-01510-4
[27] Harchaoui,Z。;朱迪茨基,A。;Nemirovski,A.,规范化光滑凸优化的条件梯度算法,数学。程序。,152, 1, 75-112 (2015) ·Zbl 1336.90069号 ·doi:10.1007/s10107-014-0778-9
[28] Jaggi,M.:重温Frank-Wolfe:无投影稀疏凸优化。摘自:机器学习国际会议,第427-435页(2013年)
[29] Lacoste-Julien,S.,Jaggi,M.:关于Frank-Wolfe优化变量的全局线性收敛。收录于:Cortes,C.,Lawrence,N.,Lee,D.,Sugiyama,M.,Garnett,R.(编辑)《神经信息处理系统进展》,第28卷,第496-504页。Curran Associates,Inc.(2015年)。https://proceedings.neurips.cc/paper/2015/file/c058f544c737782deacefa532d9add4c-paper.pdf
[30] Lan,G.:线性优化预言下大规模凸规划的复杂性。预印arXiv:1309.5550(2013)
[31] 兰·G。;周瑜,凸优化的条件梯度滑动,SIAM J.Optim。,26, 2, 1379-1409 (2016) ·兹比尔1342.90132 ·数字对象标识代码:10.1137/140992382
[32] 莱维汀,ES;Polyak,BT,约束最小化方法,苏联计算。数学。数学。物理。,6, 5, 1-50 (1966) ·doi:10.1016/0041-5553(66)90114-5
[33] 李,YH;Cevher,V.,带Armijo线搜索的指数梯度法的收敛性,J.Optim。理论应用。,181, 2, 588-607 (2019) ·Zbl 1414.90269号 ·doi:10.1007/s10957-018-1428-9
[34] Liu,D.,Cevher,V.,Tran-Dinh,Q.:约束自相关最小化的Newton-Frank-Wolfe方法。预印arXiv:2002.07003(2020)
[35] 马龙,JS;托德,MJ;Ahn,J.,《距离加权歧视》,J.Am.Stat.Assoc.,102,480,1267-1271(2007)·兹比尔1332.62213 ·doi:10.1198/0162145000001120
[36] Marteau-Ferey,U.,Bach,F.,Rudi,A.:病态广义自相关损失的全局收敛牛顿方法。预印arXiv:1907.01771(2019)
[37] Marteau-Ferey,U.,Ostrovskii,D.,Bach,F.,Rudi,A.:超越最小二乘法:通过自我协调实现规范化经验风险最小化的快速率。在:Beygelzimer,A.,Hsu,D.(编辑)《第三十二届学习理论会议论文集》,《机器学习研究论文集》,第99卷,第2294-2340页。PMLR,美国凤凰城(2019年)。http://proceedings.mlr.press/v99/marteau-ferey19a.html
[38] 梅哈夫,N。;Feder,M.,通用预测,IEEE Trans。《信息论》,44,6,2124-2147(1998)·Zbl 0933.94008号 ·doi:10.1109/18.720534
[39] Nesterov,Y.,求解具有收敛速度的凸规划问题的一种方法({O}(1/k^2)),苏联数学。Doklady,27,2,372-376(1983)·Zbl 0535.90071号
[40] Nesterov,Y.,最小化目标函数模型的原对偶方法的复杂性界限,数学。程序。,171, 1, 311-330 (2018) ·Zbl 1397.90351号 ·doi:10.1007/s10107-017-1188-6
[41] Nesterov,Y.:凸优化讲座,Springer优化及其应用,第137卷。施普林格(2018)·兹比尔1427.90003
[42] Nesterov,Y.,Nemirovski,A.:凸规划中的内点多项式方法。SIAM出版物(1994)·Zbl 0824.90112号
[43] Nocedal,J.,Wright,S.J.:《数值优化》,第二版。斯普林格(2000)
[44] Odor,G.,Li,Y.H.,Yurtsever,A.,Hsieh,Y.P.,Tran-Dinn,Q.,El Halabi,M.,Cevher,V.:Frank-Wolfe致力于非Lipschitz连续梯度目标:可扩展泊松相位检索。2016年IEEE声学、语音和信号处理国际会议(ICASSP),第6230-6234页(2016)
[45] 奥斯特罗夫斯基,DM;巴赫,F.,《使用自一致性的(m)估计量的有限样本分析》,电子。J.Stat.,15,1,326-391(2021年)·Zbl 1490.62068号 ·doi:10.1214/20-EJS1780
[46] Owen,AB,经验似然的自洽性,Can。J.Stat.,41,3,387-397(2013)·Zbl 1273.62072号 ·doi:10.1002/js.11183
[47] Pedregosa,F.、Negiar,G.、Askari,A.、Jaggi,M.:带回溯线搜索的线性收敛Frank-Wolfe。摘自:国际人工智能与统计会议,第1-10页。PMLR(2020年)
[48] 佩尼亚,J。;Rodríguez,D.,弗兰克·沃尔夫算法的多面体条件和线性收敛,数学。操作。第44、1、1-18号决议(2018年)·Zbl 1440.90048号 ·doi:10.1287/门2017.0910
[49] Stonyakin,F.、Tyurin,A.、Gasnikov,A.、Dvurechensky,P.、Agafonov,A.,Dvinskikh,D.、Alkousa,M.、Pasechnyuk,D.、Artamonov,S.、Piskunova,V.:不精确模型:优化和变分不等式的框架。优化方法和软件(2021)。10.1080/10556788.2021.1924714. WIAS预印本编号2709,arXiv:2001.09013,arXiv:1902.00990·Zbl 1489.65089号
[50] Sun,T。;Tran-Din,Q.,《广义自相关函数:牛顿型方法的配方》,数学。程序。(2018) ·Zbl 1430.90464号 ·doi:10.1007/s10107-018-1282-4
[51] Tran-Din,Q。;Kyrillidis,A。;Cevher,V.,约束凸极小化的不精确近端路径允许算法,SIAM J.Optim。,24, 4, 1718-1745 (2014) ·Zbl 1311.90104号 ·doi:10.137/130944539
[52] Tran-Din,Q。;Kyrillidis,A。;Cevher,V.,复合自相关最小化,J.Mach。学习。研究,16,1,371-416(2015)·Zbl 1337.68231号
[53] Tran-Din,Q。;李,YH;Cevher,V。;LeThi,HA;Pham Dinh,T。;Nguyen,NT,涉及自相关类成本函数的复合凸最小化,信息系统和管理科学中的建模、计算和优化,155-168(2015),Cham:Springer,Cham·Zbl 1370.90182号 ·doi:10.1007/978-3-319-18161-5_14
[54] Tunçel,L。;Nemirovski,A.,《结构化凸集凸逼近的自协调障碍》,Found。计算。数学。,10, 5, 485-525 (2010) ·兹比尔1225.90100 ·数字对象标识码:10.1007/s10208-010-9069-x
[55] Wolfe,P.:整数与非线性规划,第章非线性规划中的收敛理论。North-Holland出版公司(1970)·Zbl 0321.00011号
[56] Zhang,Y.,Lin,X.:DiSCO:自协调经验损失的分布式优化。摘自:第32届国际机器学习会议记录,第362-370页。PMLR(2015)。http://proceedings.mlr.press/v37/zhangb15.html
[57] Zhao,R.,Freund,R.M.:分析涉及对数均质屏障的凸组合优化的Frank-Wolfe方法。预印arXiv:2010.08999(2020)
[58] 邹,H。;Hastie,T.,《通过弹性网进行正则化和变量选择》,J.R.Stat.Soc.Ser。B(Stat.Methodol.),67,2,301-320(2005)·Zbl 1069.62054号 ·数字对象标识代码:10.1111/j.1467-9868.2005.0050.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。