×

流形上非凸优化的一阶加速方法。 (英语) Zbl 07735215号

摘要:我们描述了黎曼流形上的第一种梯度方法,以在非凸情况下实现加速速率。在Lipschitz关于代价函数的黎曼梯度和Hessian假设下,这些方法比常规梯度下降法更快地找到近似的一阶临界点。随机版本还可以找到近似的二阶临界点。算法及其分析都广泛建立在欧几里德案例中的现有工作之上。基本操作包括在当前切线空间中运行欧几里德加速梯度下降法(适当防止非凸性),然后返回流形并重复。这需要将代价函数从流形提升到切线空间,例如可以通过黎曼指数映射来实现。为了使这种方法成功,提升成本函数(称为回调)必须保留某些Lipschitz属性。作为对独立利益的贡献,我们用显式常数证明了这方面的精确主张。这些声明受到流形的黎曼曲率的影响,而黎曼曲率又会影响优化算法的最坏情况复杂度边界。

MSC公司:

65千5 数值数学规划方法
65J05型 抽象空间数值分析的一般理论
90C26型 非凸规划,全局优化
90立方厘米 抽象空间中的编程
90C60型 数学规划问题的抽象计算复杂性
58C05型 流形上的实值函数
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 绝对值,P-A;Mahony,R。;Sepulchre,R.,《矩阵流形上的优化算法》(2008),新泽西州普林斯顿:普林斯顿大学出版社,普林斯顿,新泽西·Zbl 1147.65043号 ·数字对象标识代码:10.1515/9781400830244
[2] 阿加瓦尔,N。;北布马尔。;布林斯,B。;Cartis,C.,流形上立方体的自适应正则化,数学规划,188,1,85-134(2020)·Zbl 1470.90087号 ·doi:10.1007/s10107-020-01505-1
[3] Kwangjun Ahn和Suvrit Sra。从内斯特罗夫的估计序列到黎曼加速度。雅各布·阿伯内西(Jacob Abernethy)和希瓦尼·阿加瓦尔(Shivani Agarwal)主编,《第三十三届学习理论会议论文集》(Proceedings of Thirth Conference on Learning Theory),机器学习研究论文集第125卷,第84-118页。PMLR,2020年7月9日至12日。
[4] F.Alimisis、A.Orvieto、G.Bécigneul和A.Lucchi。黎曼流形上的实用加速优化。arXiv:2002.041442020年。
[5] Foivos Alimisis、Antonio Orvieto、Gary Becigneul和Aurelien Lucchi。黎曼优化中加速建模的连续时间透视图。Silvia Chiappa和Roberto Calandra主编,《第二十三届国际人工智能与统计会议论文集》,机器学习研究论文集第108卷,第1297-1307页。PMLR,2020年8月26-28日。
[6] Foivos Alimisis、Antonio Orvieto、Gary Becigneul和Aurelien Lucchi。动量改进了黎曼流形的优化。编辑Arindam Banerjee和Kenji Fukumizu,《第24届国际人工智能与统计会议论文集》,《机器学习研究论文集》第130卷,第1351-1359页。PMLR,2021年4月13日至15日。
[7] A.S.Bandeira、N.Boumal和V.Voroninski。关于同步和社区检测中出现的半定程序的低秩方法。《第29届学习理论会议论文集》,COLT 2016,纽约,2016年6月23日至26日。
[8] 膨润土,GC;费雷拉,OP;Melo,JG,黎曼流形上梯度、次梯度和近点方法的迭代复杂性,优化理论与应用杂志,173,2548-562(2017)·Zbl 1400.90277号 ·doi:10.1007/s10957-017-1093-4
[9] 罗尼·伯格曼(Ronny Bergmann)、罗兰·赫尔佐格(Roland Herzog)、毛里西奥·席尔瓦·卢塞罗(Maurício Silva Louzeiro)、丹尼尔·滕布林克(Daniel Tenbrinck)和何塞·维达尔·努内斯。Fenchel对偶理论和黎曼流形上的原对偶算法。计算数学基础,2021年·Zbl 07458819号
[10] R.巴蒂亚。正定矩阵。普林斯顿大学出版社,2007年·Zbl 1133.15017号
[11] S.Bhojanapalli、B.Neyshabur和N.Srebro。低秩矩阵恢复局部搜索的全局最优性。D.D.Lee、M.Sugiyama、U.V.Luxburg、I.Guyon和R.Garnett,编辑,《神经信息处理系统进展》29,第3873-3881页。Curran Associates,Inc.,2016年。
[12] N.布马尔。光滑流形优化简介。2020年在线提供·Zbl 1532.90001号
[13] Boumal,N。;绝对值,P-A;Cartis,C.,流形上非凸优化的全局收敛速度,IMA数值分析杂志,39,1,1-33(2018)·Zbl 1483.65092号 ·doi:10.1093/imanum/drx080
[14] N.Boumal、V.Voroninski和A.S.Bandeira。非凸Burr-Monteiro方法适用于光滑半定规划。D.D.Lee、M.Sugiyama、U.V.Luxburg、I.Guyon和R.Garnett,编辑,《神经信息处理系统进展》29,第2757-2765页。Curran Associates,Inc.,2016年。
[15] J.C.Carmon、Y nd Duchi、O.Hinder和A.Sidford。“证明有罪之前是凸的”:非凸函数上梯度下降的无量纲加速。第34届国际机器学习会议记录-第70卷,ICML’17,第654-663页。JMLR.org,2017年。
[16] Y.Carmon、J.C.Duchi、O.Hinder和A.Sidford。寻找驻点的下限I.数学规划,2019年·Zbl 1451.90128号
[17] Y.Carmon、J.C.Duchi、O.Hinder和A.Sidford。寻找平稳点的下界II:一阶方法。数学规划,2019年9月·Zbl 1458.90520号
[18] Yair Carmon和John C Duchi。正则化非凸二次问题的Krylov子空间解分析。在S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa-Bianchi和R.Garnett编辑的《神经信息处理系统进展》31,第10728-10738页。Curran Associates,Inc.,2018年。
[19] C.Cartis、N.I.M.Gould和P.Toint。无约束优化的自适应三次正则化方法。第二部分:最坏情况下函数和派生估值的复杂性。数学规划,130:295-31192011·Zbl 1229.90193号
[20] C.Criscitello和N.Boumal。有效逃离歧管上的鞍点。H.Wallach、H.Larochelle、A.Beygelzimer、F.d'AlchéBuc、E.Fox和R.Garnett,编辑,《神经信息处理系统进展》32,第5985-5995页。Curran Associates,Inc.,2019年。
[21] J.X.da Cruz Neto、L.L.de Lima和P.R.Oliveira。黎曼几何中的大地测量算法。巴尔干几何及其应用杂志,3(2):89-1001998·Zbl 1033.58018号
[22] 奥利维尔·德沃尔德(Olivier Devolder)、弗朗索瓦·格利尼尔(François Glineur)和尤里·内斯特罗夫(Yurii Nesterov)。具有不精确预言的一阶方法:强凸情形。LIDAM讨论文件CORE 2013016,鲁汶天主教大学,运营研究和计量经济中心(CORE),2013年·Zbl 1317.90196号
[23] 费雷拉,OP;Svaiter,BF,关于黎曼流形中牛顿方法的Kantorovich定理,复杂性杂志,18,1,304-329(2002)·Zbl 1003.65057号 ·doi:10.1006/jcom.2001.0582
[24] R.Ge、J.D.Lee和T.Ma。矩阵完成没有虚假的局部极小值。D.D.Lee、M.Sugiyama、U.V.Luxburg、I.Guyon和R.Garnett,编辑,《神经信息处理系统进展》29,2973-2981页。Curran Associates,Inc.,2016年。
[25] Greene,RE,非紧流形上有界曲率的完备度量,Archive der Mathematik,31,1,89-95(1978)·Zbl 0373.53018号 ·doi:10.1007/BF01226419
[26] 莱纳斯·汉密尔顿和安库·莫伊特拉。双曲平面加速度的No-go定理。arXiv:2101.056572021年·Zbl 1489.42017年
[27] 胡,J。;刘,X。;温,Z-W;袁Y-X,流形优化简介,中国运筹学会学报,8,2,199-248(2020)·Zbl 1474.49093号 ·doi:10.1007/s40305-020-00295-9
[28] C.Jin、P.Netrapalli和M.I.Jordan。加速梯度下降比梯度下降更快地逃逸鞍点。S.Bubeck、V.Perchet和P.Rigollet编辑,《第31届学习理论会议论文集》,《机器学习研究论文集》第75卷,第1042-1085页。PMLR,2018年7月6日至9日。
[29] Karcher,H.,Berger曲率张量估计的简短证明,美国数学学会学报,26,4,642-642(1970)·Zbl 0203.54501号
[30] 川口贤治。深度学习,没有不良的局部极小值。在D.Lee、M.Sugiyama、U.Luxburg、I.Guyon和R.Garnett编辑的《神经信息处理系统进展》第29卷中。Curran Associates,Inc.,2016年。
[31] J.M.Lee。数学研究生论文第218卷《光滑流形导论》。Springer-Verlag纽约,第二版,2012年。
[32] J.M.李。黎曼流形导论,数学研究生教材第176卷。施普林格,2018年第2版·Zbl 1409.53001号
[33] M.莱兹卡诺-卡萨多。流形上基于梯度的优化的简化。《神经信息处理系统进展》(NeurIPS),第9157-91682019页。
[34] 马里奥·莱兹卡诺·卡萨多。流形上通过简化的自适应和动量方法。arXiv:2010.046172020年。
[35] 马里奥·莱兹卡诺·卡萨多。有界几何流形上优化的与曲率相关的全局收敛速度。arXiv:2008.025172020年。
[36] 宋梅、西奥多·米西亚基维奇、安德烈亚·蒙塔纳里和罗伯托·伊姆布泽罗·奥利维拉。通过grothendieck不等式求解同步和maxcut问题的sdp。Satyen Kale和Ohad Shamir,编辑,《2017年学习理论会议论文集》,《机器学习研究论文集》第65卷,第1476-1515页。PMLR,2017年7月7日至10日。
[37] Moakher,M.,对称正定矩阵几何平均值的微分几何方法,SIAM J.矩阵分析。申请。,26, 3, 735-747 (2005) ·Zbl 1079.47021号 ·doi:10.1137/S089547979803436937
[38] M.Moakher和P.G.Batchelor。对称正定矩阵:从几何学到应用和可视化,第285-298页。施普林格-柏林-海德堡,柏林,海德堡。
[39] 内斯特罗夫,Y。;Polyak,BT,牛顿法的立方正则化及其全局性能,《数学规划》,108,1,177-205(2006)·Zbl 1142.90500 ·doi:10.1007/s10107-006-0706-8
[40] Nesterov,YE,一种求解具有收敛速度的凸规划的方法\(o(1/k^2)\),苏联数学Doklady,2,27,372-376(1983)·Zbl 0535.90071号
[41] B.奥尼尔。《半黎曼几何:相对论应用》,第103卷。学术出版社,1983年·Zbl 0531.53051号
[42] 塞巴斯蒂安·鲁德。梯度下降优化算法概述。arXiv:1609.047472016年。
[43] Sra,S.公司。;Hosseini,R.,正定矩阵流形上的二次曲线几何优化,SIAM优化杂志,25,1,713-739(2015)·兹比尔1316.65065 ·doi:10.1137/140978168
[44] Y.Sun、N.Flamarion和M.Fazel。从黎曼流形上的鞍点逃逸。在H.Wallach、H.Larochelle、A.Beygelzimer、F.d'AlchéBuc、E.Fox和R.Garnett编辑的《神经信息处理系统进展》32,第7276-7286页。Curran Associates,Inc.,2019年。
[45] N.Tripuraneni、N.Flamarion、F.Bach和M.I.Jordan。黎曼流形上的平均随机梯度下降。《第31届学习理论会议论文集》,COLT,2018年。
[46] S.Waldmann。几何波动方程。arXiv:1208.47062012年。
[47] H.Zhang和S.Sra。大地凸优化的一阶方法。学习理论会议,第1617-1638页,2016年。
[48] H.Zhang和S.Sra。大地凸优化的估计序列。S.Bubeck、V.Perchet和P.Rigollet编辑,《第31届学习理论会议论文集》,《机器学习研究论文集》第75卷,第1703-1723页。PMLR,2018年7月6日至9日。
[49] Y.Zhang、Q.Qu和J.Wright。从对称到几何:可追踪的非凸问题。arXiv:2007.067532020。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。