×

黎曼流形上加速优化的变分形式。 (英文) Zbl 1504.37104号

作者摘要:最近由W.Su(苏)等[J.Mach.Learn.Res.17,论文编号153,43 p.(2016;Zbl 1391.90667号)]Nesterov用于最小化光滑凸函数的加速梯度法(f)可被视为二阶常微分方程的时间离散化,并且(f(x(t))沿该常微分方程任何轨迹(x(t))以(mathcal{O}(1/t^2))的速率收敛到其最佳值。在中引入了变分公式[A.维比索诺等人,Proc。国家。阿卡德。科学。美国113,第47号,E7351–E7358(2016;Zbl 1404.90098号)]它允许在赋范向量空间中以\(mathcal{O}(1/t^p)\)的速度加速收敛,对于任意\(p>0)。此框架在[V.杜鲁塞等人,SIAM J.Sci。计算。43,第4号,A2949–A2980(2021;Zbl 1483.37099号)]利用时间自适应几何积分器设计高效的辛加速优化显式算法。在[F.别名等人,“黎曼优化中建模加速的连续时间观点”,载于:第23届国际AISTATS会议论文集。剑桥马萨诸塞州:JMLR。1297–1307(2020)],提出了一个二阶常微分方程作为黎曼加速算法的连续时间极限,并证明了目标函数(f(x(t))沿着该常微分方程的解以(mathcal{O}(1/t^2))的速度收敛到其最优值,从而将早期的欧几里德结果推广到黎曼流形设置。本文证明了在黎曼流形上,通过考虑一类含时Bregman-Lagrangian和Hamilton系统,(f(x(t)))到其最优值的收敛速度也可以加速到任意的收敛速度(mathcal{O}(1/t^p))。这概括了A.维比索诺et al.[loc.cit.]对黎曼流形进行了研究,并为黎曼流型上的加速优化提供了一个变分框架。特别地,我们将在测地凸、弱拟凸和强凸的黎曼流形上建立目标函数的结果。基于Bregman Lagrangians族和Hamilton族的时间不变性,Duruisseaux、Schmitt和Leok使用一种方法构造了非常有效的优化算法,并在黎曼设置中建立了类似的时间不变量。一旦时间自适应哈密顿变分积分器的黎曼类比得到发展,这就为在黎曼流形上构造类似高效的优化算法奠定了基础。矢量空间上变分加速优化流的数值离散化经验表明,时间自适应性和辛性的结合对于这些描述加速优化的变分流的高效、稳健和稳定离散化非常重要。人们期望,一个时间自适应、辛和黎曼流形保持的几何数字积分器将产生一类类似于流形的有前途的优化算法。

MSC公司:

37号40 最优化和经济学中的动力系统
65K10码 数值优化和变分技术
第65页第10页 含辛积分器的哈密顿系统的数值方法
70H15型 哈密顿和拉格朗日力学问题的正则变换和辛变换
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] P.A.Absil、R.Mahony和R.Sepulchre,《矩阵流形上的优化算法》,普林斯顿大学出版社,新泽西州普林斯顿,2008年·Zbl 1147.65043号
[2] K.Ahn和S.Sra,从Nesterov的估计序列到黎曼加速度,《第33届学习理论会议论文集》,2020年,第84-118页。
[3] F.Alimisis、A.Orvieto、G.Bécigneul和A.Lucchi,《黎曼优化中建模加速的连续时间视角》,载于2020年第23届国际AISTATS会议论文集,第1297-1307页。
[4] F.Alimisis,A.Orvieto,G.Beícigneul,A.Lucchi,黎曼流形上的实用加速优化,预印本,arXiv:2002.04144[math.OC],2020年。
[5] A.L.Cauchy,Me⁄thode ge⁄neкrale pour la reкsolution des systèmes d'eкquations simultaneкes,美国科学院。科学。巴黎,25(1847),第536-538页。
[6] V.Duruisseaux和M.Leok,通过离散约束变分积分器在黎曼流形上加速优化,J.Nonlinear Sci。,出现·Zbl 1493.90225号
[7] V.Duruisseaux和M.Leok,通过投影变分积分器对黎曼流形进行加速优化,预印本,arXiv:2201.02904[math.OC],2021,https://arxiv.org/abs/2201.02904。 ·Zbl 1493.90225号
[8] V.Duruisseaux和M.Leok,流形加速优化的时间自适应拉格朗日变分积分器,预印本,arXiv:2201.03774[math.OC],2022https://arxiv.org/abs/2201.03774。 ·Zbl 1493.90225号
[9] V.Duruisseaux、J.Schmitt和M.Leok,自适应哈密顿变分积分器及其在辛加速优化中的应用,SIAM J.Sci。计算。,43(2021),第A2949-A2980页·Zbl 1483.37099号
[10] E.Hairer、C.Lubich和G.Wanner,《几何-数值积分》,第二版,Springer Ser。计算。数学。31,施普林格·弗拉格,柏林,2006年·Zbl 1094.65125号
[11] J.Jost,《黎曼几何与几何分析》,第7版,Universitext,Springer,Cham,2017年·Zbl 1380.53001号
[12] J.Kelley,普通拓扑,Grad。数学中的文本。,施普林格,纽约,1975年·Zbl 0306.54002号
[13] S.Lang,微分几何基础,Grad。数学中的文本。191,Springer,纽约,1999年·Zbl 0932.53001号
[14] J.Lee,黎曼流形导论,第二版,Grad。数学中的文本。170,查姆施普林格,2018年·兹比尔1409.53001
[15] T.Lee、M.Tao和M.Leok,李群的变分辛加速优化,《IEEE决策与控制会议论文集》,2021年。
[16] M.Leok和T.Ohsawa,离散狄拉克力学的变分和几何结构,发现。计算。数学。,11(2011),第529-562页·Zbl 1231.70016号
[17] Y.Liu,F.Shang,J.Cheng,H.Cheng和L.Jiao,黎曼流形上测地凸优化的加速一阶方法,《神经信息处理系统会议论文集》,2017年,第4868-4877页。
[18] J.Marsden和T.Ratiu,力学和对称导论,第二版,文本应用。数学。17,Springer,纽约,1999年·Zbl 0933.70003号
[19] J.E.Marsden和M.West,离散力学和变分积分器,Acta Numer。,10(2001年),第357-514页·Zbl 1123.37327号
[20] A.Nemirovsky和D.Yudin,优化中的问题复杂性和方法效率,Wiley Interscience Ser。离散数学。,威利,纽约,1983年·Zbl 0501.90062号
[21] Y.Nesterov,求解具有收敛速度的凸规划问题的一种方法(mathcal{O}(1/k^2)),苏联数学。道克。,27(1983年),第372-376页·兹伯利0535.90071
[22] Y.Nesterov,凸优化导论:基础课程,应用。最佳方案。87,Kluwer学术出版社,马萨诸塞州波士顿,2004年·Zbl 1086.90045号
[23] Y.Nesterov,加速牛顿法在凸问题上的三次正则化,数学。程序。,112(2008),第159-181页·Zbl 1167.90013号
[24] A.Orvieto和A.Lucchi,优化算法的阴影特性,《神经信息处理系统会议论文集》,2019年,第12692-12703页。
[25] W.Su、S.Boyd和E.Candes,《模拟内斯特罗夫加速梯度法的微分方程:理论和见解》,J.Mach。学习。决议,17(2016),第1-43页·兹比尔1391.90667
[26] I.Sutskever、J.Martens、G.Dahl和G.Hinton,《深度学习中初始化和动力的重要性》,《第三十届机器学习国际会议论文集》,2013年,第1139-1147页。
[27] A.Wibisono、A.Wilson和M.Jordan,优化中加速方法的变分观点,Proc。国家。阿卡德。科学。美国,113(2016),第E7351-E7358页·Zbl 1404.90098号
[28] H.Zhang和S.Sra,测地凸优化的一阶方法,《第29届学习理论年会论文集》,2016年,第1617-1638页。
[29] H.Zhang和S.Sra,测地凸优化的估计序列,《第31届学习理论会议论文集》,2018年,第1703-1723页。
[30] J.Zhang、A.Mokhtari、S.Sra和A.Jadbabaie,《直接Runge-Kutta离散化实现加速》,载于《神经信息处理系统会议记录》,2018年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。