王俊坤;雅各布·阿伯内西;科菲尔·利维。 Fenchel游戏中的无重动态:算法凸优化的统一框架。 (英语) Zbl 07829604号 数学。程序。 205,编号1-2(A),203-268(2024). 摘要:我们开发了一个使用无遗憾博弈动力学解决凸优化问题的算法框架。通过将凸函数极小化问题转化为以顺序方式求解min-max博弈的辅助问题,我们可以考虑两层中每一层的一系列策略,这两层必须依次选择他们的行动。这些策略的常见选择是所谓的无更新学习算法,我们描述了许多这样的算法,并证明了它们的遗憾范围。然后,我们证明了许多经典的凸优化一阶方法——包括平均迭代梯度下降法、Frank-Wolfe算法、Nesterov加速方法、加速近似法——可以解释为我们框架的特殊情况,只要每个参与者都正确选择了无重报策略。在这个框架中证明收敛速度变得非常简单,因为它们是通过插入适当的已知遗憾边界来实现的。我们的框架还为凸优化的特殊情况提供了许多新的一阶方法,这些方法以前都不知道。 MSC公司: 90C25型 凸面编程 关键词:在线学习;无更新学习;零和博弈;凸优化;弗兰克·沃尔夫法;内斯特罗夫加速梯度法;动量法 PDF格式BibTeX公司 XML格式引用 \textit{J.-K.Wang}等人,数学。程序。205,编号1--2(A),203-268(2024;Zbl 07829604) 全文: 内政部 arXiv公司 参考文献: [1] Nesterov,Y.,一种求解具有收敛速度的凸规划问题的方法\(O(1/k^2)\),Sov。数学。Doklady,27372-3761983年·Zbl 0535.90071号 [2] Nesterov,Y.,带收敛速度的无约束凸极小化问题的一种方法(O(1/k^2)),Doklady an ussr,269543-5471983 [3] Nesterov,Y.,非光滑函数的平滑最小化,数学。程序。,103, 127-152, 2005 ·Zbl 1079.90102号 [4] Nesterov,Y.,《关于光滑凸函数最小化优化方法的构造方法》,Ekonom。i.Mat.Metody,24509-5171988年·Zbl 0659.90068号 [5] Nesterov,Y.,《凸优化入门讲座:基础课程》,2003年,柏林:施普林格,柏林 [6] M.弗兰克。;Wolfe,P.,二次规划算法,Nav。Res.Logist公司。Q.,31-295-1101956年 [7] 贝克,A。;Teboulle,M.,线性反问题的快速迭代收缩阈值算法,SIAM J.成像科学。,2, 1, 183-202, 2009 ·Zbl 1175.94009号 [8] 阿伯内西,JD;Wang,J-K,《弗兰克·沃尔夫与平衡计算》,高级神经网络。信息处理。系统。,30, 6584-6593, 2017 [9] Abernethy,J.,Lai,K.A.,Levy,K.Y.,Wang,J.-K.:凸凹博弈的更快速率。摘自:学习理论会议,第1595-1625页(2018年) [10] 王,J-K;Abernethy,JD,通过乐观无进展的动态加速,Adv.Neural。信息处理。系统。,31, 3828-3838, 2018 [11] Bertsekas,D。;Nedic,A。;Ozdaglar,A.,凸分析与优化,2003年,纳舒亚:雅典娜科学出版社,纳舒阿·Zbl 1140.90001号 [12] Ben-Tal,A。;Nemirovski,A.,《现代凸优化讲座:分析、算法和工程应用》,2001年,Cham:SIAM,Cham·Zbl 0986.90032号 [13] 希里亚特·乌鲁蒂,J-B;Lemaréchal,C.,《凸分析与最小化算法I:基础》,2013年,柏林:施普林格出版社,柏林 [14] Rockafellar,RT,凸分析,1997,普林斯顿:普林斯顿大学出版社,普林斯顿·Zbl 0932.90001号 [15] 博伊德,SP;Vandenberghe,L.,凸优化,2004,剑桥:剑桥大学出版社,剑桥·Zbl 1058.90049号 [16] Borwein,J。;Lewis,AS,凸分析和非线性优化理论与实例,2006,柏林:Springer,柏林·Zbl 1116.90001号 [17] 莱维汀,ES;Polyak,BT,约束最小化方法,苏联计算。数学。数学。物理。,6, 5, 1-50, 1966 [18] Négiar,G.等人:约束有限和最小化的随机Frank Wolfe。摘自:机器学习国际会议,第7253-7262页(2020年) [19] Bauschke,H。;Lucet,Y.,什么是Fenchel共轭物,Notices AMS,59,1,44-462012·Zbl 1248.49047号 [20] Kakade,S.、Shalev-Shwartz,S.和Tewari,A.:关于强凸性和强光滑性的对偶性:学习应用和矩阵正则化。未出版手稿(2009) [21] Garber,D.,Hazan,E.:强凸集上Frank-Wolfe方法的速度更快。摘自:机器学习国际会议,第541-549页(2015) [22] Freund,Y.,Schapire,R.E.:博弈论,在线预测和助推。摘自:学习理论会议,第325-332页(1996年) [23] Blackwell,D.,向量支付的极大极小定理的模拟,Pac。数学杂志。,6, 1, 1-8, 1956 ·Zbl 0074.34403号 [24] Hannan,J.,《重复博弈中贝叶斯风险的近似方法》,《控制论游戏》,39,97,1957·Zbl 0078.32804号 [25] 拉赫林,S。;Sridharan,K.,《优化、学习和具有可预测序列的游戏》,高级神经网络。信息处理。系统。,26, 3066-3074, 2013 [26] Chiang,C-K,《渐进式在线优化》,Conf.Learn。理论,2012年6月23日-6月20日 [27] Nemirovski,A.,带Lipschitz连续单调算子的变分不等式和光滑凹凸鞍点问题的收敛速度为o(1/t)的Prox方法,SIAM J.Optim。,15, 1, 229-251, 2004 ·Zbl 1106.90059号 [28] Nesterov,Y.,对偶外推及其在求解变分不等式和相关问题中的应用,数学。程序。,109, 2-3, 319-344, 2007 ·Zbl 1167.90014号 [29] Syrgkanis,V.,Agarwal,A.,Luo,H.,Schapire,R.E.:游戏中正则化学习的快速收敛。高级神经信息处理。系统。28 (2015) [30] Nedić,A。;Ozdaglar,A.,鞍点问题的次梯度方法,J.Optim。理论应用。,142, 205-228, 2009 ·Zbl 1175.90415号 [31] 澳大利亚银行。;Teboulle,M.,单调变分不等式的类内投影方法,数学。程序。,104, 39-68, 2005 ·Zbl 1159.90517号 [32] 埃克斯坦,J。;Bertsekas,DP,关于Douglas-Rachford分裂方法和最大单调算子的近点算法,数学。程序。,55, 293-318, 1992 ·Zbl 0765.90073号 [33] 陈,Y。;兰·G。;欧阳,Y.,一类鞍点问题的最优原对偶方法,SIAM J.Optim。,24, 4, 1779-1814, 2014 ·Zbl 1329.90090号 [34] 陈,Y。;兰·G。;欧阳,Y.,一类变分不等式的加速格式,数学。程序。,165, 113-149, 2017 ·兹伯利1386.90102 [35] 何毅。;Monteiro,RD,一类复合凹凸鞍点问题的加速HPE型算法,SIAM J.Optim。,26, 1, 29-56, 2016 ·Zbl 1329.90179号 [36] 朱迪茨基,A。;内米洛夫斯基,A。;Tauvel,C.,用随机镜像算法求解变分不等式,Stoch。系统。,1, 1, 17-58, 2011 ·Zbl 1291.49006号 [37] Tseng,P.,极大单调映射的一种改进的前向分裂方法,SIAM J.Control。最佳。,38, 2, 431-446, 2000 ·Zbl 0997.90062号 [38] Malitsky,Y.,变分不等式的Golden比率算法,数学。程序。,184, 383-410, 2020 ·Zbl 07263698号 [39] 安大略省Iusem;Jofré,A。;罗得岛奥利维拉;汤普森,P.,随机变分不等式的方差约简外梯度法,SIAM J.Optim。,29, 1, 175-206, 2017 ·Zbl 1415.65145号 [40] 科恩,MB;西德福德,A。;Tian,K.,《外梯度法中的相对唇色和加速的直接方法》,Innov。西奥。计算。科学。Conf.,185,62:1-62:18,2021年 [41] 欧阳,Y。;Xu,Y.,凸-凹双线性鞍点问题一阶方法的复杂度下限,数学。程序。,185, 1-35, 2021 ·Zbl 1458.90516号 [42] 张杰。;洪,M。;Zhang,S.,关于凹凸鞍点问题的迭代复杂度下限,数学。程序。,194, 901-935, 2022 ·Zbl 1494.90127号 [43] Chambolle,A。;Pock,T.,凸问题的一阶原对偶算法及其在成像中的应用,J.Math。成像视觉。,40, 1, 120-145, 2011 ·Zbl 1255.68217号 [44] Pock,T.,Cremers,D.,Bischof,H.,Chambolle,A.:最小化mumford-shah函数的算法。摘自:计算机视觉国际会议,第1133-1140页(2009年) [45] Esser,E。;张,X。;Chan,TF,成像科学中凸优化的一类一阶原对偶算法的一般框架,SIAM J.成像科学。,3, 4, 1015-1046, 2010 ·Zbl 1206.90117号 [46] Chambolle,A.,Pock,T.:关于一阶原对偶算法的遍历收敛速度。数学。程序。159 (2016) ·Zbl 1350.49035号 [47] Zhu,M.,Chan,T.:一种用于全变分图像恢复的高效原对偶混合梯度算法。在:加州大学洛杉矶分校CAM报告(2008) [48] Drori,Y。;萨巴赫,S。;Teboulle,M.,一类非光滑凹凸鞍点问题的简单算法,Oper。Res.Lett.公司。,43, 2, 209-214, 2015 ·Zbl 1408.90234号 [49] Combettes,P.L.,Condat,L.,Pesquet,J.-C.,Vũ,B.:图像恢复中一些原对偶优化方法的正向视图。摘自:国际图像处理会议,第4141-4145页(2014) [50] 古特曼,DH;佩尼亚,JF,扰动芬切尔对偶和一阶方法,数学。程序。,198, 443-469, 2022 ·兹比尔1512.90167 [51] 古特曼,DH;Pena,JF,通过凸共轭逼近梯度法的收敛速度,SIAM J.Optim。,29, 1, 162-174, 2019 ·Zbl 1410.90151号 [52] Ho-Nguyen,N。;Kílñnç-Karzan,F.,通过在线凸优化在不确定性优化中开发问题结构,数学。程序。,177, 1-2, 113-147, 2019 ·Zbl 1418.90194号 [53] Ho-Nguyen,N。;Kílñnç-Karzan,F.,通过遗憾最小化实现凸优化的原对偶算法,IEEE控制系统。莱特。,2, 2, 284-289, 2018 [54] 科佩尔,A。;Jakubiec,财政年度;Ribeiro,A.,网络在线凸优化的鞍点算法,IEEE Trans。信号处理。,63, 19, 5149-5164, 2015 ·Zbl 1394.94285号 [55] 马哈达维,M。;金·R。;Yang,T.,《效率的交易遗憾:具有长期约束的在线凸优化》,J.Mach。学习。2012年第132503-2528号决议·Zbl 1434.90141号 [56] Ben-Tal,A.,Nemirovski,A.:现代凸优化讲座-2020/2021/2022/2023。未出版手稿 [57] Orabona,F.:在线学习的现代导论。arXiv:1912.13213(2019) [58] Rakhlin,A.,Sridharan,K.:统计学习理论和序列预测。未出版手稿(2016) [59] Hazan,E.,《在线凸优化导论》,2022年,剑桥:麻省理工学院出版社,剑桥·Zbl 1503.68004号 [60] Shalev Shwartz,S.等人:在线学习和在线凸优化。已找到。Trends®马赫数。学习。4(2), 107-194 (2012) ·Zbl 1253.68190号 [61] 卡莱,A。;Vempala,S.,《在线决策问题的高效算法》,J.Compute。系统。科学。,71, 3, 291-307, 2005 ·Zbl 1094.68112号 [62] 黄,R。;Lattimore,T。;György,A。;Szepesvari,C.,《遵循线性预测中的领先和快速率:曲线约束集和其他规律》,J.Mach。学习。2017年第18、145、1-31号决议·Zbl 1437.68152号 [63] Xiao,L.,正则化随机学习和在线优化的双重平均方法,J.Mach。学习。2010年第11、88、2543-2596号决议·Zbl 1242.62011年 [64] Shalev-Shwartz,S.:在线学习:理论、算法和应用。位于:耶路撒冷希伯来大学。博士论文(2007) [65] Koren,T。;Levy,K.,《外生经验风险最小化的快速利率》,《高级神经网络》。信息处理。系统。,28, 1477-1485, 2015 [66] Tseng,P.:关于凹凸优化的加速近似梯度法。未出版手稿(2008) [67] Rakhlin,A。;Sridharan,K.,《可预测序列的在线学习》,Conf.Learn。理论,30993-10192013 [68] 加伯,D。;Meshi,O.,结构多面体的线性记忆和分解不变量线性收敛条件梯度算法,Adv.Neural。信息处理。系统。,29, 1001-1009, 2016 [69] Combettes,C.W.,Pokutta,S.:某些集合上线性最小化和投影的复杂性。arXiv:2101.10040(2021) [70] 德米扬诺夫,心室颤动;Rubinov,AM,优化问题中的近似方法,1970年,阿姆斯特丹:Elsevier Publishing Company,Amsterdam·Zbl 0217.46203号 [71] Dunn,JC,条件梯度算法在奇异和非奇异极值附近的收敛速度,SIAM J.Control。最佳。,17, 2, 187-211, 1979 ·兹比尔0403.49028 [72] 卢,H。;Freund,RM,结构化凸优化的随机替代梯度广义随机Frank-Wolfe算法,数学。程序。,187, 317-349, 2020 ·Zbl 1465.90063号 [73] Jaggi,M.:重温Frank-Wolfe:无投影稀疏凸优化。摘自:机器学习国际会议,第427-435页(2013年) [74] 克拉克森,K.:核心集、稀疏贪婪近似和弗兰克·沃尔夫算法。摘自:《离散算法研讨会》,SODA,第922-931页(2008年)·Zbl 1192.90142号 [75] 加伯,D。;Hazan,E.,线性收敛条件梯度算法及其在线和随机优化应用,SIAM J.Optim。,26, 3, 1493-1528, 2016 ·Zbl 1342.65142号 [76] 鳄鱼朱利安,S。;Jaggi,M.,《关于Frank-Wolfe优化变量的全局线性收敛》,高级神经网络。信息处理。系统。,28, 496-504, 2015 [77] 弗伦德,RM;Grigas,P.,Frank-Wolfe方法的新分析和结果,数学。程序。,155, 199-230, 2016 ·Zbl 1342.90101号 [78] Braun,G.,Pokutta,S.,Tu,D.,Wright,S.:混合条件梯度。In:ICML(2019) [79] Z.哈查乌伊。;朱迪茨基,A。;Nemirovski,A.,规范化光滑凸优化的条件梯度算法,数学。掠夺。序列号。A、 2015年第152、75至112页·Zbl 1336.90069号 [80] Lan,G.,Zhou,Y.:凸优化的条件梯度滑动。SIAM J.优化。(2016) ·Zbl 1342.90132号 [81] Bubeck,S.,凸优化:算法和复杂性,Found。趋势马赫数。学习。,8, 3-4, 231-357, 2015 ·兹比尔1365.90196 [82] 塞萨·比安奇,N。;Conconi,A。;Gentile,C.,《在线学习算法的泛化能力》,IEEE Trans。信息理论,50,92050-20572004·Zbl 1295.68182号 [83] Levy,K.,《在线到离线转换、通用性和自适应小批量尺寸》,Adv.Neural。信息处理。系统。,30, 1613-1622, 2017 [84] Korpelevich,G.M.:寻找鞍点和其他问题的外梯度法。Matecon(1976) [85] 莫赫塔里,A。;Ozdaglar,AE;Pattathil,S.,光滑凹凸鞍点问题中乐观梯度和外梯度方法的O(1/k)收敛速度,SIAM J.Optim。,30, 4, 3230-3251, 2020 ·Zbl 1454.90057号 [86] Mertikopoulos,P.等人:鞍点问题中的乐观镜像下降:走额外(梯度)英里。参加:国际学习代表大会(2018年) [87] 谢,Y-G;Iutzeler,F。;Malick,J。;Mertikopoulos,P.,关于单次调用随机额外梯度方法的收敛性,高级神经。信息处理。系统。,32, 6936-6946, 2019 [88] Popov,LD,搜索鞍点的Arrow-Hurwicz方法的改进,数学。学术笔记。科学。苏联,28845-8481980·Zbl 0467.90081号 [89] Gidel,G.、Berard,H.、Vignoud,G.,Vincent,P.、Lacoste-Julien,S.:关于生成性对抗网络的变分不等式观点。参加:国际学习代表大会(2019年) [90] Daskalakis,C.,Ilyas,A.,Syrgkanis,V.,Zeng,H.:乐观训练GAN。参加:国际学习代表大会(2018年) [91] 彭,W。;戴,Y-H;张,H。;Cheng,L.,用向心加速度训练GAN,Optim。方法软件。,35, 5, 955-973, 2020 ·Zbl 1464.90060号 [92] 新西兰肖尔,《不可微函数的最小化方法》,计算数学史普林格级数第3卷,1985年,柏林:史普林格出版社·Zbl 0561.90058号 [93] Boyd,S.:次梯度法。In:EE364b注释(2014) [94] Cutkosky,A.:任何时候在线批量、乐观和加速。在:国际机器学习会议,第1446-1454页(2019) [95] 苏·W。;博伊德,S。;Candes,E.,《Nesterov加速梯度法建模的微分方程:理论和见解》,高级神经科学出版社。信息处理。系统。,27, 2510-2518, 2014 [96] Polyak,B.,《加速迭代法收敛的一些方法》,苏联计算机。数学。数学。物理。,4, 5, 1-17, 1964 ·Zbl 0147.35301号 [97] 北卡罗来纳州帕里赫。;Boyd,S.,《近似算法》,Found。趋势优化。,1, 3, 127-239, 2014 [98] Lessard,L。;雷奇特,B。;Packard,A.,通过积分二次约束分析和设计优化算法,SIAM J.Optim。,26, 1, 57-95, 2016 ·Zbl 1329.90103号 [99] Hu,B.,Lessard,L.:内斯特罗夫加速方法的耗散理论。摘自:机器学习国际会议,第1549-1557页(2017) [100] Bubeck,S.,Lee,Y.T.,Singh,M.:Nesterov加速梯度下降的几何替代方案。arXiv:1506.08187(2015) [101] Drusvyatskiy,D。;法泽尔,M。;Roy,S.,基于最优二次平均的最优一阶方法,SIAM J.Optim。,28, 1, 251-271, 2018 ·Zbl 1382.65169号 [102] 弗拉马利翁,N。;从平均到加速,只有一个步长,Conf.Learn。理论,40658-6952015 [103] Allen-Zhu,Z。;Orecchia,L.,《线性耦合:梯度和镜像下降的最终统一》,Innov。西奥。计算。科学。Conf.,67,3:1-3:22,2017年·Zbl 1402.90209号 [104] Diakonikolas1,J.,Orecchia,L.:加速粒外下降:一种新的加速一阶方法。因诺夫。西奥。计算。科学。忏悔。94, 23:1-23:19 (2018) ·Zbl 1462.90088号 [105] Diakonikolas,J。;Orecchia,L.,《近似对偶间隙技术:一阶方法的统一理论》,SIAM J.Optim。,29, 1, 660-689, 2019 ·Zbl 1412.90085号 [106] Nemirovski,A.,关于Lipschitz连续单调算子变分不等式和光滑凹凸鞍点问题的具有收敛速度(O(1/t))的Prox方法,SIAM J.Optim。,15, 1, 229-251, 2004 ·Zbl 1106.90059号 [107] Nesterov,Y.,对偶外推及其在求解变分不等式和相关问题中的应用,数学。程序。,109, 2-3, 319-344, 2007 ·Zbl 1167.90014号 [108] Wibisono,A。;AC威尔逊;Jordan,MI,《优化中加速方法的变分观点》,Proc。国家。阿卡德。科学。,113、47、E7351-E7358、2016·兹比尔1404.90098 [109] Shi,B。;杜,SS;密歇根州约旦;Su,WJ,通过高分辨率微分方程理解加速度现象,数学。程序。,195, 79-148, 2022 ·Zbl 1500.65026号 [110] W.克里钦。;巴彦,A。;Bartlett,PL,连续和离散时间内的加速镜下降,高级神经。信息处理。系统。,28, 2845-2853, 2015 [111] Scieur,D。;罗莱特,V。;巴赫,F。;d'Aspremont,A.,集成方法和优化算法,高级神经科学。信息处理。系统。,30, 1109-1118, 2017 [112] AC威尔逊;雷奇特,B。;Jordan,MI,《优化中加速方法的Lyapunov分析》,J.Mach。学习。2021年第22、113、1-34号决议·Zbl 07370630号 [113] Attouch,H。;查巴尼,Z。;Peypouquet,J。;Redont,P.,《惯性动力学和渐近消失粘性算法的快速收敛》,数学。程序。,168, 123-175, 2018 ·Zbl 1395.34068号 [114] d'Aspremont,A.、Scieur,d.、Taylor,A.:加速方法。arXiv:2101.09545(2021) [115] Wang,J.-K.,Lin,C.-H.,Wibisono,A.,Hu,B.:当非凸性平均时,一类Polyak-Lojasiewicz函数的重球超越二次函数的可证明加速度。摘自:机器学习国际会议(ICML),第22839-22864页(2022年) [116] 兰·G。;周瑜,最优随机增量梯度法,数学。程序。,171, 1-2, 167-215, 2017 ·兹比尔1432.90115 [117] Lan,G.,《机器学习的一阶和随机优化方法》,2020年,柏林:斯普林格出版社,柏林·Zbl 1442.68003号 [118] 贝克,A。;Teboulle,M.,《平滑和一阶方法:统一框架》,SIAM J.Optim。,22, 2, 557-580, 2012 ·Zbl 1251.90304号 [119] Lu,H.,Freund,R.M.,Nesterov,Y.:一阶方法和应用的相对光滑凸优化。SIAM J.优化。(2018) ·Zbl 1392.90090号 [120] Freund,RM,双规范程序,应用于二次规划和最小范数问题,数学。程序。,38, 1, 47-67, 1987 ·兹比尔0632.90054 [121] 弗里德兰德,议员;马塞多岛。;Pong,TK,《轨距优化和对偶》,SIAM J.Optim。,24, 4, 1999-2022, 2014 ·Zbl 1333.90083号 [122] Polovinkin,ES,强凸分析,Sbornik:Math。,187, 2, 259, 1996 ·Zbl 0869.52002号 [123] Molinaro,M.,离线和在线优化中可行集的强凸性,数学。操作。研究,48,2865-8842022 [124] Kerdreux,T.公司。;Roux,C。;d'Aspremont,A。;Pokutta,S.,一致凸集上的线性强盗,J.Mach。学习。2021年第22、284、1-23号决议·Zbl 07626799号 [125] Rockafellar,R.T.,Wets,R.J.-B.:变分分析。柏林施普林格(1998)·Zbl 0888.49001号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。