×

Fenchel游戏中的无重动态:算法凸优化的统一框架。 (英语) Zbl 07829604号

摘要:我们开发了一个使用无遗憾博弈动力学解决凸优化问题的算法框架。通过将凸函数极小化问题转化为以顺序方式求解min-max博弈的辅助问题,我们可以考虑两层中每一层的一系列策略,这两层必须依次选择他们的行动。这些策略的常见选择是所谓的无更新学习算法,我们描述了许多这样的算法,并证明了它们的遗憾范围。然后,我们证明了许多经典的凸优化一阶方法——包括平均迭代梯度下降法、Frank-Wolfe算法、Nesterov加速方法、加速近似法——可以解释为我们框架的特殊情况,只要每个参与者都正确选择了无重报策略。在这个框架中证明收敛速度变得非常简单,因为它们是通过插入适当的已知遗憾边界来实现的。我们的框架还为凸优化的特殊情况提供了许多新的一阶方法,这些方法以前都不知道。

MSC公司:

90C25型 凸面编程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Nesterov,Y.,一种求解具有收敛速度的凸规划问题的方法\(O(1/k^2)\),Sov。数学。Doklady,27372-3761983年·Zbl 0535.90071号
[2] Nesterov,Y.,带收敛速度的无约束凸极小化问题的一种方法(O(1/k^2)),Doklady an ussr,269543-5471983
[3] Nesterov,Y.,非光滑函数的平滑最小化,数学。程序。,103, 127-152, 2005 ·Zbl 1079.90102号
[4] Nesterov,Y.,《关于光滑凸函数最小化优化方法的构造方法》,Ekonom。i.Mat.Metody,24509-5171988年·Zbl 0659.90068号
[5] Nesterov,Y.,《凸优化入门讲座:基础课程》,2003年,柏林:施普林格,柏林
[6] M.弗兰克。;Wolfe,P.,二次规划算法,Nav。Res.Logist公司。Q.,31-295-1101956年
[7] 贝克,A。;Teboulle,M.,线性反问题的快速迭代收缩阈值算法,SIAM J.成像科学。,2, 1, 183-202, 2009 ·Zbl 1175.94009号
[8] 阿伯内西,JD;Wang,J-K,《弗兰克·沃尔夫与平衡计算》,高级神经网络。信息处理。系统。,30, 6584-6593, 2017
[9] Abernethy,J.,Lai,K.A.,Levy,K.Y.,Wang,J.-K.:凸凹博弈的更快速率。摘自:学习理论会议,第1595-1625页(2018年)
[10] 王,J-K;Abernethy,JD,通过乐观无进展的动态加速,Adv.Neural。信息处理。系统。,31, 3828-3838, 2018
[11] Bertsekas,D。;Nedic,A。;Ozdaglar,A.,凸分析与优化,2003年,纳舒亚:雅典娜科学出版社,纳舒阿·Zbl 1140.90001号
[12] Ben-Tal,A。;Nemirovski,A.,《现代凸优化讲座:分析、算法和工程应用》,2001年,Cham:SIAM,Cham·Zbl 0986.90032号
[13] 希里亚特·乌鲁蒂,J-B;Lemaréchal,C.,《凸分析与最小化算法I:基础》,2013年,柏林:施普林格出版社,柏林
[14] Rockafellar,RT,凸分析,1997,普林斯顿:普林斯顿大学出版社,普林斯顿·Zbl 0932.90001号
[15] 博伊德,SP;Vandenberghe,L.,凸优化,2004,剑桥:剑桥大学出版社,剑桥·Zbl 1058.90049号
[16] Borwein,J。;Lewis,AS,凸分析和非线性优化理论与实例,2006,柏林:Springer,柏林·Zbl 1116.90001号
[17] 莱维汀,ES;Polyak,BT,约束最小化方法,苏联计算。数学。数学。物理。,6, 5, 1-50, 1966
[18] Négiar,G.等人:约束有限和最小化的随机Frank Wolfe。摘自:机器学习国际会议,第7253-7262页(2020年)
[19] Bauschke,H。;Lucet,Y.,什么是Fenchel共轭物,Notices AMS,59,1,44-462012·Zbl 1248.49047号
[20] Kakade,S.、Shalev-Shwartz,S.和Tewari,A.:关于强凸性和强光滑性的对偶性:学习应用和矩阵正则化。未出版手稿(2009)
[21] Garber,D.,Hazan,E.:强凸集上Frank-Wolfe方法的速度更快。摘自:机器学习国际会议,第541-549页(2015)
[22] Freund,Y.,Schapire,R.E.:博弈论,在线预测和助推。摘自:学习理论会议,第325-332页(1996年)
[23] Blackwell,D.,向量支付的极大极小定理的模拟,Pac。数学杂志。,6, 1, 1-8, 1956 ·Zbl 0074.34403号
[24] Hannan,J.,《重复博弈中贝叶斯风险的近似方法》,《控制论游戏》,39,97,1957·Zbl 0078.32804号
[25] 拉赫林,S。;Sridharan,K.,《优化、学习和具有可预测序列的游戏》,高级神经网络。信息处理。系统。,26, 3066-3074, 2013
[26] Chiang,C-K,《渐进式在线优化》,Conf.Learn。理论,2012年6月23日-6月20日
[27] Nemirovski,A.,带Lipschitz连续单调算子的变分不等式和光滑凹凸鞍点问题的收敛速度为o(1/t)的Prox方法,SIAM J.Optim。,15, 1, 229-251, 2004 ·Zbl 1106.90059号
[28] Nesterov,Y.,对偶外推及其在求解变分不等式和相关问题中的应用,数学。程序。,109, 2-3, 319-344, 2007 ·Zbl 1167.90014号
[29] Syrgkanis,V.,Agarwal,A.,Luo,H.,Schapire,R.E.:游戏中正则化学习的快速收敛。高级神经信息处理。系统。28 (2015)
[30] Nedić,A。;Ozdaglar,A.,鞍点问题的次梯度方法,J.Optim。理论应用。,142, 205-228, 2009 ·Zbl 1175.90415号
[31] 澳大利亚银行。;Teboulle,M.,单调变分不等式的类内投影方法,数学。程序。,104, 39-68, 2005 ·Zbl 1159.90517号
[32] 埃克斯坦,J。;Bertsekas,DP,关于Douglas-Rachford分裂方法和最大单调算子的近点算法,数学。程序。,55, 293-318, 1992 ·Zbl 0765.90073号
[33] 陈,Y。;兰·G。;欧阳,Y.,一类鞍点问题的最优原对偶方法,SIAM J.Optim。,24, 4, 1779-1814, 2014 ·Zbl 1329.90090号
[34] 陈,Y。;兰·G。;欧阳,Y.,一类变分不等式的加速格式,数学。程序。,165, 113-149, 2017 ·兹伯利1386.90102
[35] 何毅。;Monteiro,RD,一类复合凹凸鞍点问题的加速HPE型算法,SIAM J.Optim。,26, 1, 29-56, 2016 ·Zbl 1329.90179号
[36] 朱迪茨基,A。;内米洛夫斯基,A。;Tauvel,C.,用随机镜像算法求解变分不等式,Stoch。系统。,1, 1, 17-58, 2011 ·Zbl 1291.49006号
[37] Tseng,P.,极大单调映射的一种改进的前向分裂方法,SIAM J.Control。最佳。,38, 2, 431-446, 2000 ·Zbl 0997.90062号
[38] Malitsky,Y.,变分不等式的Golden比率算法,数学。程序。,184, 383-410, 2020 ·Zbl 07263698号
[39] 安大略省Iusem;Jofré,A。;罗得岛奥利维拉;汤普森,P.,随机变分不等式的方差约简外梯度法,SIAM J.Optim。,29, 1, 175-206, 2017 ·Zbl 1415.65145号
[40] 科恩,MB;西德福德,A。;Tian,K.,《外梯度法中的相对唇色和加速的直接方法》,Innov。西奥。计算。科学。Conf.,185,62:1-62:18,2021年
[41] 欧阳,Y。;Xu,Y.,凸-凹双线性鞍点问题一阶方法的复杂度下限,数学。程序。,185, 1-35, 2021 ·Zbl 1458.90516号
[42] 张杰。;洪,M。;Zhang,S.,关于凹凸鞍点问题的迭代复杂度下限,数学。程序。,194, 901-935, 2022 ·Zbl 1494.90127号
[43] Chambolle,A。;Pock,T.,凸问题的一阶原对偶算法及其在成像中的应用,J.Math。成像视觉。,40, 1, 120-145, 2011 ·Zbl 1255.68217号
[44] Pock,T.,Cremers,D.,Bischof,H.,Chambolle,A.:最小化mumford-shah函数的算法。摘自:计算机视觉国际会议,第1133-1140页(2009年)
[45] Esser,E。;张,X。;Chan,TF,成像科学中凸优化的一类一阶原对偶算法的一般框架,SIAM J.成像科学。,3, 4, 1015-1046, 2010 ·Zbl 1206.90117号
[46] Chambolle,A.,Pock,T.:关于一阶原对偶算法的遍历收敛速度。数学。程序。159 (2016) ·Zbl 1350.49035号
[47] Zhu,M.,Chan,T.:一种用于全变分图像恢复的高效原对偶混合梯度算法。在:加州大学洛杉矶分校CAM报告(2008)
[48] Drori,Y。;萨巴赫,S。;Teboulle,M.,一类非光滑凹凸鞍点问题的简单算法,Oper。Res.Lett.公司。,43, 2, 209-214, 2015 ·Zbl 1408.90234号
[49] Combettes,P.L.,Condat,L.,Pesquet,J.-C.,Vũ,B.:图像恢复中一些原对偶优化方法的正向视图。摘自:国际图像处理会议,第4141-4145页(2014)
[50] 古特曼,DH;佩尼亚,JF,扰动芬切尔对偶和一阶方法,数学。程序。,198, 443-469, 2022 ·兹比尔1512.90167
[51] 古特曼,DH;Pena,JF,通过凸共轭逼近梯度法的收敛速度,SIAM J.Optim。,29, 1, 162-174, 2019 ·Zbl 1410.90151号
[52] Ho-Nguyen,N。;Kílñnç-Karzan,F.,通过在线凸优化在不确定性优化中开发问题结构,数学。程序。,177, 1-2, 113-147, 2019 ·Zbl 1418.90194号
[53] Ho-Nguyen,N。;Kílñnç-Karzan,F.,通过遗憾最小化实现凸优化的原对偶算法,IEEE控制系统。莱特。,2, 2, 284-289, 2018
[54] 科佩尔,A。;Jakubiec,财政年度;Ribeiro,A.,网络在线凸优化的鞍点算法,IEEE Trans。信号处理。,63, 19, 5149-5164, 2015 ·Zbl 1394.94285号
[55] 马哈达维,M。;金·R。;Yang,T.,《效率的交易遗憾:具有长期约束的在线凸优化》,J.Mach。学习。2012年第132503-2528号决议·Zbl 1434.90141号
[56] Ben-Tal,A.,Nemirovski,A.:现代凸优化讲座-2020/2021/2022/2023。未出版手稿
[57] Orabona,F.:在线学习的现代导论。arXiv:1912.13213(2019)
[58] Rakhlin,A.,Sridharan,K.:统计学习理论和序列预测。未出版手稿(2016)
[59] Hazan,E.,《在线凸优化导论》,2022年,剑桥:麻省理工学院出版社,剑桥·Zbl 1503.68004号
[60] Shalev Shwartz,S.等人:在线学习和在线凸优化。已找到。Trends®马赫数。学习。4(2), 107-194 (2012) ·Zbl 1253.68190号
[61] 卡莱,A。;Vempala,S.,《在线决策问题的高效算法》,J.Compute。系统。科学。,71, 3, 291-307, 2005 ·Zbl 1094.68112号
[62] 黄,R。;Lattimore,T。;György,A。;Szepesvari,C.,《遵循线性预测中的领先和快速率:曲线约束集和其他规律》,J.Mach。学习。2017年第18、145、1-31号决议·Zbl 1437.68152号
[63] Xiao,L.,正则化随机学习和在线优化的双重平均方法,J.Mach。学习。2010年第11、88、2543-2596号决议·Zbl 1242.62011年
[64] Shalev-Shwartz,S.:在线学习:理论、算法和应用。位于:耶路撒冷希伯来大学。博士论文(2007)
[65] Koren,T。;Levy,K.,《外生经验风险最小化的快速利率》,《高级神经网络》。信息处理。系统。,28, 1477-1485, 2015
[66] Tseng,P.:关于凹凸优化的加速近似梯度法。未出版手稿(2008)
[67] Rakhlin,A。;Sridharan,K.,《可预测序列的在线学习》,Conf.Learn。理论,30993-10192013
[68] 加伯,D。;Meshi,O.,结构多面体的线性记忆和分解不变量线性收敛条件梯度算法,Adv.Neural。信息处理。系统。,29, 1001-1009, 2016
[69] Combettes,C.W.,Pokutta,S.:某些集合上线性最小化和投影的复杂性。arXiv:2101.10040(2021)
[70] 德米扬诺夫,心室颤动;Rubinov,AM,优化问题中的近似方法,1970年,阿姆斯特丹:Elsevier Publishing Company,Amsterdam·Zbl 0217.46203号
[71] Dunn,JC,条件梯度算法在奇异和非奇异极值附近的收敛速度,SIAM J.Control。最佳。,17, 2, 187-211, 1979 ·兹比尔0403.49028
[72] 卢,H。;Freund,RM,结构化凸优化的随机替代梯度广义随机Frank-Wolfe算法,数学。程序。,187, 317-349, 2020 ·Zbl 1465.90063号
[73] Jaggi,M.:重温Frank-Wolfe:无投影稀疏凸优化。摘自:机器学习国际会议,第427-435页(2013年)
[74] 克拉克森,K.:核心集、稀疏贪婪近似和弗兰克·沃尔夫算法。摘自:《离散算法研讨会》,SODA,第922-931页(2008年)·Zbl 1192.90142号
[75] 加伯,D。;Hazan,E.,线性收敛条件梯度算法及其在线和随机优化应用,SIAM J.Optim。,26, 3, 1493-1528, 2016 ·Zbl 1342.65142号
[76] 鳄鱼朱利安,S。;Jaggi,M.,《关于Frank-Wolfe优化变量的全局线性收敛》,高级神经网络。信息处理。系统。,28, 496-504, 2015
[77] 弗伦德,RM;Grigas,P.,Frank-Wolfe方法的新分析和结果,数学。程序。,155, 199-230, 2016 ·Zbl 1342.90101号
[78] Braun,G.,Pokutta,S.,Tu,D.,Wright,S.:混合条件梯度。In:ICML(2019)
[79] Z.哈查乌伊。;朱迪茨基,A。;Nemirovski,A.,规范化光滑凸优化的条件梯度算法,数学。掠夺。序列号。A、 2015年第152、75至112页·Zbl 1336.90069号
[80] Lan,G.,Zhou,Y.:凸优化的条件梯度滑动。SIAM J.优化。(2016) ·Zbl 1342.90132号
[81] Bubeck,S.,凸优化:算法和复杂性,Found。趋势马赫数。学习。,8, 3-4, 231-357, 2015 ·兹比尔1365.90196
[82] 塞萨·比安奇,N。;Conconi,A。;Gentile,C.,《在线学习算法的泛化能力》,IEEE Trans。信息理论,50,92050-20572004·Zbl 1295.68182号
[83] Levy,K.,《在线到离线转换、通用性和自适应小批量尺寸》,Adv.Neural。信息处理。系统。,30, 1613-1622, 2017
[84] Korpelevich,G.M.:寻找鞍点和其他问题的外梯度法。Matecon(1976)
[85] 莫赫塔里,A。;Ozdaglar,AE;Pattathil,S.,光滑凹凸鞍点问题中乐观梯度和外梯度方法的O(1/k)收敛速度,SIAM J.Optim。,30, 4, 3230-3251, 2020 ·Zbl 1454.90057号
[86] Mertikopoulos,P.等人:鞍点问题中的乐观镜像下降:走额外(梯度)英里。参加:国际学习代表大会(2018年)
[87] 谢,Y-G;Iutzeler,F。;Malick,J。;Mertikopoulos,P.,关于单次调用随机额外梯度方法的收敛性,高级神经。信息处理。系统。,32, 6936-6946, 2019
[88] Popov,LD,搜索鞍点的Arrow-Hurwicz方法的改进,数学。学术笔记。科学。苏联,28845-8481980·Zbl 0467.90081号
[89] Gidel,G.、Berard,H.、Vignoud,G.,Vincent,P.、Lacoste-Julien,S.:关于生成性对抗网络的变分不等式观点。参加:国际学习代表大会(2019年)
[90] Daskalakis,C.,Ilyas,A.,Syrgkanis,V.,Zeng,H.:乐观训练GAN。参加:国际学习代表大会(2018年)
[91] 彭,W。;戴,Y-H;张,H。;Cheng,L.,用向心加速度训练GAN,Optim。方法软件。,35, 5, 955-973, 2020 ·Zbl 1464.90060号
[92] 新西兰肖尔,《不可微函数的最小化方法》,计算数学史普林格级数第3卷,1985年,柏林:史普林格出版社·Zbl 0561.90058号
[93] Boyd,S.:次梯度法。In:EE364b注释(2014)
[94] Cutkosky,A.:任何时候在线批量、乐观和加速。在:国际机器学习会议,第1446-1454页(2019)
[95] 苏·W。;博伊德,S。;Candes,E.,《Nesterov加速梯度法建模的微分方程:理论和见解》,高级神经科学出版社。信息处理。系统。,27, 2510-2518, 2014
[96] Polyak,B.,《加速迭代法收敛的一些方法》,苏联计算机。数学。数学。物理。,4, 5, 1-17, 1964 ·Zbl 0147.35301号
[97] 北卡罗来纳州帕里赫。;Boyd,S.,《近似算法》,Found。趋势优化。,1, 3, 127-239, 2014
[98] Lessard,L。;雷奇特,B。;Packard,A.,通过积分二次约束分析和设计优化算法,SIAM J.Optim。,26, 1, 57-95, 2016 ·Zbl 1329.90103号
[99] Hu,B.,Lessard,L.:内斯特罗夫加速方法的耗散理论。摘自:机器学习国际会议,第1549-1557页(2017)
[100] Bubeck,S.,Lee,Y.T.,Singh,M.:Nesterov加速梯度下降的几何替代方案。arXiv:1506.08187(2015)
[101] Drusvyatskiy,D。;法泽尔,M。;Roy,S.,基于最优二次平均的最优一阶方法,SIAM J.Optim。,28, 1, 251-271, 2018 ·Zbl 1382.65169号
[102] 弗拉马利翁,N。;从平均到加速,只有一个步长,Conf.Learn。理论,40658-6952015
[103] Allen-Zhu,Z。;Orecchia,L.,《线性耦合:梯度和镜像下降的最终统一》,Innov。西奥。计算。科学。Conf.,67,3:1-3:22,2017年·Zbl 1402.90209号
[104] Diakonikolas1,J.,Orecchia,L.:加速粒外下降:一种新的加速一阶方法。因诺夫。西奥。计算。科学。忏悔。94, 23:1-23:19 (2018) ·Zbl 1462.90088号
[105] Diakonikolas,J。;Orecchia,L.,《近似对偶间隙技术:一阶方法的统一理论》,SIAM J.Optim。,29, 1, 660-689, 2019 ·Zbl 1412.90085号
[106] Nemirovski,A.,关于Lipschitz连续单调算子变分不等式和光滑凹凸鞍点问题的具有收敛速度(O(1/t))的Prox方法,SIAM J.Optim。,15, 1, 229-251, 2004 ·Zbl 1106.90059号
[107] Nesterov,Y.,对偶外推及其在求解变分不等式和相关问题中的应用,数学。程序。,109, 2-3, 319-344, 2007 ·Zbl 1167.90014号
[108] Wibisono,A。;AC威尔逊;Jordan,MI,《优化中加速方法的变分观点》,Proc。国家。阿卡德。科学。,113、47、E7351-E7358、2016·兹比尔1404.90098
[109] Shi,B。;杜,SS;密歇根州约旦;Su,WJ,通过高分辨率微分方程理解加速度现象,数学。程序。,195, 79-148, 2022 ·Zbl 1500.65026号
[110] W.克里钦。;巴彦,A。;Bartlett,PL,连续和离散时间内的加速镜下降,高级神经。信息处理。系统。,28, 2845-2853, 2015
[111] Scieur,D。;罗莱特,V。;巴赫,F。;d'Aspremont,A.,集成方法和优化算法,高级神经科学。信息处理。系统。,30, 1109-1118, 2017
[112] AC威尔逊;雷奇特,B。;Jordan,MI,《优化中加速方法的Lyapunov分析》,J.Mach。学习。2021年第22、113、1-34号决议·Zbl 07370630号
[113] Attouch,H。;查巴尼,Z。;Peypouquet,J。;Redont,P.,《惯性动力学和渐近消失粘性算法的快速收敛》,数学。程序。,168, 123-175, 2018 ·Zbl 1395.34068号
[114] d'Aspremont,A.、Scieur,d.、Taylor,A.:加速方法。arXiv:2101.09545(2021)
[115] Wang,J.-K.,Lin,C.-H.,Wibisono,A.,Hu,B.:当非凸性平均时,一类Polyak-Lojasiewicz函数的重球超越二次函数的可证明加速度。摘自:机器学习国际会议(ICML),第22839-22864页(2022年)
[116] 兰·G。;周瑜,最优随机增量梯度法,数学。程序。,171, 1-2, 167-215, 2017 ·兹比尔1432.90115
[117] Lan,G.,《机器学习的一阶和随机优化方法》,2020年,柏林:斯普林格出版社,柏林·Zbl 1442.68003号
[118] 贝克,A。;Teboulle,M.,《平滑和一阶方法:统一框架》,SIAM J.Optim。,22, 2, 557-580, 2012 ·Zbl 1251.90304号
[119] Lu,H.,Freund,R.M.,Nesterov,Y.:一阶方法和应用的相对光滑凸优化。SIAM J.优化。(2018) ·Zbl 1392.90090号
[120] Freund,RM,双规范程序,应用于二次规划和最小范数问题,数学。程序。,38, 1, 47-67, 1987 ·兹比尔0632.90054
[121] 弗里德兰德,议员;马塞多岛。;Pong,TK,《轨距优化和对偶》,SIAM J.Optim。,24, 4, 1999-2022, 2014 ·Zbl 1333.90083号
[122] Polovinkin,ES,强凸分析,Sbornik:Math。,187, 2, 259, 1996 ·Zbl 0869.52002号
[123] Molinaro,M.,离线和在线优化中可行集的强凸性,数学。操作。研究,48,2865-8842022
[124] Kerdreux,T.公司。;Roux,C。;d'Aspremont,A。;Pokutta,S.,一致凸集上的线性强盗,J.Mach。学习。2021年第22、284、1-23号决议·Zbl 07626799号
[125] Rockafellar,R.T.,Wets,R.J.-B.:变分分析。柏林施普林格(1998)·Zbl 0888.49001号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。