×

梯度中含有绝对和相对噪声的加速梯度法。 (英语) Zbl 07775238号

摘要:本文研究了在目标梯度信息不精确的情况下光滑凸优化问题的加速一阶方法。梯度中的噪声被视为具有两种可能性的加性噪声:由常数限定的绝对噪声和与梯度范数成比例的相对噪声。我们研究了凸和强凸设置中误差的累积,与以前的大多数工作的主要区别在于可行集可以是无界的。后者的关键是证明算法的轨迹有界。我们还给出了算法的停止准则,并考虑了对随机优化和复合非光滑问题的扩展。

MSC公司:

90C25型 凸面编程
90立方厘米15 随机规划

软件:

香蒜酱
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ajalloeian,A.和Stich,S.U.,用有偏梯度估计值分析SGD,arXiv预印本arXiv:2008.0051(2020)。
[2] 阿卡万,A。;庞蒂尔,M。;Tsybakov,A.,《在无导数优化和连续强盗中利用高阶光滑性》,Adv.Neural。信息处理。系统。,3319017-9027(2020)
[3] Bach,F.和Perchet,V.,《高平滑零阶在线优化》,第29届学习理论年会,V.Feldman,A.Rakhlin和O.Shamir编辑,《机器学习研究论文集》第49卷,6月23日至26日,哥伦比亚大学,美国纽约,PMLR,2016年,第257-283页。可在http://proceedings.mlr.press/v49/bach16.html。
[4] Beck,A.,优化中的一阶方法(2017),宾夕法尼亚州费城:SIAM·Zbl 1384.65033号
[5] Belloni,A.、Liang,T.、Narayanan,H.和Rakhlin,A.,《通过模拟退火逃离局部极小值:近似凸函数的优化》,摘自《第28届学习理论会议论文集》,P.Grünwald、E.Hazan和S.Kale编辑,《机器学习研究论文集》第40卷,7月3-6日,法国巴黎,PMLR,2015年,第240-265页。可在http://proceedings.mlr.press/v40/Belloni15.html。
[6] Ben-Tal,A.和Nemirovski,A.,现代凸优化讲座(讲稿),A.Nemirowski的个人网页,2015年。
[7] Berahas,A.S。;曹,L。;Choromanski,K。;Scheinberg,K.,无导数优化中梯度近似的理论和经验比较,Found。计算。数学。,22, 507-560 (2021) ·Zbl 1493.90233号
[8] Beznosikov,A.、Sadiev,A.和Gasnikov,A,凹凸随机鞍点问题的不精确预言的无梯度方法,数学优化理论和运筹学国际会议,Springer,2020年,第105-119页·Zbl 1460.90118号
[9] Bubeck,S.,《凸优化:算法和复杂性》,《发现趋势——马赫学习》,第8231-357页(2015年)·Zbl 1365.90196号
[10] Cohen,M.、Diakonikolas,J.和Orecchia,L.,《关于噪声破坏梯度的加速》,机器学习国际会议,PMLR,2018年,第1019-1028页。
[11] 康涅狄格州A。;Scheinberg,K。;Vicente,L.,《无导数优化导论》(2009),工业和应用数学学会:工业和应用算术学会,费城·Zbl 1163.49001号 ·doi:10.137/1.9780898718768
[12] d'Aspremont,A.,具有近似梯度的平滑优化,SIAM。J.Optim。,19, 1171-1183 (2008) ·Zbl 1180.90378号
[13] Devolder,O.,光滑凸优化中的随机一阶方法,CORE讨论论文2011/70(2011)。
[14] Devolder,O.,大规模凸优化一阶方法中的精确性、不精确性和随机性,博士学位论文。,ICTEAM和CORE,鲁汶天主教大学,2013年。
[15] Devolder,O。;Glineur,F。;Nesterov,Y.,《不精确预言的一阶方法:强凸情形》,CORE讨论。论文,2013016,47(2013)
[16] Devolder,O。;Glineur,F。;Nesterov,Y.,不精确预言的光滑凸优化的一阶方法,数学。程序。,146, 37-75 (2014) ·Zbl 1317.90196号 ·doi:10.1007/s10107-013-0677-5
[17] Drusvyatskiy,D。;肖,L.,具有决策相关分布的随机优化,数学。操作。决议(2022年)·Zbl 07808974号 ·doi:10.1287/门2022.1287
[18] Dvinskikh,D。;Gasnikov,A.,随机凸规划问题的分散并行原始和对偶加速方法,J.逆病态问题。,29, 3, 385-405 (2021) ·Zbl 1472.90087号
[19] Dvinskikh,D.M。;A.I.都灵。;Gasnikov,A.V。;Omelchenko,S.S.,模型通用性中的加速和非加速随机梯度下降,Mat.Zametki,108,515-528(2020)·Zbl 1452.90226号
[20] Dvurechensky,P.,《大规模优化中的数值方法:不精确Oracle和主对偶分析》(2020),HSE:HSE,莫斯科
[21] Dvurechensky,P。;Gasnikov,A.,随机不精确预言凸问题的随机中间梯度法,J.Optim。理论。申请。,171, 121-145 (2016) ·Zbl 1351.90150号 ·doi:10.1007/s10957-016-0999-6
[22] Dvurechensky,P.、Gasnikov,A.和Kroshnin,A.,《计算最优传输:加速梯度下降的复杂性优于辛霍恩算法》,载于《第35届国际机器学习会议论文集》,J.Dy和A.Krause编辑,《机器学习研究论文集》第80卷。2018年,第1367-1376页。arXiv:1802.04367。
[23] Dvurechensky,P。;Shtern,S。;Staudigl,M.,凸优化的一阶方法,EURO J.Compute。最佳。,9 (2021) ·Zbl 1516.90048号
[24] d'Aspremont,A。;Scieur,D。;Taylor,A.,《加速度方法》,Found。趋势。最佳。,5, 1-245 (2021)
[25] Evtushenko,Y.G.,《优化和快速自动区分》,俄罗斯皇家科学院计算中心,莫斯科(2013年)。
[26] Gannot,O.,《不精确梯度法的频域分析》,数学。程序。,194, 975-1016 (2022) ·兹比尔1494.90078 ·doi:10.1007/s10107-021-01665-8
[27] Gasnikov,A.,《通用梯度下降》,arXiv预印本arXiv:1711.00394(2017)。
[28] 加斯尼科夫,A.V。;Nesterov,Y.E.,随机组合优化问题的通用方法,计算。数学。数学。物理。,58, 48-64 (2018) ·Zbl 1457.90099号
[29] Gasnikov,A.V。;Gasnikova,E.V。;Nesterov,Y.E。;Chernov,A.V.,熵线性规划问题的有效数值方法,计算。数学。数学。物理。,56, 514-524 (2016) ·Zbl 1354.65121号 ·doi:10.1134/S0965542516040084
[30] Gasnikov,A.、Kabanikhin,S.、Mohammed,A.和Shishlenin,M.,希尔伯特空间中的凸优化及其反问题应用,arXiv预印本arXiv:1703.00267(2017)。
[31] 古德费罗,I。;Y.本吉奥。;科尔维尔,A。;Bengio,Y.,《深度学习》,第1卷(2016),麻省理工学院出版社,剑桥·Zbl 1373.68009号
[32] Gorbunov,E.、Dvurechensky,P.和Gasnikov,A.,无导数光滑随机凸优化的加速方法,arXiv预印本arXiv:1802.09022(2018)·Zbl 1494.90058号
[33] Gorbunov,E.、Dvinskikh,D.和Gasnikov,A.,随机凸优化的最优分散分布式算法,arXiv预印本arXiv:1911.07363(2019)。
[34] Kabanikhin,S.I.,《逆问题和不适定问题:理论和应用》,第55卷(2011年),沃尔特·德格鲁伊特:沃尔特·德格鲁伊特,新西伯利亚·Zbl 1170.35100号
[35] Kamzolov博士。;Dvurechensky,P。;Gasnikov,A.V.,不精确预言凸问题的通用中间梯度法,Optim。方法软件。,36, 6, 1289-1316 (2020) ·Zbl 1493.90132号
[36] Kotsalis,G。;兰·G。;Li,T.,随机变分不等式的简单优化方法,I:算子外推,SIAM。J.Optim。,32, 2041-2073 (2022) ·Zbl 1497.90204号
[37] Lan,G.,机器学习的一阶和随机优化方法(2020),Springer:Springer,Cham·Zbl 1442.68003号
[38] Nemirovski,A.S.,不适定问题共轭梯度法的正则化性质,Zhurnal Vychislitel’noi Matematiki i Matematicheskoi Fiziki,26,332-347(1986)·兹比尔0615.65056
[39] 内米洛夫斯基,A。;Yudin,D.,优化中的问题复杂性和方法效率(1983),J.Wiley&Sons:J.Willey&Sons,纽约·兹比尔0501.90062
[40] Nesterov,Y.,《凸优化讲座》,第137卷(2018),Springer:Springer,Cham·Zbl 1427.90003号
[41] 内斯特罗夫,Y。;Spokoiny,V.,凸函数的随机无梯度最小化,Found。计算。数学。,17, 527-566 (2017) ·兹比尔1380.90220 ·doi:10.1007/s10208-015-9296-2
[42] Novitskii,V.和Gasnikov,A.,《改进无导数优化和连续强盗中的高阶平滑利用》,arXiv预印本arXiv:2101.03821(2021)·Zbl 1496.90113号
[43] Pedregosa,F.和Scieur,D.,通过谱密度估计的平均案例加速度,arXiv预印本arXiv:2002.04756(2020)。
[44] Poljak,B.,奇异极小化问题的迭代算法,载于非线性规划4,Elsevier,1981年,第147-166页·Zbl 0546.90078号
[45] Polyak,B.,《优化导论》(1987),《优化软件:优化软件》,纽约
[46] 波利亚克,B.T。;Tsybakov,A.B.,随机优化中搜索算法的最佳精度顺序,Probl。Peredachi通知。,26, 45-53 (1990) ·Zbl 0712.90073号
[47] Risteski,A。;Li,Y.,近似凸优化的算法和匹配下限,高级神经网络。信息处理。系统。,29, 4745-4753 (2016)
[48] Rockafellar,R.T.,《凸分析》,第36卷(1970),普林斯顿大学出版社:普林斯顿大学出版·兹比尔0229.90020
[49] Scieur,D.和Pedregosa,F.,polyak动量的普遍渐近最优性,《国际机器学习会议》,PMLR,2020年,第8565-8572页。
[50] Stonyakin,F.,变分不等式的自适应方法,最小化问题和泛函广义增长条件,MIPT。习惯化(2020年)。
[51] Stonyakin,F。;Tyurin,A。;Gasnikov,A。;Dvurechensky,P。;阿加福诺夫,A。;Dvinskikh,D。;Alkousa,M。;Pasechnyuk,D。;阿尔塔莫诺夫,S。;Piskunova,V.,《不精确模型:优化和变分不等式的框架》,Optim。方法软件。(2021) ·兹比尔1489.65089 ·doi:10.1080/10556788.2021.1924714
[52] Taylor,A.B。;亨德里克斯,J.M。;Glineur,F.,《光滑强凸插值和一阶方法的精确最坏情况性能》,数学。程序。,161, 307-345 (2017) ·Zbl 1359.90098号
[53] Tyurin,A.,《解决结构优化问题的方法开发》,HSE。博士论文(2020年)。
[54] Vasilyev,F.,《优化方法》,俄罗斯莫斯科:FP,2002年。
[55] Vaswani,S.、Bach,F.和Schmidt,M.,超参数模型和加速感知器的SGD快速收敛,第22届国际人工智能与统计会议,PMLR,2019年,第1195-1204页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。