×

梯度下降和流量的路径长度边界。 (英语) Zbl 07370585号

摘要:我们导出了各类光滑凸函数和非凸函数的梯度下降(GD)和梯度流(GF)曲线的路径长度(zeta)的界。在其他结果中,我们证明了:(a)如果迭代与因子(1-c)线性收敛,则(zeta)至多为(mathcal{O}(1/c));(b) 在Polyak-Kurdyka-Łojasiewicz(PKL)条件下,\(zeta\)最多为\(\mathcal{O}(\sqrt{\kappa})\),其中\(\kappa \)是条件数,至少为\(\ widetilde\Omega(\sqart{d}\wedge\kappa-{1/4});(c) 对于二次方,\(\zeta\)是\(\Theta(\min\{\sqrt{d},\sqrt{\log\kappa})\),在某些情况下可以独立于\(\kappa);(d) 假设只是凸性,\(zeta\)最多可以是\(2^{4d\logd}\);(e) 对于可分拟凸函数,(zeta)是({Theta}(sqrt{d})。因此,我们提高了对GD和GF曲线特性的当前理解,这些特性超出了收敛速度。我们希望我们的技术能够促进其他算法的未来研究。

MSC公司:

68T05型 人工智能中的学习和自适应系统

软件:

GeoGebra公司
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 泽源·阿连珠、李元志、赵松。通过过度参数化实现深度学习的收敛理论。2019年国际机器学习会议,第242-252页。
[2] CJ Argue、S´ebastien Bubeck、Michael B Cohen、Anupam Gupta和Yin Tat Lee。追踪嵌套凸体的近似线性边界。第三十届ACM-SIAM离散算法年会论文集,第117-122页。SIAM,2019年·Zbl 1431.68115号
[3] 海迪·阿图克和胡安·佩皮奎特。nesterov的加速前向后退法的收敛速度实际上快于1/kˆ2.SIAM Journal on Optimization,26(3):1824-18342016·Zbl 1346.49048号
[4] Mordecai Avriel、Walter E Diewert、Siegfried Schaible和Israel Zang。广义凹度。SIAM,2010年。
[5] Sivaraman Balakrishnan、Martin J.Wainwright和Bin Yu。EM算法的统计保证:从人口到基于样本的分析。《统计年鉴》,45(1):77-1202017年2月·Zbl 1367.62052号
[6] J´erˆome Bolte和Edouard Pauwels。光滑凸优化中的好奇心和反例。arXiv预印本arXiv:2001.079992020。
[7] 杰尔·奥米·博尔特、阿里斯·达尼利迪斯和阿德里安·刘易斯。非光滑次分析函数的Lojasiewicz不等式及其在次梯度动力系统中的应用。SIAM优化杂志,17(4):1205-12232007·Zbl 1129.26012号
[8] 杰尔·奥米·博尔特、阿里斯·达尼利迪斯、奥利维尔·莱伊和劳伦特·马泽特。Lojasiewicz不等式的特征:次梯度流,talweg,凸性。美国证券交易所交易
[9] 奥利维尔·布斯克特和安德烈·埃利塞夫。稳定性和泛化。机器学习研究杂志,2:499-5262002·Zbl 1007.68083号
[10] S´ebastien Bubeck。凸优化:算法和复杂性。机器学习的基础和趋势,8(3-4):231-3572015·Zbl 1365.90196号
[11] S´ebastien Bubeck、Yuanzhi Li、Haipeng Luo和Chen-Yu Wei。改进了盗贼的路径长度遗憾边界。InConference on Learning Theory,2019年第508-528页。
[12] 陈元思、池瑾和余斌。迭代优化算法的稳定性和收敛性权衡。arXiv预印本arXiv:1804.016192018。
[13] 阿里斯·达尼利迪斯(Aris Danilidis)、奥利维尔·莱伊(Olivier Ley)和圣伊凡·萨布劳(St´ephane Sabourau)。凸函数的自收缩平面曲线和梯度轨道的渐近性。《数学与应用杂志》,94(2):183-1992010年·Zbl 1201.37023号
[14] 阿里斯·达尼利迪斯(Aris Danilidis)、盖伊·戴维(Guy David)、埃斯蒂巴利兹·杜兰·卡塔赫纳(Estibalitz Durand-Cartagena)和安托万·莱曼(Antoine Lemenant)。欧氏空间中自收缩曲线的可纠正性及其应用。《几何分析杂志》,25(2):1211-12392015·Zbl 1326.53009号
[15] 阿里斯·达尼利迪斯(Aris Danilidis)、罗伯特·德维尔(Robert Deville)、埃斯蒂巴利兹·杜兰·卡塔赫纳(Estibalitz Durand-Cartagena)和卢多维奇·里福德(Ludovic Rifford)。黎曼流形中的自收缩曲线。数学分析与应用杂志,457(2):1333-13522018·Zbl 1376.53073号
[16] Simon Du、Jason Lee、Haochuan Li、Liwei Wang和Xiyu Zhai。梯度下降法寻找深层神经网络的全局极小值。2019年国际机器学习会议,第1675-1685页。
[17] Simon S Du、Xiyu Zhai、Barnabas Poczos和Aarti Singh。梯度下降可证明优化了过参数化神经网络。2018年国际学习代表大会。
[18] Estibalitz Durand-Cartagena和Antoine Lemenant。自收缩曲线是凸函数的梯度流。《美国数学学会学报》,147(6):2517-25312019年·Zbl 1414.53004号
[19] 玛丽亚姆·法泽尔(Maryam Fazel)、荣格(Rong Ge)、沙姆·卡卡德(Sham Kakade)和梅兰·梅斯巴希(Mehran Mesbahi)。线性二次调节器策略梯度方法的全局收敛性。2018年国际机器学习会议,第1467-1476页。
[20] 沃纳·芬切尔。凸锥、集合和函数。课堂讲稿。普林斯顿大学,1953年·Zbl 0053.12203号
[21] Robert M Freund、Paul Grigas和Rahul Mazumder。logistic回归的条件数分析及其对标准一阶解方法的影响。arXiv预印本arXiv:1810.087272018。
[22] 葛蓉、黄芙蓉、迟进和杨元。逃离鞍点——张量分解的在线随机梯度。学习理论会议,第797-842页,2015年。
[23] 尤哈娜·加迪米(Euhanna Ghadimi)、哈米德·雷扎·费兹马达维安(Hamid Reza Feyzmahdavian)和米凯尔·约翰逊(Mikael Johansson)。凸优化重球法的全局收敛性。欧洲控制会议,第310-315页。IEEE,2015年。
[24] Crist´obal Guzm´an和Arkadi Nemirovski。大规模光滑凸优化的复杂度下限。《复杂性杂志》,31(1):1-142015·Zbl 1304.65155号
[25] 莫里茨·哈德(Moritz Hardt)、本杰明·雷希特(Benjamin Recht)和约拉姆·辛格(Yoram Singer)。训练更快,概括更好:随机梯度下降的稳定性。在2016年国际机器学习会议上,第1225-1234页。
[26] 特雷弗·哈斯蒂(Trevor Hastie)、乔纳森·泰勒(Jonathan Taylor)、罗伯特·蒂布什拉尼(Robert Tibshirani)和根瑟·沃尔特(Guenther Walther)。前向分阶段回归和单调套索。《电子统计杂志》,1:1-292007·Zbl 1306.62176号
[27] M.Hohenwarter、M.Borchers、G.Ancsin、B.Bencze、M.Blossier、A.Delobelle、C.Denizet、J.Eli’as、A Fekete、L.G’al、Z.Kone’cn’y、Z.Kov’acs、S.Lizelfener、B.Parisse和G.Sturr。GeoGebra 4.4,2013年12月。http://www.geogebra.org。
[28] Hamed Karimi、Julie Nutini和Mark Schmidt。Polyak-Lojasiewicz条件下梯度法和近似粒度法的线性收敛性。欧洲机器学习和数据库知识发现联合会议,第795-811页。斯普林格,2016年。
[29] Krzysztof Kurdyka。关于可在o-极小结构中定义的函数的梯度。《傅里叶学会年鉴》,第48卷,第769-783页,1998年·Zbl 0934.32009
[30] 杰森·D·李(Jason D Lee)、伊奥尼斯·帕纳吉亚斯(Ioannis Panageas)、乔治·皮里奥拉斯(Georgios Piliouras)、马克斯·辛乔维茨(Max Simchowitz)、迈克尔·乔丹(Michael I Jordan)和本杰明·雷。一阶方法几乎总是避免严格的鞍点。数学规划,176(1-2):311-3372019·Zbl 1415.90089号
[31] 郝丽、郑旭、加文·泰勒、克里斯托夫·斯图德和汤姆·戈尔茨坦。可视化神经网络的损失情况。《神经信息处理系统进展》,第6389-6399页,2018年。
[32] 斯坦尼斯劳·洛贾西维茨(Stanislaw Lojasiewicz)。Une propri’et’e拓扑des sous-ensemples分析鳗鱼。Les方程aux D´eriv´ees Partielles,117:87-891963·Zbl 0234.57007号
[33] 保罗·曼塞利和卡洛·普奇。拟凸函数最陡下降曲线的最大长度。《Dedicata几何》,38(2):211-2271991年·Zbl 0724.52006号
[34] 宋梅(Song Mei)、于白(Yu Bai)和安德烈亚·蒙塔纳里(Andrea Montanari)。非凸损失的经验风险景观。《统计年鉴》,46(6A):2747-27742018年12月·Zbl 1409.62117号
[35] 尤里·内斯特罗夫。凸优化导论:基础课程,第87卷。施普林格科学与商业媒体,2013年。
[36] Samet Oymak和Mahdi Soltanolkotabi。过度参数化非线性学习:梯度下降采用最短路径?2019年,机器学习国际会议,第4951-4960页。
[37] 鲍里斯·波利亚克。加速迭代法收敛的一些方法。苏联计算数学和数学物理,4(5):1-171964·Zbl 0147.35301号
[38] 鲍里斯·特奥多罗维奇·波利亚克。最小化泛函的梯度方法。Zhurnal Vychislitel'noi Matematiki i Matematicheskoi Fiziki,3(4):643-6531963。
[39] LA Santal´o。n维球面上的凸区域。《数学年鉴》,第448-459页,1946年·Zbl 0061.38007号
[40] Mahdi Soltanolkotabi、Adel Javanmard和Jason D Lee。对超参数化浅层神经网络优化前景的理论见解。IEEE信息理论汇刊,65(2):742-7692019·Zbl 1428.68255号
[41] 尤金·斯特帕诺夫和亚娜·特普利茨卡亚。自收缩曲线的长度是有限的。《伦敦数学学会杂志》,96(2):455-4812017·Zbl 1379.53006号
[42] 陈玉伟和罗海鹏。针对敌方强盗的更多自适应算法。学习理论会议,第1263-1291页,2018年。
[43] 周星宇。关于强凸性和Lipschitz连续梯度之间的Fenchel对偶性。arXiv预印本arXiv:1803.065732018。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。