奇拉格·古普塔;西瓦拉曼·巴拉克利什南;阿迪提亚·拉姆达斯 梯度下降和流量的路径长度边界。 (英语) Zbl 07370585号 J.马赫。学习。物件。 22,第68号论文,63页(2021年). 摘要:我们导出了各类光滑凸函数和非凸函数的梯度下降(GD)和梯度流(GF)曲线的路径长度(zeta)的界。在其他结果中,我们证明了:(a)如果迭代与因子(1-c)线性收敛,则(zeta)至多为(mathcal{O}(1/c));(b) 在Polyak-Kurdyka-Łojasiewicz(PKL)条件下,\(zeta\)最多为\(\mathcal{O}(\sqrt{\kappa})\),其中\(\kappa \)是条件数,至少为\(\ widetilde\Omega(\sqart{d}\wedge\kappa-{1/4});(c) 对于二次方,\(\zeta\)是\(\Theta(\min\{\sqrt{d},\sqrt{\log\kappa})\),在某些情况下可以独立于\(\kappa);(d) 假设只是凸性,\(zeta\)最多可以是\(2^{4d\logd}\);(e) 对于可分拟凸函数,(zeta)是({Theta}(sqrt{d})。因此,我们提高了对GD和GF曲线特性的当前理解,这些特性超出了收敛速度。我们希望我们的技术能够促进其他算法的未来研究。 引用于4文件 MSC公司: 68T05型 人工智能中的学习和自适应系统 关键词:最优化;轨迹分析;条件编号;自收缩曲线;Polyak Kurdyka-Łojasewicz函数 软件:GeoGebra公司 PDF格式BibTeX公司 XML格式引用 \textit{C.Gupta}等人,J.Mach。学习。第22号决议,第68号论文,63页(2021;Zbl 07370585) 全文: arXiv公司 链接 参考文献: [1] 泽源·阿连珠、李元志、赵松。通过过度参数化实现深度学习的收敛理论。2019年国际机器学习会议,第242-252页。 [2] CJ Argue、S´ebastien Bubeck、Michael B Cohen、Anupam Gupta和Yin Tat Lee。追踪嵌套凸体的近似线性边界。第三十届ACM-SIAM离散算法年会论文集,第117-122页。SIAM,2019年·Zbl 1431.68115号 [3] 海迪·阿图克和胡安·佩皮奎特。nesterov的加速前向后退法的收敛速度实际上快于1/kˆ2.SIAM Journal on Optimization,26(3):1824-18342016·Zbl 1346.49048号 [4] Mordecai Avriel、Walter E Diewert、Siegfried Schaible和Israel Zang。广义凹度。SIAM,2010年。 [5] Sivaraman Balakrishnan、Martin J.Wainwright和Bin Yu。EM算法的统计保证:从人口到基于样本的分析。《统计年鉴》,45(1):77-1202017年2月·Zbl 1367.62052号 [6] J´erˆome Bolte和Edouard Pauwels。光滑凸优化中的好奇心和反例。arXiv预印本arXiv:2001.079992020。 [7] 杰尔·奥米·博尔特、阿里斯·达尼利迪斯和阿德里安·刘易斯。非光滑次分析函数的Lojasiewicz不等式及其在次梯度动力系统中的应用。SIAM优化杂志,17(4):1205-12232007·Zbl 1129.26012号 [8] 杰尔·奥米·博尔特、阿里斯·达尼利迪斯、奥利维尔·莱伊和劳伦特·马泽特。Lojasiewicz不等式的特征:次梯度流,talweg,凸性。美国证券交易所交易 [9] 奥利维尔·布斯克特和安德烈·埃利塞夫。稳定性和泛化。机器学习研究杂志,2:499-5262002·Zbl 1007.68083号 [10] S´ebastien Bubeck。凸优化:算法和复杂性。机器学习的基础和趋势,8(3-4):231-3572015·Zbl 1365.90196号 [11] S´ebastien Bubeck、Yuanzhi Li、Haipeng Luo和Chen-Yu Wei。改进了盗贼的路径长度遗憾边界。InConference on Learning Theory,2019年第508-528页。 [12] 陈元思、池瑾和余斌。迭代优化算法的稳定性和收敛性权衡。arXiv预印本arXiv:1804.016192018。 [13] 阿里斯·达尼利迪斯(Aris Danilidis)、奥利维尔·莱伊(Olivier Ley)和圣伊凡·萨布劳(St´ephane Sabourau)。凸函数的自收缩平面曲线和梯度轨道的渐近性。《数学与应用杂志》,94(2):183-1992010年·Zbl 1201.37023号 [14] 阿里斯·达尼利迪斯(Aris Danilidis)、盖伊·戴维(Guy David)、埃斯蒂巴利兹·杜兰·卡塔赫纳(Estibalitz Durand-Cartagena)和安托万·莱曼(Antoine Lemenant)。欧氏空间中自收缩曲线的可纠正性及其应用。《几何分析杂志》,25(2):1211-12392015·Zbl 1326.53009号 [15] 阿里斯·达尼利迪斯(Aris Danilidis)、罗伯特·德维尔(Robert Deville)、埃斯蒂巴利兹·杜兰·卡塔赫纳(Estibalitz Durand-Cartagena)和卢多维奇·里福德(Ludovic Rifford)。黎曼流形中的自收缩曲线。数学分析与应用杂志,457(2):1333-13522018·Zbl 1376.53073号 [16] Simon Du、Jason Lee、Haochuan Li、Liwei Wang和Xiyu Zhai。梯度下降法寻找深层神经网络的全局极小值。2019年国际机器学习会议,第1675-1685页。 [17] Simon S Du、Xiyu Zhai、Barnabas Poczos和Aarti Singh。梯度下降可证明优化了过参数化神经网络。2018年国际学习代表大会。 [18] Estibalitz Durand-Cartagena和Antoine Lemenant。自收缩曲线是凸函数的梯度流。《美国数学学会学报》,147(6):2517-25312019年·Zbl 1414.53004号 [19] 玛丽亚姆·法泽尔(Maryam Fazel)、荣格(Rong Ge)、沙姆·卡卡德(Sham Kakade)和梅兰·梅斯巴希(Mehran Mesbahi)。线性二次调节器策略梯度方法的全局收敛性。2018年国际机器学习会议,第1467-1476页。 [20] 沃纳·芬切尔。凸锥、集合和函数。课堂讲稿。普林斯顿大学,1953年·Zbl 0053.12203号 [21] Robert M Freund、Paul Grigas和Rahul Mazumder。logistic回归的条件数分析及其对标准一阶解方法的影响。arXiv预印本arXiv:1810.087272018。 [22] 葛蓉、黄芙蓉、迟进和杨元。逃离鞍点——张量分解的在线随机梯度。学习理论会议,第797-842页,2015年。 [23] 尤哈娜·加迪米(Euhanna Ghadimi)、哈米德·雷扎·费兹马达维安(Hamid Reza Feyzmahdavian)和米凯尔·约翰逊(Mikael Johansson)。凸优化重球法的全局收敛性。欧洲控制会议,第310-315页。IEEE,2015年。 [24] Crist´obal Guzm´an和Arkadi Nemirovski。大规模光滑凸优化的复杂度下限。《复杂性杂志》,31(1):1-142015·Zbl 1304.65155号 [25] 莫里茨·哈德(Moritz Hardt)、本杰明·雷希特(Benjamin Recht)和约拉姆·辛格(Yoram Singer)。训练更快,概括更好:随机梯度下降的稳定性。在2016年国际机器学习会议上,第1225-1234页。 [26] 特雷弗·哈斯蒂(Trevor Hastie)、乔纳森·泰勒(Jonathan Taylor)、罗伯特·蒂布什拉尼(Robert Tibshirani)和根瑟·沃尔特(Guenther Walther)。前向分阶段回归和单调套索。《电子统计杂志》,1:1-292007·Zbl 1306.62176号 [27] M.Hohenwarter、M.Borchers、G.Ancsin、B.Bencze、M.Blossier、A.Delobelle、C.Denizet、J.Eli’as、A Fekete、L.G’al、Z.Kone’cn’y、Z.Kov’acs、S.Lizelfener、B.Parisse和G.Sturr。GeoGebra 4.4,2013年12月。http://www.geogebra.org。 [28] Hamed Karimi、Julie Nutini和Mark Schmidt。Polyak-Lojasiewicz条件下梯度法和近似粒度法的线性收敛性。欧洲机器学习和数据库知识发现联合会议,第795-811页。斯普林格,2016年。 [29] Krzysztof Kurdyka。关于可在o-极小结构中定义的函数的梯度。《傅里叶学会年鉴》,第48卷,第769-783页,1998年·Zbl 0934.32009 [30] 杰森·D·李(Jason D Lee)、伊奥尼斯·帕纳吉亚斯(Ioannis Panageas)、乔治·皮里奥拉斯(Georgios Piliouras)、马克斯·辛乔维茨(Max Simchowitz)、迈克尔·乔丹(Michael I Jordan)和本杰明·雷。一阶方法几乎总是避免严格的鞍点。数学规划,176(1-2):311-3372019·Zbl 1415.90089号 [31] 郝丽、郑旭、加文·泰勒、克里斯托夫·斯图德和汤姆·戈尔茨坦。可视化神经网络的损失情况。《神经信息处理系统进展》,第6389-6399页,2018年。 [32] 斯坦尼斯劳·洛贾西维茨(Stanislaw Lojasiewicz)。Une propri’et’e拓扑des sous-ensemples分析鳗鱼。Les方程aux D´eriv´ees Partielles,117:87-891963·Zbl 0234.57007号 [33] 保罗·曼塞利和卡洛·普奇。拟凸函数最陡下降曲线的最大长度。《Dedicata几何》,38(2):211-2271991年·Zbl 0724.52006号 [34] 宋梅(Song Mei)、于白(Yu Bai)和安德烈亚·蒙塔纳里(Andrea Montanari)。非凸损失的经验风险景观。《统计年鉴》,46(6A):2747-27742018年12月·Zbl 1409.62117号 [35] 尤里·内斯特罗夫。凸优化导论:基础课程,第87卷。施普林格科学与商业媒体,2013年。 [36] Samet Oymak和Mahdi Soltanolkotabi。过度参数化非线性学习:梯度下降采用最短路径?2019年,机器学习国际会议,第4951-4960页。 [37] 鲍里斯·波利亚克。加速迭代法收敛的一些方法。苏联计算数学和数学物理,4(5):1-171964·Zbl 0147.35301号 [38] 鲍里斯·特奥多罗维奇·波利亚克。最小化泛函的梯度方法。Zhurnal Vychislitel'noi Matematiki i Matematicheskoi Fiziki,3(4):643-6531963。 [39] LA Santal´o。n维球面上的凸区域。《数学年鉴》,第448-459页,1946年·Zbl 0061.38007号 [40] Mahdi Soltanolkotabi、Adel Javanmard和Jason D Lee。对超参数化浅层神经网络优化前景的理论见解。IEEE信息理论汇刊,65(2):742-7692019·Zbl 1428.68255号 [41] 尤金·斯特帕诺夫和亚娜·特普利茨卡亚。自收缩曲线的长度是有限的。《伦敦数学学会杂志》,96(2):455-4812017·Zbl 1379.53006号 [42] 陈玉伟和罗海鹏。针对敌方强盗的更多自适应算法。学习理论会议,第1263-1291页,2018年。 [43] 周星宇。关于强凸性和Lipschitz连续梯度之间的Fenchel对偶性。arXiv预印本arXiv:1803.065732018。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。