文件Zbl 07370585-zbMATH Open

梯度下降和流量的路径长度边界。（英语） Zbl 07370585号

J.马赫。学习。物件。 22，第68号论文，63页（2021年）.

摘要：我们导出了各类光滑凸函数和非凸函数的梯度下降（GD）和梯度流（GF）曲线的路径长度（zeta）的界。在其他结果中，我们证明了：（a）如果迭代与因子（1-c）线性收敛，则（zeta）至多为（mathcal{O}（1/c））；（b）在Polyak-Kurdyka-Łojasiewicz（PKL）条件下，\（zeta\）最多为\（\mathcal{O}（\sqrt{\kappa}）\），其中\（\kappa \）是条件数，至少为\（\ widetilde\Omega（\sqart{d}\wedge\kappa-{1/4}）；（c）对于二次方，\（\zeta\）是\（\Theta（\min\｛\sqrt｛d｝，\sqrt｛\log\kappa｝）\），在某些情况下可以独立于\（\kappa）；（d）假设只是凸性，\（zeta\）最多可以是\（2^{4d\logd}\）；（e）对于可分拟凸函数，（zeta）是（{Theta}（sqrt{d}）。因此，我们提高了对GD和GF曲线特性的当前理解，这些特性超出了收敛速度。我们希望我们的技术能够促进其他算法的未来研究。

引用于4文件

MSC公司：

68T05型

人工智能中的学习和自适应系统

关键词：

最优化；轨迹分析；条件编号；自收缩曲线；Polyak Kurdyka-Łojasewicz函数

软件：

GeoGebra公司

PDF格式 BibTeX公司 XML格式引用

全文： arXiv公司链接

参考文献：

[1]	泽源·阿连珠、李元志、赵松。通过过度参数化实现深度学习的收敛理论。2019年国际机器学习会议，第242-252页。
[2]	CJ Argue、S´ebastien Bubeck、Michael B Cohen、Anupam Gupta和Yin Tat Lee。追踪嵌套凸体的近似线性边界。第三十届ACM-SIAM离散算法年会论文集，第117-122页。SIAM，2019年·Zbl 1431.68115号
[3]	海迪·阿图克和胡安·佩皮奎特。nesterov的加速前向后退法的收敛速度实际上快于1/kˆ2.SIAM Journal on Optimization，26（3）：1824-18342016·Zbl 1346.49048号
[4]	Mordecai Avriel、Walter E Diewert、Siegfried Schaible和Israel Zang。广义凹度。SIAM，2010年。
[5]	Sivaraman Balakrishnan、Martin J.Wainwright和Bin Yu。EM算法的统计保证：从人口到基于样本的分析。《统计年鉴》，45（1）：77-1202017年2月·Zbl 1367.62052号
[6]	J´erˆome Bolte和Edouard Pauwels。光滑凸优化中的好奇心和反例。arXiv预印本arXiv:2001.079992020。
[7]	杰尔·奥米·博尔特、阿里斯·达尼利迪斯和阿德里安·刘易斯。非光滑次分析函数的Lojasiewicz不等式及其在次梯度动力系统中的应用。SIAM优化杂志，17（4）：1205-12232007·Zbl 1129.26012号
[8]	杰尔·奥米·博尔特、阿里斯·达尼利迪斯、奥利维尔·莱伊和劳伦特·马泽特。Lojasiewicz不等式的特征：次梯度流，talweg，凸性。美国证券交易所交易
[9]	奥利维尔·布斯克特和安德烈·埃利塞夫。稳定性和泛化。机器学习研究杂志，2:499-5262002·Zbl 1007.68083号
[10]	S´ebastien Bubeck。凸优化：算法和复杂性。机器学习的基础和趋势，8（3-4）：231-3572015·Zbl 1365.90196号
[11]	S´ebastien Bubeck、Yuanzhi Li、Haipeng Luo和Chen-Yu Wei。改进了盗贼的路径长度遗憾边界。InConference on Learning Theory，2019年第508-528页。
[12]	陈元思、池瑾和余斌。迭代优化算法的稳定性和收敛性权衡。arXiv预印本arXiv：1804.016192018。
[13]	阿里斯·达尼利迪斯（Aris Danilidis）、奥利维尔·莱伊（Olivier Ley）和圣伊凡·萨布劳（St´ephane Sabourau）。凸函数的自收缩平面曲线和梯度轨道的渐近性。《数学与应用杂志》，94（2）：183-1992010年·Zbl 1201.37023号
[14]	阿里斯·达尼利迪斯（Aris Danilidis）、盖伊·戴维（Guy David）、埃斯蒂巴利兹·杜兰·卡塔赫纳（Estibalitz Durand-Cartagena）和安托万·莱曼（Antoine Lemenant）。欧氏空间中自收缩曲线的可纠正性及其应用。《几何分析杂志》，25（2）：1211-12392015·Zbl 1326.53009号
[15]	阿里斯·达尼利迪斯（Aris Danilidis）、罗伯特·德维尔（Robert Deville）、埃斯蒂巴利兹·杜兰·卡塔赫纳（Estibalitz Durand-Cartagena）和卢多维奇·里福德（Ludovic Rifford）。黎曼流形中的自收缩曲线。数学分析与应用杂志，457（2）：1333-13522018·Zbl 1376.53073号
[16]	Simon Du、Jason Lee、Haochuan Li、Liwei Wang和Xiyu Zhai。梯度下降法寻找深层神经网络的全局极小值。2019年国际机器学习会议，第1675-1685页。
[17]	Simon S Du、Xiyu Zhai、Barnabas Poczos和Aarti Singh。梯度下降可证明优化了过参数化神经网络。2018年国际学习代表大会。
[18]	Estibalitz Durand-Cartagena和Antoine Lemenant。自收缩曲线是凸函数的梯度流。《美国数学学会学报》，147（6）：2517-25312019年·Zbl 1414.53004号
[19]	玛丽亚姆·法泽尔（Maryam Fazel）、荣格（Rong Ge）、沙姆·卡卡德（Sham Kakade）和梅兰·梅斯巴希（Mehran Mesbahi）。线性二次调节器策略梯度方法的全局收敛性。2018年国际机器学习会议，第1467-1476页。
[20]	沃纳·芬切尔。凸锥、集合和函数。课堂讲稿。普林斯顿大学，1953年·Zbl 0053.12203号
[21]	Robert M Freund、Paul Grigas和Rahul Mazumder。logistic回归的条件数分析及其对标准一阶解方法的影响。arXiv预印本arXiv:1810.087272018。
[22]	葛蓉、黄芙蓉、迟进和杨元。逃离鞍点——张量分解的在线随机梯度。学习理论会议，第797-842页，2015年。
[23]	尤哈娜·加迪米（Euhanna Ghadimi）、哈米德·雷扎·费兹马达维安（Hamid Reza Feyzmahdavian）和米凯尔·约翰逊（Mikael Johansson）。凸优化重球法的全局收敛性。欧洲控制会议，第310-315页。IEEE，2015年。
[24]	Crist´obal Guzm´an和Arkadi Nemirovski。大规模光滑凸优化的复杂度下限。《复杂性杂志》，31（1）：1-142015·Zbl 1304.65155号
[25]	莫里茨·哈德（Moritz Hardt）、本杰明·雷希特（Benjamin Recht）和约拉姆·辛格（Yoram Singer）。训练更快，概括更好：随机梯度下降的稳定性。在2016年国际机器学习会议上，第1225-1234页。
[26]	特雷弗·哈斯蒂（Trevor Hastie）、乔纳森·泰勒（Jonathan Taylor）、罗伯特·蒂布什拉尼（Robert Tibshirani）和根瑟·沃尔特（Guenther Walther）。前向分阶段回归和单调套索。《电子统计杂志》，1:1-292007·Zbl 1306.62176号
[27]	M.Hohenwarter、M.Borchers、G.Ancsin、B.Bencze、M.Blossier、A.Delobelle、C.Denizet、J.Eli’as、A Fekete、L.G’al、Z.Kone’cn’y、Z.Kov’acs、S.Lizelfener、B.Parisse和G.Sturr。GeoGebra 4.4，2013年12月。http://www.geogebra.org。
[28]	Hamed Karimi、Julie Nutini和Mark Schmidt。Polyak-Lojasiewicz条件下梯度法和近似粒度法的线性收敛性。欧洲机器学习和数据库知识发现联合会议，第795-811页。斯普林格，2016年。
[29]	Krzysztof Kurdyka。关于可在o-极小结构中定义的函数的梯度。《傅里叶学会年鉴》，第48卷，第769-783页，1998年·Zbl 0934.32009
[30]	杰森·D·李（Jason D Lee）、伊奥尼斯·帕纳吉亚斯（Ioannis Panageas）、乔治·皮里奥拉斯（Georgios Piliouras）、马克斯·辛乔维茨（Max Simchowitz）、迈克尔·乔丹（Michael I Jordan）和本杰明·雷。一阶方法几乎总是避免严格的鞍点。数学规划，176（1-2）：311-3372019·Zbl 1415.90089号
[31]	郝丽、郑旭、加文·泰勒、克里斯托夫·斯图德和汤姆·戈尔茨坦。可视化神经网络的损失情况。《神经信息处理系统进展》，第6389-6399页，2018年。
[32]	斯坦尼斯劳·洛贾西维茨（Stanislaw Lojasiewicz）。Une propri’et’e拓扑des sous-ensemples分析鳗鱼。Les方程aux D´eriv´ees Partielles，117:87-891963·Zbl 0234.57007号
[33]	保罗·曼塞利和卡洛·普奇。拟凸函数最陡下降曲线的最大长度。《Dedicata几何》，38（2）：211-2271991年·Zbl 0724.52006号
[34]	宋梅（Song Mei）、于白（Yu Bai）和安德烈亚·蒙塔纳里（Andrea Montanari）。非凸损失的经验风险景观。《统计年鉴》，46（6A）：2747-27742018年12月·Zbl 1409.62117号
[35]	尤里·内斯特罗夫。凸优化导论：基础课程，第87卷。施普林格科学与商业媒体，2013年。
[36]	Samet Oymak和Mahdi Soltanolkotabi。过度参数化非线性学习：梯度下降采用最短路径？2019年，机器学习国际会议，第4951-4960页。
[37]	鲍里斯·波利亚克。加速迭代法收敛的一些方法。苏联计算数学和数学物理，4（5）：1-171964·Zbl 0147.35301号
[38]	鲍里斯·特奥多罗维奇·波利亚克。最小化泛函的梯度方法。Zhurnal Vychislitel'noi Matematiki i Matematicheskoi Fiziki，3（4）：643-6531963。
[39]	LA Santal´o。n维球面上的凸区域。《数学年鉴》，第448-459页，1946年·Zbl 0061.38007号
[40]	Mahdi Soltanolkotabi、Adel Javanmard和Jason D Lee。对超参数化浅层神经网络优化前景的理论见解。IEEE信息理论汇刊，65（2）：742-7692019·Zbl 1428.68255号
[41]	尤金·斯特帕诺夫和亚娜·特普利茨卡亚。自收缩曲线的长度是有限的。《伦敦数学学会杂志》，96（2）：455-4812017·Zbl 1379.53006号
[42]	陈玉伟和罗海鹏。针对敌方强盗的更多自适应算法。学习理论会议，第1263-1291页，2018年。
[43]	周星宇。关于强凸性和Lipschitz连续梯度之间的Fenchel对偶性。arXiv预印本arXiv:1803.065732018。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

梯度下降和流量的路径长度边界。（英语） Zbl 07370585号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

梯度下降和流量的路径长度边界。 （英语） Zbl 07370585号

MSC公司：

关键词：

软件：

参考文献：

梯度下降和流量的路径长度边界。（英语） Zbl 07370585号