德纳利·莫利托;迪安娜·尼德尔;瑞秋·沃德 铰链损失的同伦梯度下降偏差。 (英语) Zbl 1473.90119号 申请。数学。最佳方案。 84,第1号,621-647(2021). 摘要:梯度下降是一种简单且广泛应用的机器学习优化方法。对于应用于可分离数据的齐次线性分类器,梯度下降已被证明收敛于各种光滑损失函数的最大边缘(或等价的最小范数)解。然而,先前的理论并不适用于实际中广泛使用的非光滑铰链损失。在这里,我们研究了应用于铰链损失的梯度下降同伦变量的收敛性,并给出了线性可分数据的最大裕度解的显式收敛速度。 MSC公司: 90C25型 凸面编程 关键词:凸优化;梯度下降;支持向量机;合页损失;非光滑优化 软件:Entropy-SGD公司 PDF格式BibTeX公司 XML格式引用 \textit{D.Molitor}等人,应用。数学。最佳方案。84,编号1,621--647(2021;Zbl 1473.90119) 全文: DOI程序 arXiv公司 参考文献: [1] Bartlett,P。;Shawe-Taylor,J.,《核方法的进展》,第章,支持向量机和其他模式分类器的泛化性能,43-54(1999),剑桥:麻省理工学院出版社,剑桥 [2] 博图,L。;FE柯蒂斯;Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.,60,2,223-311(2018)·Zbl 1397.65085号 ·doi:10.1137/16M1080173 [3] Brutzkus,A.,Globerson,A.,Malach,E.,Shalev-Shwartz,S.:SGD学习在线性可分数据上可证明推广的过参数网络。参加:2018年国际学习代表大会。加拿大不列颠哥伦比亚省温哥华,2018年4月30日至5月3日,《会议跟踪记录》(2018)。https://openreview.net/论坛?id=rJ33wwxRb [4] Bubeck,S.:凸优化:算法和复杂性。arXiv电子打印arXiv:1405.4980(2014)·Zbl 1365.90196号 [5] Bubeck,S.,凸优化:算法和复杂性,Found。趋势马赫数。学习。,8, 3-4, 231-357 (2015) ·Zbl 1365.90196号 ·doi:10.1561/2200000050 [6] Chapelle,O.,《在原始神经计算中训练支持向量机》。,19, 1155-1178 (2007) ·Zbl 1123.68101号 ·doi:10.1162/neco.2007.19.5.1155 [7] Chaudhari,P.、Choromanska,A.、Soatto,S.、LeCun,Y.、Baldassi,C.、Borgs,C.、Chayes,J.、Sagun,L.、Zecchina,R.:Entropy-sgd:倾斜梯度下降至宽山谷。参加:国际学习代表大会(2017年)·Zbl 1459.65091号 [8] Combes,R.T.d.,Pezeshki,M.,Shabanian,S.,Courville,A.C.,Bengio,Y.:关于深层神经网络的学习动力学。CoRR arXiv:1809.06848(2018) [9] 科尔特斯,C。;Vapnik,V.,支持向量网络,马赫。学习。,20, 3, 273-297 (1995) ·Zbl 0831.68098号 [10] Gunasekar,S.,Lee,J.,Soudry,D.,Srebro,N.:表征优化几何中的隐式偏差。摘自:Dy,J.,Krause,A.(编辑)《第35届机器学习国际会议论文集》,第80卷,第1832-1841页。PMLR,瑞典斯德哥尔摩Stockholmsmässan(2018)。http://proceedings.mlr.press/v80/gunasekar18a.html [11] Hardt,M.,Recht,B.,Singer,Y.:训练更快,概括更好:随机梯度下降的稳定性。摘自:机器学习国际会议,ICML’16,第1225-1234页。JMLR.org(2016)。http://dl.acm.org/citation.cfm?id=3045390.3045520 [12] 哈斯蒂,T。;Rosset,S。;Tibshirani,R。;Zhu,J.,支持向量机的整个正则化路径,J.Mach。学习。1391-1415年10月5日决议(2004年)·Zbl 1222.68213号 [13] Hoffer,E.,Hubara,I.,Soudry,D.:训练时间越长,泛化效果越好:缩小神经网络大批量训练中泛化的差距。摘自:《神经信息处理系统进展》,第1731-1741页(2017年) [14] Lacoste-Julien,S.,Schmidt,M.,Bach,F.:一种获得投影随机次梯度方法o(1/t)收敛速度的更简单方法。arXiv预印arXiv:1212.2002(2012) [15] Li,Y.,Singer,Y.:温顺的套索。arXiv预印arXiv:1806.03190(2018) [16] Nacson,M.S.,Lee,J.,Gunasekar,S.,Savarese,P.,Srebro,N.,Soudry,D.:可分离数据上梯度下降的收敛性。参加:国际人工智能与统计会议(2019年) [17] Nacson,M.S.,Srebro,N.,Soudry,D.:可分离数据的随机梯度下降:具有固定学习率的精确收敛。摘自:《机器学习研究论文集》,第89卷,第3051-3059页。PMLR(2019)。http://proceedings.mlr.press/v89/nacson19a.html [18] Neyshabur,B.,Tomioka,R.,Srebro,N.:寻找真正的归纳偏见:关于内隐正则化在深度学习中的作用。arXiv预印arXiv:1412.6614(2014) [19] Poggio,T.、Kawaguchi,K.、Liao,Q.、Miranda,B.、Rosasco,L.、Boix,X.、Hidary,J.、Mhaskar,H.:深度学习理论III:解释非过度拟合谜题。arXiv预印arXiv:1801.00173(2017) [20] Poggio,T.、Liao,Q.、Miranda,B.、Banburski,A.、Boix,X.、Hidary,J.:理论IIIb:深网络中的泛化。arXiv预印本arXiv:1806.11379(2018) [21] A.拉姆达斯。;Peña,J.,《走向对边缘的更深入的几何、分析和算法理解》,Optim。方法软件。,31377-391(2016)·Zbl 1382.90056号 ·doi:10.1080/10556788.2015.1099652 [22] Rosset,S.、Zhu,J.、Hastie,T.J.:利润最大化损失函数。摘自:《神经信息处理系统进展》,第1237-1244页(2004年) [23] Soudry,D。;霍弗,E。;纳森,理学硕士;Gunasekar,S。;Srebro,N.,可分离数据梯度下降的隐式偏差,J.Mach。学习。决议,19,1,2822-2878(2018)·Zbl 1477.62192号 [24] Vapnik,V.,基于经验数据的依赖性估计(1982),柏林:施普林格出版社,柏林·Zbl 0499.62005号 [25] Vapnik,V.,《统计学习理论的本质》(2013),纽约:斯普林格出版社,纽约·兹比尔0934.62009 [26] Vapnik,VN,统计学习理论概述,IEEE Trans。神经网络。,10, 5, 988-999 (1999) ·doi:10.1109/72.788640 [27] Vapnik,VN;Chervonenkis,AJ,模式识别理论(1974),莫斯科:瑙卡,莫斯科·Zbl 0284.68070号 [28] 王,G。;Giannakis,英国;Chen,J.,《线性可分数据上的学习关系网络:算法、优化和泛化》,IEEE Trans。信号处理。,67, 9, 2357-2370 (2019) ·Zbl 1458.68185号 ·doi:10.1109/TSP.2019.2904921 [29] Zhang,C.,Bengio,S.,Hardt,M.,Recht,B.,Vinyals,O.:理解深度学习需要重新思考泛化。参加:机器学习国际会议(2017年)。arXiv:1611.03530 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。