×

铰链损失的同伦梯度下降偏差。 (英语) Zbl 1473.90119号

摘要:梯度下降是一种简单且广泛应用的机器学习优化方法。对于应用于可分离数据的齐次线性分类器,梯度下降已被证明收敛于各种光滑损失函数的最大边缘(或等价的最小范数)解。然而,先前的理论并不适用于实际中广泛使用的非光滑铰链损失。在这里,我们研究了应用于铰链损失的梯度下降同伦变量的收敛性,并给出了线性可分数据的最大裕度解的显式收敛速度。

MSC公司:

90C25型 凸面编程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bartlett,P。;Shawe-Taylor,J.,《核方法的进展》,第章,支持向量机和其他模式分类器的泛化性能,43-54(1999),剑桥:麻省理工学院出版社,剑桥
[2] 博图,L。;FE柯蒂斯;Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.,60,2,223-311(2018)·Zbl 1397.65085号 ·doi:10.1137/16M1080173
[3] Brutzkus,A.,Globerson,A.,Malach,E.,Shalev-Shwartz,S.:SGD学习在线性可分数据上可证明推广的过参数网络。参加:2018年国际学习代表大会。加拿大不列颠哥伦比亚省温哥华,2018年4月30日至5月3日,《会议跟踪记录》(2018)。https://openreview.net/论坛?id=rJ33wwxRb
[4] Bubeck,S.:凸优化:算法和复杂性。arXiv电子打印arXiv:1405.4980(2014)·Zbl 1365.90196号
[5] Bubeck,S.,凸优化:算法和复杂性,Found。趋势马赫数。学习。,8, 3-4, 231-357 (2015) ·Zbl 1365.90196号 ·doi:10.1561/2200000050
[6] Chapelle,O.,《在原始神经计算中训练支持向量机》。,19, 1155-1178 (2007) ·Zbl 1123.68101号 ·doi:10.1162/neco.2007.19.5.1155
[7] Chaudhari,P.、Choromanska,A.、Soatto,S.、LeCun,Y.、Baldassi,C.、Borgs,C.、Chayes,J.、Sagun,L.、Zecchina,R.:Entropy-sgd:倾斜梯度下降至宽山谷。参加:国际学习代表大会(2017年)·Zbl 1459.65091号
[8] Combes,R.T.d.,Pezeshki,M.,Shabanian,S.,Courville,A.C.,Bengio,Y.:关于深层神经网络的学习动力学。CoRR arXiv:1809.06848(2018)
[9] 科尔特斯,C。;Vapnik,V.,支持向量网络,马赫。学习。,20, 3, 273-297 (1995) ·Zbl 0831.68098号
[10] Gunasekar,S.,Lee,J.,Soudry,D.,Srebro,N.:表征优化几何中的隐式偏差。摘自:Dy,J.,Krause,A.(编辑)《第35届机器学习国际会议论文集》,第80卷,第1832-1841页。PMLR,瑞典斯德哥尔摩Stockholmsmässan(2018)。http://proceedings.mlr.press/v80/gunasekar18a.html
[11] Hardt,M.,Recht,B.,Singer,Y.:训练更快,概括更好:随机梯度下降的稳定性。摘自:机器学习国际会议,ICML’16,第1225-1234页。JMLR.org(2016)。http://dl.acm.org/citation.cfm?id=3045390.3045520
[12] 哈斯蒂,T。;Rosset,S。;Tibshirani,R。;Zhu,J.,支持向量机的整个正则化路径,J.Mach。学习。1391-1415年10月5日决议(2004年)·Zbl 1222.68213号
[13] Hoffer,E.,Hubara,I.,Soudry,D.:训练时间越长,泛化效果越好:缩小神经网络大批量训练中泛化的差距。摘自:《神经信息处理系统进展》,第1731-1741页(2017年)
[14] Lacoste-Julien,S.,Schmidt,M.,Bach,F.:一种获得投影随机次梯度方法o(1/t)收敛速度的更简单方法。arXiv预印arXiv:1212.2002(2012)
[15] Li,Y.,Singer,Y.:温顺的套索。arXiv预印arXiv:1806.03190(2018)
[16] Nacson,M.S.,Lee,J.,Gunasekar,S.,Savarese,P.,Srebro,N.,Soudry,D.:可分离数据上梯度下降的收敛性。参加:国际人工智能与统计会议(2019年)
[17] Nacson,M.S.,Srebro,N.,Soudry,D.:可分离数据的随机梯度下降:具有固定学习率的精确收敛。摘自:《机器学习研究论文集》,第89卷,第3051-3059页。PMLR(2019)。http://proceedings.mlr.press/v89/nacson19a.html
[18] Neyshabur,B.,Tomioka,R.,Srebro,N.:寻找真正的归纳偏见:关于内隐正则化在深度学习中的作用。arXiv预印arXiv:1412.6614(2014)
[19] Poggio,T.、Kawaguchi,K.、Liao,Q.、Miranda,B.、Rosasco,L.、Boix,X.、Hidary,J.、Mhaskar,H.:深度学习理论III:解释非过度拟合谜题。arXiv预印arXiv:1801.00173(2017)
[20] Poggio,T.、Liao,Q.、Miranda,B.、Banburski,A.、Boix,X.、Hidary,J.:理论IIIb:深网络中的泛化。arXiv预印本arXiv:1806.11379(2018)
[21] A.拉姆达斯。;Peña,J.,《走向对边缘的更深入的几何、分析和算法理解》,Optim。方法软件。,31377-391(2016)·Zbl 1382.90056号 ·doi:10.1080/10556788.2015.1099652
[22] Rosset,S.、Zhu,J.、Hastie,T.J.:利润最大化损失函数。摘自:《神经信息处理系统进展》,第1237-1244页(2004年)
[23] Soudry,D。;霍弗,E。;纳森,理学硕士;Gunasekar,S。;Srebro,N.,可分离数据梯度下降的隐式偏差,J.Mach。学习。决议,19,1,2822-2878(2018)·Zbl 1477.62192号
[24] Vapnik,V.,基于经验数据的依赖性估计(1982),柏林:施普林格出版社,柏林·Zbl 0499.62005号
[25] Vapnik,V.,《统计学习理论的本质》(2013),纽约:斯普林格出版社,纽约·兹比尔0934.62009
[26] Vapnik,VN,统计学习理论概述,IEEE Trans。神经网络。,10, 5, 988-999 (1999) ·doi:10.1109/72.788640
[27] Vapnik,VN;Chervonenkis,AJ,模式识别理论(1974),莫斯科:瑙卡,莫斯科·Zbl 0284.68070号
[28] 王,G。;Giannakis,英国;Chen,J.,《线性可分数据上的学习关系网络:算法、优化和泛化》,IEEE Trans。信号处理。,67, 9, 2357-2370 (2019) ·Zbl 1458.68185号 ·doi:10.1109/TSP.2019.2904921
[29] Zhang,C.,Bengio,S.,Hardt,M.,Recht,B.,Vinyals,O.:理解深度学习需要重新思考泛化。参加:机器学习国际会议(2017年)。arXiv:1611.03530
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。