×

如何有效地训练大规模机器学习模型? (英语) Zbl 1447.90032号

Fathi,Mahdi(编辑)等人,《大规模问题中的优化》。工业4.0和社会5.0应用。查姆:斯普林格。Springer Optim公司。申请。152, 97-110 (2019).
摘要:随机梯度法(SGM)在许多机器学习应用中广泛用作优化工具,包括支持向量机(SVM)、逻辑回归、图形模型和深度学习。SGM在每次迭代中从一个随机选择的样本计算梯度的估计值。因此,将随机梯度方法应用于大规模机器学习问题可以提高计算效率。在这项工作中,我们着重于为随机算法生成泛化边界,例如使用随机梯度下降算法学习的随机傅里叶特征。我们的发现基于算法的泛化误差与其稳定性之间的相互关系。算法的稳定性由测试误差和训练误差之间的绝对差值的泛化误差来衡量。总的来说,如果通过改变任何单个训练数据点,训练误差略有变化,则称该算法为稳定算法。在这项工作中,我们测量了随机梯度方法(SGM)学习近似傅里叶原始支持向量机的稳定性。特别是,在一定的正则性假设下,我们证明了用随机梯度法(SGM)训练的随机算法(如随机傅里叶特征)在较少的迭代次数下具有消失的泛化误差。因此,迭代优化算法可以在收敛之前长时间停止,以降低计算成本。我们使用多个数据集实证验证了不同参数的理论结果。
关于整个系列,请参见[Zbl 1439.90008号].

MSC公司:

90C25型 凸面编程
90 C90 数学规划的应用

软件:

帕伽索斯
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 段J.、罗L.、李J.、高X.、张W.:基于线阵CCD成像的列车车轮表面缺陷测量。2016年第18届国际轮对大会(IWC),第65-70页。IEEE(2016)
[2] Moyne,J.,Iskandar,J.:智能制造的大数据分析:半导体制造的案例研究。流程5(3),39(2017)·doi:10.3390/pr5030039
[3] Scime,L.,Beuth,J.:使用经过训练的计算机视觉算法对激光粉末床增材制造过程中的异常检测和分类。艾迪特。制造19,114-126(2018)·doi:10.1016/j.addma.2017.11.009
[4] 杜达,R.O.,哈特,P.E.,斯托克,D.G.:模式分类和场景分析,第3卷。威利,纽约(1973)·Zbl 0277.68056号
[5] Hagan,M.T.,Demuth,H.B.,Beale,M.H.,De Jesús,O.:神经网络设计,第20卷。Pws出版社。,波士顿(1996)
[6] Quinlan,J.R.:决策树的归纳。马赫。学习。1(1), 81-106 (1986)
[7] Keller,J.M.,Gray,M.R.,Givens,J.A.:一种模糊k近邻算法。IEEE传输。系统。人类网络。4, 580-585. IEEE(1985)
[8] Scholkopf,B.,Smola,A.J.:使用内核学习:支持向量机、正则化、优化及其他。麻省理工学院出版社,剑桥(2001)
[9] Niyogi,P.,Burges,C.,Ramesh,P.:使用支持向量机的显著特征检测。1999年IEEE声学、语音和信号处理国际会议。诉讼程序。ICASPS99(分类号99CH36258),第1卷,第425-428页。IEEE(1999)
[10] Schölkopf,B.,Smola,A.,Muller,K.-R.,Burges,C.,Vapnik,V.:学习和特征提取中的支持向量方法。Citeser(1998)
[11] Jonsson,K.,Kittler,J,Li,Y.P.,Matas,J.:人脸身份验证的支持向量机。图像可视性。计算。20(5-6), 369-375 (2002) ·doi:10.1016/S0262-8856(02)00009-4
[12] Jabri,M.,Flower,B.:权重扰动:模拟vlsi前馈和递归多层网络的最佳架构和学习技术。IEEE传输。神经网络。3(1), 154-157 (1992) ·数字对象标识代码:10.1109/72.105429
[13] Flower,B.,Jabri,M.:加权神经元扰动的总和:相对于加权扰动的O(N)改进。摘自:《神经信息处理系统进展》,第212-219页(1993年)
[14] Nemirovski,A.,Yudin,D.:关于凸凹函数鞍点逼近最速下降法的Cezari收敛性。苏联数学。多克。19, 258-269 (1978)
[15] Nemirovski,A.,Juditsky,A.,Lan,G.,Shapiro,A.:随机规划的稳健随机近似方法。SIAM J.Optim公司。19(4), 1574-1609 (2009) ·Zbl 1189.90109号 ·doi:10.1137/070704277
[16] Bousquet,O.,Elisseeff,A.:稳定性和泛化。J.马赫。学习。第2号决议,499-526(2002年)·Zbl 1007.68083号
[17] Hardt,M.,Recht,B.,Singer,Y.:训练得更快,推广得更好:随机梯度下降的稳定性。arXiv预印arXiv:1509.01240(2015)
[18] Rahimi,A.,Recht,B.:大型内核机器的随机特性。摘自:《神经信息处理系统进展》,第1177-1184页(2008年)
[19] Chapelle,O.:在原始语言中训练支持向量机。神经计算。19(5), 1155-1178 (2007) ·Zbl 1123.68101号 ·doi:10.1162/neco.2007.19.5.1155
[20] Yang,T.,Li,Y.-F.,Mahdavi,M.,Jin,R.,Zhou,Z.-H.:NyströM方法与随机傅里叶特征:理论和经验比较。摘自:《神经信息处理系统进展》,第476-484页(2012年)
[21] Bubeck,S.等人:凸优化:算法和复杂性。找到。趋势马赫数。学习。8(3-4),231-357(2015)·Zbl 1365.90196号 ·doi:10.1561/2200000050
[22] Lu,J.,Hoi,S.C.H.,Wang,J.、Zhao,P.、Liu,Z.-Y.:大规模在线内核学习。J.马赫。学习。第17(1)号决议,1613-1655(2016)·Zbl 1360.68690号
[23] Shalev-Shwartz,S.、Singer,Y.、Srebro,N.、Cotter,A.:Pegasos:SVM的原始估计子梯度解算器。数学。程序。127(1), 3-30 (2011) ·Zbl 1211.90239号 ·doi:10.1007/s10107-010-0420-4
[24] Sutherland,D.J.,Schneider,J.:关于随机傅里叶特征的误差。arXiv预印arXiv:1506.02785(2015)
[25] 约翰逊,R。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。