×

Pegasos:支持向量机的原始估计子梯度解算器。 (英语) Zbl 1211.90239号

摘要:我们描述并分析了一种简单有效的随机子梯度下降算法,用于解决支持向量机(SVM)的优化问题。我们证明了获得精确解\({\varepsilon}\)所需的迭代次数为\({\tilde{O}(1/\varepsilon)}\),其中每个迭代对单个训练示例进行操作。相反,以前对SVM随机梯度下降方法的分析需要({Omega(1/varepsilon^2)})迭代。与之前设计的SVM求解器一样,迭代次数也与\(1/\lambda\)成线性关系,其中\(\lambda \)是SVM的正则化参数。对于线性内核,我们的方法的总运行时间是\({tilde{O}(d/(lambda\varepsilon))}\),其中\(d\)是每个示例中非零特性数量的界。由于运行时间不直接取决于训练集的大小,因此生成的算法特别适合于从大型数据集进行学习。我们的方法还扩展到非线性核,同时只处理原始目标函数,尽管在这种情况下,运行时确实与训练集大小线性相关。我们的算法特别适合于大型文本分类问题,在这些问题中,我们证明了与以前的SVM学习方法相比,其速度有一个数量级的提高。

MSC公司:

90立方 非线性规划
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿玛瑞·S:自然梯度在学习中有效。神经计算。10, 251–276 (1998) ·doi:10.1162/08997669830017746
[2] Bordes A.、Ertekin S.、Weston J.、Bottou L.:具有在线和主动学习功能的快速内核分类器。J.马赫。学习。第6号决议,1579–1619(2005)·Zbl 1222.68152号
[3] Bottou L.:在线算法和随机近似。收录:Saad,D.(eds)在线学习和神经网络,剑桥大学出版社,剑桥(1998)·Zbl 0968.68127号
[4] Bottou,L.,Bousquet,O.:大规模学习的权衡。摘自:神经信息处理系统进展20,第161-168页(2008)
[5] Bottou L.,LeCun Y.:大规模在线学习。收录:Thrun,S.,Saul,L.,Schölkopf,B.(eds)《神经信息处理系统的进展》,麻省理工学院出版社,剑桥(2004)
[6] Bottou L.,Murata N.:随机近似和有效学习。摘自:Arbib,M.A.(主编)《大脑理论和神经网络手册》,麻省理工学院出版社,剑桥(2002)
[7] Boyd S.,Vandenberghe L.:凸优化,第二版。剑桥大学出版社,剑桥(2004)·Zbl 1058.90049号
[8] Censor Y.,Zenios S.:并行优化:理论、算法和应用。牛津大学出版社,纽约(1997)·Zbl 0945.90064号
[9] Cesa-Bianchi N.,Conconi A.,Gentile C.:关于在线学习算法的泛化能力。IEEE传输。Inf,理论50(9),2050-2057(2004)·兹比尔1295.68182·doi:10.1109/TIT.2004.833339
[10] Chapelle,O.:在原始语言中训练支持向量机。神经计算。19(5), 1155–1178 (2007). doi:10.1162/neco.2007.19.5.1155。http://www.mitpressjournals.org/doi/abs/10.1162/neco.2007.19.5.1155 ·Zbl 1123.68101号
[11] Crammer K.、Dekel O.、Keshet J.、Shalev-Shwartz S.、Singer Y.:在线被动攻击算法。J.马赫。学习。第7551–585号决议(2006年)·Zbl 1222.68177号
[12] Cristianini N.,Shawe-Taylor J.:支持向量机简介。剑桥大学出版社,剑桥(2000)·Zbl 0994.68074号
[13] Do,C.,Le,Q.,Foo,C.:在线和批量学习的近端正则化。摘自:第26届机器学习国际会议论文集(2009)
[14] 杜达·R.O.,哈特·P.E.:模式分类和场景分析。威利,纽约(1973年)·Zbl 0277.68056号
[15] Fine S.,Scheinberg K.:使用低阶核表示的高效SVM训练。J.马赫。李尔。第242-264号决议(2001年)·Zbl 1037.68112号
[16] Freund Y.,Schapire R.E.:使用感知器算法进行大边距分类。机器。学习。37(3), 277–296 (1999) ·Zbl 0944.68535号·doi:10.1023/A:1007662407062
[17] Hazan,E.,Kalai,A.,Kale,S.,Agarwal,A.:在线凸优化的对数遗憾算法。摘自:第十九届计算学习理论年会论文集(2006)·Zbl 1143.90371号
[18] Xieh,C.,Chang,K.,Lin,C.,Keerthi,S.,Sundararajan,S.:大型线性SVM的双坐标下降方法。收录于:ICML,第408-415页(2008年)
[19] Hush,D.、Kelly,P.、Scovel,C.、Steinwart,I.:支持向量机的Qp算法具有保证的精度和运行时间。J.马赫。学习。研究(2006)·Zbl 1222.68221号
[20] Joachims T.:使大规模支持向量机学习实用化。收录:Schölkopf,B.,Burges,C.,Smola,A.(编辑)《内核方法的进展——支持向量学习》。,麻省理工学院出版社,剑桥(1998)
[21] Joachims,T.:在线性时间内训练线性SVM。摘自:ACM知识发现和数据挖掘会议记录,第216–226页(2006年)
[22] Kakade,S.,Tewari,A.:关于在线强凸规划算法的泛化能力。In:神经信息处理系统进展22(2009)
[23] Kimeldorf G.,Wahba G.:关于切比雪夫样条函数的一些结果。数学杂志。分析。申请。33, 82–95 (1971) ·Zbl 0201.39702号·doi:10.1016/0022-247X(71)90184-3
[24] Kivinen J.、Smola A.J.、Williamson R.C.:使用内核进行在线学习。IEEE传输。信号处理。52(8), 2165–2176 (2002) ·Zbl 1369.68281号·doi:10.1109/TSP.2004.830991
[25] Kushner H.,Yin G.:随机近似算法和应用。施普林格,纽约(1997)·兹比尔0914.60006
[26] 村田N:在线学习的统计研究。收录:Saad,D.(编辑)《在线学习和神经网络》,剑桥大学出版社,剑桥(1998)·兹伯利0966.68170
[27] Murata N.,Amari S.:学习动力的统计分析。信号处理。74(1), 3–28 (1999) ·Zbl 0922.68094号·doi:10.1016/S0165-1684(98)00206-0
[28] Nesterov,Y.:凸问题的原对偶次梯度方法。鲁汶天主教大学运营研究和计量经济中心(CORE)技术代表(2005年)·兹比尔1191.90038
[29] Platt J.C.:使用序列最小优化快速训练支持向量机。收录:Schölkopf,B.,Burges,C.,Smola,A.(eds)《内核方法的进展——支持向量学习》,麻省理工学院出版社,剑桥(1998)
[30] Rockafellar R.:凸分析。普林斯顿大学出版社,普林斯顿(1970)·Zbl 0193.18401号
[31] Shalev-Shwartz,S.、Singer,Y.、Srebro,N.:Pegasos:SVM的原始估计亚GrAdient SOlver。摘自:《第24届机器学习国际会议论文集》,第807–814页(2007年)·Zbl 1211.90239号
[32] Shalev-Shwartz,S.,Srebro,N.:SVM优化:对训练集大小的反向依赖。摘自:《第25届机器学习国际会议论文集》,第928–935页(2008)
[33] Smola,A.、Vishwanathan,S.、Le,Q.:机器学习的捆绑方法。In:神经信息处理系统进展21(2007)
[34] Spall J.C.:随机搜索和优化简介。威利,纽约(2003)·兹比尔1088.90002
[35] Sridharan,K.,Srebro,N.,Shalev-Shwartz,S.:正规化目标的快速率。In:神经信息处理系统进展22(2009)
[36] Vapnik V.N.:统计学习理论。威利,纽约(1998)·Zbl 0935.62007号
[37] Zhang,T.:使用随机梯度下降算法解决大规模线性预测问题。收录:第二十届第一届机器学习国际会议论文集(2004年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。