×

结构SVM的切入式培训。 (英语) Zbl 1235.68161号

摘要:在自然语言处理、蛋白质结构预测和信息检索等领域,结构支持向量机等鉴别训练方法在构建高度复杂和准确的模型方面表现出了很大的潜力。然而,当前的训练算法在大数据集上计算量大或难以处理。为了克服这一瓶颈,本文探讨了割平面方法如何不仅为分类SVM提供快速训练,而且也为结构SVM提供迅速训练。我们表明,对于线性SVM训练问题的等效“1-slack”重构,我们的割平面方法在训练样本数上具有线性的时间复杂度。特别是,迭代次数不依赖于训练样本的数量,并且在期望的精度和正则化参数方面是线性的。此外,我们对该方法在二进制分类、多类分类、HMM序列标记和CFG解析中的应用进行了广泛的实证评估。实验表明,切平面算法在实际应用中具有广泛的适用性和快速性。在大型数据集上,它通常比从SVM-light或传统裁剪方法等分解方法派生的传统训练方法快几个数量级。我们的方法的实现可在http://www.joachims.org.

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Altun,Y.、Tsochantaridis,I.和Hofmann,T.(2003)。隐马尔可夫支持向量机。在机器学习国际会议(ICML)上(第3-10页)。
[2] Anguelov,D.、Taskar,B.、Chatalbashev,V.、Koller,D.、Gupta,D.、Heitz,G.和Ng,A.Y.(2005)。三维扫描数据分割中马尔可夫随机场的判别学习。IEEE计算机视觉和模式识别会议(CVPR)(第169-176页)。洛斯·阿拉米托斯:IEEE计算机学会。
[3] Bartlett,P.、Collins,M.、Taskar,B.和McAllester,D.(2004)。大边缘结构化分类的指数算法。《神经信息处理系统进展》(NIPS)(第305-312页)。
[4] Caruana,R.、Joachims,T.和Backstrom,L.(2004)。KDDCup 2004:结果和分析。ACM SIGKDD新闻稿,6(2),95–108·Zbl 05442758号 ·数字对象标识代码:10.1145/1046456.1046470
[5] Chang,C.C.和Lin,C.J.(2001)。LIBSVM:支持向量机库。软件可在网址:http://www.csie.ntu.edu.tw/\(\sim\)cjlin/libsvm。
[6] Collins,M.(2002)。隐马尔可夫模型的判别训练方法:感知机算法的理论和实验。自然语言处理经验方法(EMNLP)(第1-8页)。
[7] Collins,M.(2004)。统计分析模型的参数估计:无分布方法的理论和实践。解析技术的新发展。多德雷赫特:Kluwer学术(论文附于2001年IWPT受邀演讲)。
[8] Collins,M.和Duffy,N.(2002年)。解析和标记的新排名算法:离散结构上的内核和投票感知器。计算语言学协会年会(第263-270页)。
[9] Collobert,R.和Bengio,S.(2001年)。SVMTorch:大规模回归问题的支持向量机。机器学习研究杂志(JMLR),1143-160·Zbl 1052.68111号 ·doi:10.11162/15324430152733142
[10] Cortes,C.和Vapnik,V.N.(1995)。支持向量网络。机器学习,20,273–297·Zbl 0831.68098号
[11] Crammer,K.和Singer,Y.(2001年)。关于基于多类核的向量机的算法实现。机器学习研究杂志(JMLR),2265–292·Zbl 1037.68110号 ·doi:10.11162/15324430260185628
[12] Crammer,K.和Singer,Y.(2003年)。多类问题的超保守在线算法。机器学习研究杂志(JMLR),3951–991·兹比尔1112.68497 ·doi:10.1162/jmlr.2003.3.4-5.951
[13] Ferris,M.和Munson,T.(2003年)。大规模支持向量机的内点方法。SIAM优化杂志,13(3),783–804·Zbl 1039.90092号 ·doi:10.1137/S1052623400374379
[14] Fukumizu,K.、Bach,F.和Jordan,M.(2004)。基于再生核Hilbert空间的监督学习降维。机器学习研究杂志(JMLR),5,73–99·Zbl 1222.62069号
[15] Fung,G.和Mangasarian,O.(2001年)。近距离支持向量分类器。在ACM知识发现和数据挖掘(KDD)会议上(第77-86页)·Zbl 1101.68758号
[16] Globerson,A.、Koo,T.Y.、Carreras,X.和Collins,M.(2007年)。对数线性结构预测的指数梯度算法。在机器学习国际会议(ICML)上(第305-312页)。
[17] Joachims,T.(1999)。使大规模SVM学习实用化。B.Schölkopf、C.Burges和A.Smola(编辑),《内核方法的进展——支持向量学习》(第169–184页)。剑桥:麻省理工学院出版社。第11章。
[18] Joachims,T.(2003)。学习对齐序列:最大限度的方法。在线手稿。
[19] Joachims,T.(2005年)。多元性能度量的支持向量方法。在机器学习国际会议(ICML)上(第377-384页)。
[20] Joachims,T.(2006)。在线性时间内训练线性SVM。在ACM SIGKDD国际知识发现和数据挖掘会议(KDD)上(第217-226页)。
[21] Johnson,M.(1998)。语言树表示的PCFG模型。计算语言学,24(4),613–632。
[22] Keerthi,S.和DeCoster,D.(2005)。一种改进的有限牛顿法快速求解大规模线性SVM。机器学习研究杂志(JMLR),6341–361·Zbl 1222.68231号
[23] Keerthi,S.、Chapelle,O.和DeCoster,D.(2006年)。构建分类器复杂度较低的支持向量机。机器学习研究杂志(JMLR),71493-1515·Zbl 1222.68230号
[24] Kivinen,J.和Warmuth,M.K.(1997)。线性预测因子的指数梯度与梯度下降。信息与计算,132(1),1-63·Zbl 0872.68158号 ·doi:10.1006/inco.1996.2612
[25] Lafferty,J.、McCallum,A.和Pereira,F.(2001年)。条件随机场:用于分割和标记序列数据的概率模型。在国际机器学习会议(ICML)上。
[26] Lewis,D.、Yang,Y.、Rose,T.和Li,F.(2004)。Rcv1:文本分类研究的新基准集合。机器学习研究杂志(JMLR),5361-397。
[27] Mangasarian,O.和Musicant,D.(2001)。拉格朗日支持向量机。机器学习研究杂志(JMLR),161-177·Zbl 0997.68108号 ·doi:10.1162/15324430152748218
[28] Marcus,M.、Santorini,B.和Marcinkiewicz,M.A.(1993年)。构建一个大型英语注释语料库:宾夕法尼亚树库。计算语言学,19(2),313–330。
[29] McDonald,R.、Crammer,K.和Pereira,F.(2005)。依赖关系解析器的在线大范围培训。在计算语言学协会(ACL)年会上(第91-98页)。
[30] Platt,J.(1999)。使用序列最小优化快速训练支持向量机。B.Schölkopf、C.Burges和A.Smola(编辑),《内核方法的进展——支持向量学习》。剑桥:麻省理工学院出版社。第12章。
[31] Ratliff,N.D.、Bagnell,J.A.和Zinkevich,M.A.(2007年)。结构化预测的(在线)次梯度方法。在人工智能和统计会议(AISTATS)上。
[32] Shalev-Shwartz,S.、Singer,Y.和Srebro,N.(2007年)。PEGASOS:SVM的原始估计子GrAdient SOlver。在机器学习国际会议(ICML)上(第807-814页)。纽约:ACM·Zbl 1211.90239号
[33] Smola,A.和Schölkopf,B.(2000年)。机器学习的稀疏贪婪矩阵近似。在机器学习国际会议上(第911–918页)。
[34] Taskar,B.、Guestrin,C.和Koller,D.(2003)。最大边际马尔可夫网络。神经信息处理系统进展。
[35] Taskar,B.、Klein,D.、Collins,M.、Koller,D.和Manning,C.(2004)。最大边缘分析。在自然语言处理(EMNLP)的经验方法中。
[36] Taskar,B.、Lacoste-Julien,S.和Jordan,M.I.(2005)。通过外梯度法进行结构化预测。神经信息处理系统进展·Zbl 1222.62143号
[37] Teo,C.H.、Smola,A.、Vishwanathan,S.V.和Le,Q.V.(2007)。用于正则化风险最小化的可扩展模块凸解算器。在ACM关于知识发现和数据挖掘(KDD)的会议上(第727–736页)。
[38] Tsochantaridis,I.、Hofmann,T.、Joachims,T.和Altun,Y.(2004)。支持相互依赖和结构化输出空间的向量机学习。在机器学习国际会议(ICML)上(第104-112页)。
[39] Tsochantaridis,I.、Joachims,T.、Hofmann,T.和Altun,Y.(2005)。结构化和相互依赖输出变量的大幅度方法。机器学习研究杂志(JMLR),61453-1484·Zbl 1222.68321号
[40] Vapnik,V.(1998)。统计学习理论。纽约:威利·Zbl 0935.62007号
[41] Vishwanathan,S.V.N.,Schraudolph,N.N.、Schmidt,M.W.和Murphy,K.P.(2006)。用随机梯度方法加速条件随机场的训练。在机器学习国际会议(ICML)上(第969–976页)。
[42] Yu,C.N.、Joachims,T.、Elber,R.和Pillardy,J.(2007年)。蛋白质比对模型的支持向量训练。《计算分子生物学研究国际会议论文集》(RECOMB)(第253-267页)。
[43] Yu,Y.,Finley,T.,Radlinski,F.,&Joachims,T.(2007)。一种用于优化平均精度的支持向量方法。在ACM SIGIR信息检索研究与开发会议(SIGIR)上(第271-278页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。