A new parallel data geometry analysis algorithm to select training data for support vector machine

Yunfeng Shi; Shu Lv; Kaibo Shi; Yunfeng Shi; Shu Lv; Kaibo Shi

doi:10.3934/math.2021806

AIMS数学

2021,第6卷, 第12版: 13931-13953. 数字对象标识：10.3934/小时2021806

研究文章

支持向量机训练数据选择的并行数据几何分析新算法

1
中国电子科技大学数学科学学院，成都611731
2
中国电子科技大学长三角区域研究所（湖州），湖州313001
三。
成都大学电子信息与电气工程学院，四川成都610106

收到：2021年6月28日 接受日期：2021年9月15日 出版：2021年9月27日
MSC公司：68T09号

支持向量机（SVM）是最强大的机器学习技术之一，由于其卓越的性能而受到广泛关注。然而，在处理大规模数据集的分类问题时，SVM模型的高复杂性导致效率低下，变得不切实际。由于SVM在样本空间中的稀疏性，本文提出了一种新的并行数据几何分析（PDGA）算法来减少SVM的训练集，这有助于提高SVM训练的效率。PDGA引入马氏距离来测量每个样本到其质心的距离。在此基础上，提出了一种同时识别非支持向量和离群值的方法，以帮助去除冗余数据。当训练集进一步减少时，提出了余弦角距离分析方法来确定样本是否是冗余数据，确保有价值的数据不会被去除。与以往的数据几何分析方法不同，PDGA算法是并行实现的，大大节省了计算成本。在人工数据集和6个实际数据集上的实验结果表明，该算法能够适应不同的样本分布。在不牺牲分类精度的前提下，大大减少了训练时间和内存需求，其性能明显优于其他五种竞争算法。
- 支持向量机,
- 样品还原,
- 几何分析,
- 马氏距离,
- 平行
引用：石云峰、舒律、石开波。一种新的并行数据几何分析算法，用于选择支持向量机的训练数据[J]。AIMS数学，2021，6（12）：13931-13953。doi:10.3934/每小时2021806

相关论文：

摘要

支持向量机（SVM）是最强大的机器学习技术之一，由于其卓越的性能而受到广泛关注。然而，在处理大规模数据集的分类问题时，SVM模型的高复杂性导致效率低下，变得不切实际。由于SVM在样本空间中的稀疏性，本文提出了一种新的并行数据几何分析（PDGA）算法来减少SVM的训练集，这有助于提高SVM训练的效率。PDGA引入马氏距离来测量每个样本到其质心的距离。在此基础上，提出了一种同时识别非支持向量和离群值的方法，以帮助去除冗余数据。在进一步缩减训练集时，提出余弦角距离分析方法来确定样本是否为冗余数据，确保有价值的数据不被删除。与以往的数据几何分析方法不同，PDGA算法是并行实现的，大大节省了计算成本。在人工数据集和6个实际数据集上的实验结果表明，该算法能够适应不同的样本分布。在不牺牲分类精度的前提下，大大减少了训练时间和内存需求，其性能明显优于其他五种竞争算法。

工具书类

[1]	J.Cervantes，F.Garcia-Lamont，L.Rodríguez-Mazahua，A.Lopez，《支持向量机分类综合调查：应用、挑战和趋势》，神经计算,408（2020），第189–215页。数字对象标识：2016年10月10日/j.neucom.2019.10.118
[2]	王毅，王振华，胡庆华，周永川，苏洪良，大规模分类的层次语义风险最小化，IEEE T.控制论2021年，内政部：10.1109/TCYB.2021.3059631。
[3]	S.H.Alizadeh，A.Hediehloo，N.S.Harzevili，朴素贝叶斯分类器的多独立潜在成分扩展，知识。基于系统。,213(2021), 106646. 数字对象标识：2016年10月10日/j.knosys.2020.106646
[4]	L.X.Jiang，C.Q.Li，S.S.Wang，L.G.Zhang，朴素贝叶斯深度特征加权及其在文本分类中的应用，工程应用。Artif公司。英特尔。,52(2016), 26–39. 数字对象标识：2016年10月10日/j.engappai.2016.02.002
[5]	R.J.Prokop，A.P.Reeves，基于动量的非遮挡物体表示和识别技术综述，CVGIP公司,54(1992), 438–460.
[6]	A.Trabelsi，Z.Elouedi，E.Lefevre，证据属性值和类标签的决策树分类器，模糊集。系统。,366（2019），46–62。数字对象标识：2016年10月10日/j.fss.2018.11.006
[7]	F.C.Pampel，Logistic回归：入门，Sage出版物，2020年。
[8]	P.Skryjomski，B.Krawczyk，A.Cano，加速k-最近邻分类器用于GPU上的大规模多标签学习，神经计算,354(2019), 10–19. 数字对象标识：2016年10月10日/j.neucom.2018.06.095
[9]	V.Vapnik，R.Izmailov，增强支持向量机方法和记忆机制，图案重新设计。,119(2021), 108018. 数字对象标识：2016年10月10日/j.patcog.2021.108018
[10]	V.N.Vapnik，统计学习理论，纽约：Wiley，1998年。
[11]	C.J.C.Burges，模式识别支持向量机教程，最小已知数据。光盘。,2(1998), 121–167. 数字对象标识：10.1023/A:1009715923555
[12]	N.Cristianini、J.Shawe-Taylor、，支持向量机和其他基于核的学习方法简介，剑桥：剑桥大学出版社，2000年。
[13]	T.K.Bhowmik，P.Ghanty，A.Roy，S.K.Parui，基于SVM的手写手镯字符识别层次结构，国际期刊。分析。记录。,12(2009), 97–108. 数字对象标识：10.1007/s10032-009-0084-x号
[14]	X.P.Liang，L.Zhu，D.S.Huang，用于图像分割的多任务排序支持向量机，神经计算,247(2017), 126–136. 数字对象标识：2016年10月10日/j.neucom.2017.03.060
[15]	陈永生，林振华，赵晓光，王国富，顾永福，基于深度学习的高光谱数据分类，IEEE J.星,7(2014), 2094–2107.
[16]	P.Liu、K.-K.R.Choo、L.Z.Wang、F.Huang、SVM还是深度学习？遥感图像分类的比较研究，软计算。,21(2017), 7053–7065. 数字对象标识：2007年10月10日/200500-016-2247-2
[17]	J.Nalepa，M.Kawulok，通过数据几何分析增强的自适应模因算法，为SVM选择训练数据，神经计算,185(2016), 113–132. 数字对象标识：2016年10月10日/j.neucom.2015.12.046
[18]	J.F.Qiu，Q.H.Wu，G.R.Ding，Y.H.Xu，S.Feng，大数据处理中的机器学习调查，EURASIP J.高级签名。公共关系。,2016(2016), 67. 数字对象标识：10.1186/s13634-016-0355-x号
[19]	T.约阿希姆，使大规模SVM学习实用化《技术报告》，1998年。
[20]	马玉凤，梁晓霞，沈国胜，郭锦涛，王明良，李国胜，基于全局代表点选择的非迭代稀疏LS-SVM，IEEE T.Neur公司。净值。李尔。,32(2021), 788–798. 数字对象标识：10.1109/TNNLS.2020.2979466
[21]	J.C.Platt，《序列最小优化：训练支持向量机的快速算法》，1998年。可用形式：https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/tr-98-14.pdf.
[22]	G.Galvan，M.Lapucci，C.J.Lin，M.Sciandone，利用一阶和二阶信息解决SVM训练问题的两级分解框架，J.马赫。学习。物件。,22(2021), 1–38.
[23]	C.C.Chang，C.J.Lin，LIBSVM：支持向量机库，ACM T.英特尔。系统。技术。,2(2011), 27.
[24]	H.P.Graf、E.Cosatto、L.Bottou、I.Durdanovic、V.Vapnik，并行支持向量机：级联SVM，In:神经信息处理系统研究进展,17（2004），521–528。
[25]	B.L.Lu，K.A.Wang，Y.M.Wen，大规模问题上训练支持向量机的并行和级联方法的比较，In:第三届机器学习与控制论国际会议论文集,5(2004), 3056–3061.
[26]	B.Scholkopf、A.J.Smola、，使用内核学习：支持向量机、正则化、优化及其他，美国剑桥：麻省理工学院出版社，2001年。
[27]	F.Cheng，J.B.Chen，J.F.Qiu，L.Zhang，用于SVM训练集选择的基于分区的多目标进化算法，神经计算,394（2020年），70–83个doi：2016年10月10日/j.neucom.2020.02.028
[28]	J.Nalepa，M.Kawulok，《为支持向量机选择训练集：综述》，Artif公司。智力。版次。,52(2019), 857–900. 数字对象标识：2007年10月10日/10462-017-9611-1
[29]	L.Guo，S.Boukir，使用集合裕度进行SVM训练的快速数据选择，模式识别。莱特。,51(2015), 112–119. 数字对象标识：2016年10月10日/j.patrec.2014.08.003
[30]	林永清，吕福杰，朱圣华，杨明海，库尔，余国庆，等，大尺度图像分类：快速特征提取和SVM训练，CVPR公司,2011（2011），第1689–1696页。
[31]	A.Lyhyaoui，M.Martinez，I.Mora，M.Vazquez，J.L.Sancho，A.R.Figueiras-Vidal，通过聚类进行样本选择以构建类支持向量分类器，IEEE T.神经网络。,10(1999), 1474–1481. 数字对象标识：10.1109/72.809092
[32]	G.W.Gates，简化最近邻规则，IEEE T.通知。理论,18(1972), 431–433. 数字对象标识：10.1109/TIT.11972.1054809
[33]	M.Kawulok，J.Nalepa，使用遗传算法的支持向量机训练数据选择，In:结构、动态和数据统计模式识别，施普林格，柏林，海德堡，2012年。
[34]	D.R.Musicant，A.Feinberg，主动集支持向量回归，IEEE T.神经网络。,15(2004), 268–275. 数字对象标识：10.1109/TNN.2004.824259
[35]	F.Alamdar、S.Ghane、A.Amiri，在线双独立支持向量机，神经计算,186(2016), 8–21. 数字对象标识：2016年10月10日/j.neucom.2015.12.062
[36]	D.R.Wilson，T.R.Martinez，基于实例学习算法的简化技术，机器。学习。,38（2000），第257–286页。数字对象标识：10.1023/A:1007626913721
[37]	M.Ryu，K.Lee，使用相对支持距离选择大规模支持向量机中的可持续性支持向量候选，申请。科学。,10(2020), 6979. 数字对象标识：10.3390/app10196979
[38]	J.Balc{á}zar，Y.Dai，O.Watanabe，训练支持向量机的随机抽样技术，In:算法学习理论, 2001,119–134.
[39]	F.Zhu，J.Yang，N.Ye，C.Gao，G.B.Li，T.M.Yin，支持向量机的邻域分布特性和样本缩减，申请。柔软。计算。,16（2014），第201–209页。数字对象标识：2016年10月10日/j.asoc.2013.12.009
[40]	X.O.Li，J.Cervantes，W.Yu，通过随机选择聚类和支持向量机对大数据集进行快速分类，智力。数据分析。,16(2012), 897–914. 数字对象标识：10.3233/IDA-2012-00558
[41]	S.Abe，T.Inoue，通过提取边界数据快速训练支持向量机，In:国际人工神经网络会议，施普林格，柏林，海德堡，2001308-313。
[42]	P.Hart，凝聚最近邻规则（corresp.），IEEE T.通知。理论,14（1968年），第515–516页。数字对象标识：10.1109/TIT.1968.1054155
[43]	H.Shin，S.Cho，基于邻域属性的支持向量机模式选择，神经计算。,19(2007), 816–855. 数字对象标识：10.1162/neco.2007.19.3.816
[44]	夏俊堂，何明扬，王义勇，冯勇，一种基于边界样本选择的支持向量机快速训练算法，In:神经网络与信号处理国际会议, 2003, 20–22.
[45]	R.Pighetti，D.Pallez，F.Precioso，使用多目标进化算法和LSH改进SVM训练样本选择，In:2015 IEEE计算智能研讨会系列, 2015, 1383–1390.
[46]	J.Kremer，K.S.Pedersen，C.Igel，支持向量机的主动学习，In:威利跨学科评论：数据挖掘和知识发现,4(2014), 313–326.
[47]	R.Wang，S.Kwong，基于最大熵的支持向量机样本选择，In:2010年机器学习和控制论国际会议, 2010, 1390–1395.
[48]	王文杰，徐振斌，支持向量回归启发式训练，神经计算,61(2004), 259–275. 数字对象标识：2016年10月10日/j.neucom.2003.11.012
[49]	D.F.Wang，L.Shi，通过数据结构分析为SVM选择有价值的训练样本，神经计算,71(2008), 2772–2781. 数字对象标识：2016年10月10日/j.neucom.2007.09.008
[50]	C.Liu，W.Y.Wang，M.Wang，F.M.Lv，M.Konan，重构支持向量机训练集的有效实例选择算法，知识。基于系统。,116(2017), 58–73. 数字对象标识：2016年10月10日/j.knosys.2016.10.031
[51]	C.Leys，O.Klein，Y.Dominicy，C.Ley，《检测多元异常值：使用马氏距离的稳健变体》，心理实验学会。,74(2018), 150–156. 数字对象标识：2016年10月10日/j.jesp.2017.09.011
[52]	J.A.K.Suykens，T.Van Gestel，J.De Brabanter，B.De Moor，J.Vandewalle，最小二乘支持向量机，世界科学，2002年。
[53]	L.Yu，W.D.Yi，D.K.He，y.Lin，大规模训练数据集的快速约简，J.西南交通大学。,42(2007), 460–468.