DOI二维码阿富汗

内政部二维码

不同核支持向量机性能的比较研究

  • 收到日期:2021.05.03
  • 接受日期:2021.05.31
  • 发布日期:2021.05.31

摘要

支持向量机(SVM)是一种基于结构风险最小化的最新机器学习模型。由于SVM的使用困难,它在实际问题中的应用被低估了。我们的目的是表明SVM的性能在很大程度上取决于使用哪种核函数。为了实现这些,在提供了支持向量机和核函数的摘要后,我们用各种基准数据集构建了实验,以比较各种核函数的性能。为了评估SVM的性能,使用了F1-核及其标准偏差和10-交叉验证。此外,我们使用泰勒图来揭示内核之间的差异。最后,我们为所有实验提供了Python代码,以便能够重新实现实验。

关键词

确认

该研究得到了PNU-RENovation(2018-2019)的支持。

工具书类

  1. Boser,Bernhard E和Guyon,Isabelle M和Vapnik,Vladimir N,最佳边缘分类器的训练算法,计算学习理论第五届年度研讨会论文集,ACM(1992),144-152。
  2. Smola,《支持向量回归教程》,《统计学与计算》14,Springer(2004),第3期,199-222。 https://doi.org/10.1023/B:STCO.0000035301.49549.88
  3. Christopher JC,Burges,《模式识别、数据挖掘和知识发现的支持向量机教程2》,Springer(1998),第2期,第121-167页。 https://doi.org/10.1023/A:1009715923555
  4. Guyon,I,Svm应用程序列表,URLhttp://www.clopinet.com/isabelle/Projects/SVM/applist.html, (1999).
  5. 王国胜,《支持向量机分类器训练算法研究》,第四届网络计算与高级信息管理国际会议1,IEEE(2008),123-128。
  6. Souza,Cesar R,《机器学习应用程序的内核函数》,《Creative Commons Attribution-Noncommercial-Share Alike》3,(2010),29。
  7. Shawe-Taylor,John和Sun,Shiliang,《支持向量机优化方法综述》,Neurocomputing 74,Elsevier(2011),第17期,3609-3618。 https://doi.org/10.1016/j.neucom.2011.06.026
  8. Nayak,Janmenjoy and Naik,Bighnaraj and Behera,H,《支持向量机在数据挖掘任务中的综合调查:应用与挑战》,《国际数据库理论与应用杂志》8,(2015),第1期169-186。 https://doi.org/10.14257/ijdta.2015.8.1.18
  9. 科林·坎贝尔(Colin Campbell),《内核方法:当前技术的调查》(Kernel methods:a survey of current techniques),《神经计算48》(Neurocomputing 48),爱思唯尔(Elsevier)(2002),第1-4期,第63-8。 https://doi.org/10.1016/S0925-2312(01)00643-9
  10. Smola,Alex J和Scholkopf,Bernhard,《用内核学习》,4,Citeser(1998)。
  11. Vedaldi,Andrea和Zisserman,Andrew,《通过显式特征映射实现高效加法内核》,IEEE模式分析和机器智能事务34,IEEE(2012),第3期,480-492。 https://doi.org/10.1109/TPAMI.2011.153
  12. Rahimi,Ali和Recht,Benjamin,大型内核机器的随机特征,神经信息处理系统的进展,(2008),1177-1184。
  13. Mangasarian,Olvi L和Wolberg,William H,《通过线性规划进行癌症诊断》,威斯康星大学麦迪逊分校计算机科学系,(1990年)。
  14. Dua,Dheeru和Graff,Casey,加州大学欧文分校信息与计算机科学学院UCI机器学习库,(2017年)。
  15. Silva、Pedro FB和Marcal、Andre RS和da Silva,Rubim M Almeida,《叶片识别特征评估》,国际会议图像分析与识别,Springer(2013),197-204。
  16. Redmond,Michael和Baveja,Alok,一种数据驱动的软件工具,用于实现警察部门之间的合作信息共享,《欧洲运筹学杂志》141,Elsevier(2002),第3期,第660-678页。 https://doi.org/10.1016/S0377-2217(01)00264-8
  17. Brooks,Thomas F和Pope,D Stuart和Marcolini,Michael A,《机翼自噪声和预测》(1989)。
  18. Cortez、Paulo和Morais,Anibal de Jesus Raimundo,使用气象数据预测森林火灾的数据挖掘方法,数据挖掘和知识发现,APPIA(2007)。
  19. Cassotti,M和Ballabio,D和Todeschini,R和Consonni,V,《环境研究中基于相似性的定量构效关系模型,用于预测对白头翁的急性毒性》,SAR和QSAR 26,Taylor和Francis(2015),第3期217-243。 https://doi.org/101080/1062936X.2015.1018938
  20. Nakai,Kenta和Kanehisa,Minoru,预测革兰氏阴性菌中蛋白质定位位点的专家系统,蛋白质:结构、功能和生物信息学11,Springer(1991),第2 95-110号。 https://doi.org/10.1002/port.340110203
  21. Breiman,Leo,分类和回归树,Routledge(2017)。
  22. Cortez、Paulo和Cerdeira、Antonio和Almeida、Fernando和Matos、Telmo和Reis、Jose,《通过物理化学性质的数据挖掘建模葡萄酒偏好》,《决策支持系统》47,Elsevier(1998),第4期,第547-553页。 https://doi.org/10.1016/j.dss.2009.05.016
  23. Taylor,Karl E,在单个图表中总结模型性能的多个方面,数据挖掘和知识发现106,《地球物理研究杂志:大气》(1998),编号D7 7183-7192。 https://doi.org/10.1029/2000JD900719
  24. 佩德雷戈萨(Pedregosa)、费比安(Fabian)和瓦罗科(Varoqueux)、盖尔(Gael)和格兰福特(Gramfort)、亚历山大(Alexandre)和米歇尔(Michel)、文森特(Vincent)和提里昂(Thirion)、伯特朗(Bertrand)和格里塞尔(Grisel)、奥利维尔(Olivier)和布隆德尔(Blondel)、马修(Mathieu)和普雷滕霍弗(Prettenhofer)、彼得
  25. McKinney、Wes和其他人,《蟒蛇统计计算的数据结构》,《第九届蟒蛇科学会议论文集》445,德克萨斯州奥斯汀(2010),51-56。
  26. Yannick Copin,泰勒图python代码,URLhttps://gist.github.com/ycopin/3342888, (2018).
  27. Saunders,Craig和Stitson,Mark O和Weston,Jason和Bottou,Leon和Smola,A等人,支持向量机参考手册,技术报告,英国埃格姆伦敦大学皇家霍洛威计算机科学系,1998年。
  28. Valentini,Giorgio,使用支持向量机和输出编码集成对人类淋巴瘤的基因表达数据分析,医学中的人工智能26,Elsevier(2002),第3期281-304。 https://doi.org/10.1016/S0933-3657(02)00077-5
  29. Fadel,Sayed and Ghoniemy,Said and Abdallah,Mohamed and Sorra,Hussein Abu and Ashour,Amira and Ansary,Asif,《研究不同核函数对支持向量机识别阿拉伯字符性能的影响》,《国际高级计算机科学与应用杂志》7,Citeser(2016),第1期446-450。
  30. Chen,Rung-Ching和Xieh,Chung-Hsun,基于加权投票模式的支持向量机的网页分类,Expert Systems with Applications 31,Elsevier(2006),第2期,427-435。 https://doi.org/10.1016/j.eswa.2005.09.079
  31. Kar,Purushottam和Karnick,Harish,点积内核的随机特征图,人工智能与统计(2012),583-591。
  32. Deng,Wan-Yu和Ong,Yew-Soon和Zheng,Qing-Hua,一种快速简化的内核极端学习机器,神经网络76,Elsevier(2016),29-38。 https://doi.org/10.1016/j.neunet.2015.10.006
  33. Wang,Benjamin X和Japkowicz,Nathalie,Boosting support vector machines for inbalanced data set,Knowledge and information systems 25,Springer(2010),第1期,第1-20页。 https://doi.org/10.1007/s10115-009-0198-y
  34. Caruana,Rich和Niculescu-Mizil,Alexandru,《监督学习算法的实证比较》,第23届机器学习国际会议论文集,ACM(2006),161-168。
  35. Alashwal,Hany and Deris,Safaai and Othman,Razib M,《蛋白质-蛋白质相互作用预测的贝叶斯核》,世界科学、工程与技术学院51,(2009),928-933。
  36. BONITA,OLIVIA和MUFLIKHAH,LAILIL,预测煤炭价格的支持向量回归中高斯和方差分析核的比较,2018年可持续信息工程与技术国际会议(SIET),IEEE(2018),147-150。
  37. Gish,Herbert,《理解和训练神经网络分类器的概率方法》,国际声学、语音和信号处理会议,IEEE(1990),1361-1364。
  38. 张国强,彼得,分类神经网络:一项调查,IEEE系统、人和控制论汇刊,C部分(应用和评论)30,IEEE(2000),第4期451-462。 https://doi.org/10.109/5326.897072
  39. Adya,Monica和Collopy,Fred,神经网络在预测和预测方面的效率如何?《回顾与评估》,《预测杂志》第17期,威利在线图书馆(1998),第5-6期,481-495页。 https://doi.org/10.1002/(SICI)1099-131X(1998090)17:5/6<481::AID-FOR709>3.0.CO;第2季度
  40. Callen,Jeffrey L and Kwan,Clarence CY and Yep,Patrick CY and Yuan,Yufei,季度会计收益的神经网络预测,《国际预测杂志》第12期,Elsevier(1996),第4期,第475-482页。 https://doi.org/10.1016/S0169-2070(96)00706-6
  41. Church,Keith B和Curram,Stephen P,《预测消费者支出:计量经济学和神经网络模型之间的比较》,国际预测杂志12,爱尔思。 https://doi.org/10.1016/0169-270(95)00631-1
  42. Connor,Jerome T和Martin,R Douglas和Atlas,Les E,递归神经网络和稳健时间序列预测,IEEE神经网络事务5,IEEE(1994),第2期,240-254。 https://doi.org/10.109/72.279188
  43. Cottrell,Marie and Girard,Bernard and Giraard,Yvonne and Mangeas,Morgan and Muller,Corinne,《时间序列的神经建模:权重消除的统计逐步方法》,IEEE神经网络事务6,IEEE(1995),第6期1355-1364。 https://doi.org/10.109/72.471372
  44. Faraway,Julian和Chatfield,Chris,《神经网络时间序列预测:使用空气线数据的比较研究》,英国皇家统计学会期刊:C系列(应用统计学)47,威利在线图书馆(1998),第231-250期。
  45. Fletcher,Desmond和Goss,Ernie,《神经网络预测:使用破产数据的应用》,《信息与管理24》,Elsevier(1993),第3期,第159-167页。 https://doi.org/10.1016/0378-7206(93)90064-Z
  46. Gorr,Wilpen L,《神经网络预测研究展望》,《国际预测杂志》10,Elsevier(1994),第1期,第1-4页。 https://doi.org/10.1016/0169-270(94)90044-2
  47. Hippert,Henrique Steinherz和Pedreira,Carlos Eduardo和Souza,Reinaldo Castro,短期负荷预测的神经网络:回顾和评估,IEEE电力系统汇刊16,IEEE(2001),第44-55期。 https://doi.org/10.109/59.910780
  48. Belli,MR和Conti,Massimo和Crippa,Paolo和Turchetti,Claudio,《作为随机过程逼近器的人工神经网络》,《神经网络12》,Elsevier(1999),第4-5期,第647-658页。 https://doi.org/10.1016/S0893-6080(99)00017-9
  49. Castro、Juan Luis和Mantas、Carlos Javier和Benitez,JM,输出中具有连续挤压功能的神经网络是通用逼近器,《神经网络13》,Elsevier(2000),第6期,第561-563页。 https://doi.org/10.1016/S0893-6080(00)00031-9
  50. Funahashi,Ken-Ichi,《关于用神经网络近似实现连续映射》,神经网络2,Elsevier(1989),第3期,183-192。 https://doi.org/10.1016/0893-6080(89)90003-8
  51. Andrews,Robert and Diederich,Joachim and Tickle,Alan B,《从训练好的人工神经网络中提取规则的技术的调查与评论》,基于知识的系统8,Elsevier(1995),第6期,第373-389页。 https://doi.org/10.1016/0950-7051(96)81920-4
  52. Castro、Juan L和Mantas、Carlos J和Benitez、Jose Manuel,通过模糊规则解释人工神经网络,IEEE神经网络汇刊13,IEEE(2002),第1期101-116。 https://doi.org/10.109/72.977279
  53. Setiono,Rudy and Leow,Wee Kheng and Zurada,Jacek M,从人工神经网络中提取非线性回归规则,IEEE神经网络事务13,IEEE(2002),第3期564-577。 https://doi.org/10.109/TNN.2002.1000125
  54. Setiono,Rudy和Thong,James YL,《从神经网络生成回归问题规则的方法》,《欧洲运筹学杂志》155,Elsevier(2004),第1期239-250。 https://doi.org/10.1016/S0377-2217(02)00792-0
  55. Lisboa,Paulo JG,《人工神经网络在医疗干预中对健康有益的证据综述》,《神经网络15》,Elsevier(2002),第1期,第11-39页。 https://doi.org/10.1016/S0893-6080(01)00111-3
  56. Portney、Leslie Gross和Watkins、Mary P等人,《临床研究基础:实践应用》,Pearson/Prentice Hall Upper Saddle River,NJ 892,(2009)。
  57. Shawe-Taylor,John and Bartlett,Peter L and Williamson,Robert C and Anthony,Martin,《数据依赖层次结构的结构风险最小化》,IEEE transactions on Information Theory 44,IEEE(1998),第5期,1926-1940。 https://doi.org/10.109/18.705570
  58. Vapnik,Vladimir,基于经验数据的依赖性估计,Springer Science&Business Media,(2006)。
  59. McCulloch,Warren S和Pitts,Walter,《神经活动中固有思想的逻辑微积分》,《数学生物物理学公报》5,施普林格(1943),第4期,第115-133页。 https://doi.org/10.1007/BF02478259
  60. McClelland、James L和Rumelhart、David E和PDP Research Group等人,《并行分布式处理》,麻省理工学院出版社,马萨诸塞州剑桥:2,(1987)。
  61. Dietterich,Thomas G,机器学习中的集成方法,多分类器系统国际研讨会,Springer(2000),1-15。
  62. Rokach,Lior和Maimon,Oded,决策树的特征集分解,智能数据分析9,IOS出版社(1998),第2期131-158。 https://doi.org/10.3233/IDA-2005-9202
  63. Kuncheva,Ludmila I和Whitaker,Christopher J,分类器集合中多样性的度量及其与集合准确性的关系,机器学习51,Springer(2003),第2期,181-207。 https://doi.org/10.1023/A:1022859003006
  64. Sollich,Peter和Krogh,Anders,《用集合学习:过拟合如何有用》,《神经信息处理系统的进展》(1996),190-196。
  65. Brown、Gavin和Wyatt、Jeremy和Harris、Rachel和Yao、Xin,《多样性创造方法:调查和分类》,信息融合6,Elsevier(2005),第15-20期。 https://doi.org/10.1016/j.inffus.2004.04.004
  66. Adeva,Juan Jose Garcia和Beresi,U和Calvo,R,《文本分类器集合中的准确性和多样性》,CLEI Electronic Journal 9,(2005),第1-12期。
  67. Krogh,Anders和Vedelsby,Jesper,《神经网络集成、交叉验证和主动学习》,神经信息处理系统进展,(1995)231-238。
  68. Belkin、Mikhail和Hsu、Daniel和Ma、Siyuan和Mandal、Soumik,《协调现代机器学习实践和经典偏差-方差权衡》,《国家科学院学报》第116期,国家科学院(2019年),第32期,第15849-15854页。 https://doi.org/10.1073/pnas.1903070116
  69. Nakkiran,Preetum and Kaplun,Gal and Bansal,Yamini and Yang,Tristan and Barak,Boaz and Sutskever,Ilya,Deep double descent:Where large models and more data hut,arXiv预印本arXiv:1912.02292,(2019)。
  70. 乔治·西本科(George Cybenko),通过sigmoid函数的叠加进行逼近,控制数学,信号和系统2,施普林格(Springer)(1989),第4期,303-314。 https://doi.org/10.1007/BF02551274
  71. Joachims,Thorsten,《在线性时间内训练线性SVM》,《第十二届ACM SIGKDD知识发现和数据挖掘国际会议论文集》,ACM(2006),217-226。
  72. Boughorbel,Sabri and Tarel,J-P and Boujemaa,Nozha,基于svm图像识别的条件正定核,2005 IEEE多媒体与博览会国际会议,IEEE(2005),113-116。
  73. Nasrabadi,Nasser M和Kwon,Heesung,用于高光谱目标检测的核光谱匹配滤波器,论文集。(ICASSP’05)。IEEE声学、语音和信号处理国际会议4,IEEE(2005),iv-665。
  74. Boughorbel,Sabri and Tarel,Jean-Philippe and Fleuret,Francois and Boujemaa,Nozha,基于SVM图像识别的GCS内核,人工神经网络国际会议,Springer(2005),595-600。
  75. Chiroma,Haruna和Abdulkareem,Sameem和Abubakar,Adamu I和Herawan,Tutut,《支持向量机的内核函数:原油价格数据性能比较》,《软计算和数据挖掘的最新进展》,Springer(2014),273-281。
  76. Fleuret、Francois和Sahbi,Hichem,基于三角核的支持向量机的尺度不变性,第三届视觉统计与计算理论国际研讨会,(2003),1-13。
  77. Achrul Nanda,Muhammad and Boro Seminar,Kudang and Nandika,Dodi and Maddu,Akhiruddin,《支持向量机核函数的比较研究及其在白蚁检测中的应用》,信息9,多学科数字出版研究所(2018),第1期。
  78. Gunn、Steve R等人,《用于分类和回归的支持向量机》,ISIS技术报告14,南安普顿大学(1998),第1期,第5-16页。
  79. Maji,Subhransu和Berg,Alexander C和Malik,Jitendra,《加性内核SVM的有效分类》,IEEE模式分析和机器智能事务35,IEEE(2012),第1期66-77。 https://doi.org/10.109/TPAMI.2012.62
  80. Vanek,Jan和Michalek,Josef和Psutka,Josev,《支持向量机训练GPU加速开源实现的比较》,arXiv预印本arXiv:1707.06470,(2017)。
  81. Afifi、Shereen Moataz和Gholam Hosseini、Hamid和Poopak,S,《支持向量机在FPGA上的硬件实现:当前实践的最新综述》,《国际创新科学工程与技术期刊》(IJISET),(2015)。
  82. Christopher JC Burges,《大规模分类任务的加速SVM算法》,高级数据挖掘和应用国际会议,Springer(2008),147-157。
  83. Burges,CJC和Vapnik,V,《构建人工神经网络的新方法》,中期技术报告,ONR合同,(1995年)。
  84. Abiodun、Oludare Isaac和Jantan、Aman和Omolara、Abiodun-Esther和Dada、Kemi Victoria和Mohamed、Nachaat AbdElatif和Arshad、Humaira,《人工神经网络应用现状:调查》,Heliyon 4,Elsevier(2018),第11期。
  85. Saravanan,Kl和Sasithra,S,《基于人工神经网络的分类综述》,《国际环境系统与应用杂志》(IJASA)2,(2014),第4 11-18期。 https://doi.org/10.5121/ijasa.2014.2402
  86. Martinez-Porchas、Marcel和Villalpando-Canchola、Enrique和Vargas Albores,Francisco,《当使用短16S rRNA基因序列时,分类分类中的敏感性和特异性会发生重大损失》,Heliyon 2,Elsevier(2016),第9期。
  87. Abid,Faroudja和Hamami,Latifa,基于神经网络的人类染色体分类自动化系统调查,人工智能评论49,施普林格(2018)(2018的一一一一。 https://doi.org/10.1007/s10462-016-9515-5
  88. 王耀辉,张继阳,基于拉普拉斯核函数的SVM在目标跟踪中的应用,第八届智能人机系统与控制论国际会议(IHMSC)2,IEEE(2016),557-561。
  89. Zhang,Li and Zhou,Weida and Jiao,Licheng,小波支持向量机,IEEE Transactions on Systems,Man,and Controlnetics,Part B(Control netics)34,IEEE(2004),no.1 34-39。 https://doi.org/10.109/TSMCB.2003.811113
  90. Xiang,Li and Quanin,Zhu and Liuyang,Wang,支持向量回归的第一类贝塞尔核函数研究,信息技术期刊12,ANSINET(2013),第14期2673-2682。 https://doi.org/10.3923/itj.2013.2673.2682
  91. Horvath,Gabor,CMAC神经网络作为具有B样条核函数的SVM,第20届IEEE仪器技术会议论文集(目录号03CH37412)2,IEEE(2003),1108-1113。
  92. Aftab、Wasim和Moinuddin、Muhammad和Shaikh、Muhammand Shafique,基于RBF的神经网络的新内核,抽象与应用分析,Hindawi(2014)。
  93. Abadi,Wassila and Fezari,Mohamed and Hamdi,Rachid,Bag of Visualwords and ChiSquared Kernel Support Vector Machine:A Way to Improve Hand Gesture Recognition,《智能信息处理、安全与高级通信国际会议论文集》,ACM(2015)。
  94. Rao,Swathi,使用SVM的线性核和Hellinger核映射从图像数据库检索图像的效果,国际科学与工程研究杂志4,第5期。
  95. Roul,一种改进的基于余弦相似性的日志核函数,用于文本分类领域的支持向量机,第14届自然语言处理国际会议论文集,(2017),338-347。