×

机器学习分类的实例空间。 (英语) Zbl 1457.68235号

摘要:本文解决了机器学习分类器的客观性能评估问题,以及测试实例选择的影响。鉴于数据集的统计属性或特征会影响特定分类算法实例的难度,我们检查了大多数机器学习研究人员使用的测试实例UCI存储库的多样性和质量。我们展示了如何可视化实例空间,将每个分类数据集表示为空间中的一个点。实例空间的构建旨在揭示硬实例和简单实例的口袋,并能够识别单个分类器的优缺点。最后,我们提出了一种生成新测试实例的方法,目的是丰富实例空间的多样性,从而获得比当前UCI存储库提供的更深入的见解。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aha,D.W.(1992年)。从案例研究中归纳:案例研究。第九届机器学习国际会议记录(第1-10页)。
[2] 阿尔卡拉,J;费尔南德斯,A;卢恩戈,J;德里克,J;加西亚,S;桑切斯,L;Herrera,F,Keel数据挖掘软件工具:数据集存储库,算法集成和实验分析框架,多值逻辑与软计算杂志,17,255-287,(2010)
[3] 阿里,S;Smith,KA,《关于分类的学习算法选择》,应用软计算,6,119-138,(2006)
[4] 巴尔特,A;比塞,N;Kulkarni,P,《利用地标进行元学习:一项调查》,《国际计算机应用杂志》,105,47-51,(2014)
[5] Bensusan,H.和Giraud-Carrier,C.(2000)。通过里程碑式的学习表现发现任务邻里。在D.A.Zighed、J.Komorowski和J.Żytkow(编辑)中,数据挖掘和知识发现原理:第四届欧洲会议2000年9月13日至16日,法国里昂PKDD 2000会议记录(第325-330页)。柏林,海德堡:施普林格。
[6] Braddil,P.、Carrier,C.G.、Soares,C.和Vialta,R.(2008年)。元学习:在数据挖掘中的应用柏林:施普林格科技与商业媒体·Zbl 1173.68625号
[7] Braddil,P.、Gama,J.和Henery,B.(1994年)。描述使用元级学习的分类算法的适用性。机器学习:ECML-94(第83-102页)。斯普林格。
[8] SH伯顿;RG莫里斯;Giraud-Carrier,CG;西部,JH;Thackeray,R,从问卷数据中挖掘有用的关联规则,智能数据分析,18,479-494,(2014)
[9] Caputo,B.、Sim,K.、Furesjo,F.和Smola,A.(2002年)。使用SVMS进行基于外观的对象识别:我应该使用哪个内核?在:NIPS视觉处理和计算机视觉计算实验统计方法研讨会论文集,Whistler(2002年)。
[10] Carbonell,J.G.、Michalski,R.S.和Mitchell,T.M.(1983年)。机器学习概述。R.S.Michalski、J.G.Carbonell和T.M.Mitchell(编辑),机器学习:一种人工智能方法(第3-23页)。柏林,海德堡:施普林格。
[11] Castiello,C.、Castellano,G.和Fanelli,A.M.(2005)。元数据:用于元学习的输入特征的特征。在V.Torra、Y.Narukawa和S.Miyamoto(编辑)中,人工智能建模决策:第二届国际会议《MDAI 2005》,日本筑波,2005年7月25日至27日,《会议记录》(第457-468页)。柏林,海德堡:施普林格·Zbl 1121.68366号
[12] Cohen,J,统计力量分析,《心理科学的当前方向》,198-101,(1992)
[13] 卡伯森,JC,《论盲目搜索的徒劳性:“没有免费午餐”的算法观点》,《进化计算》,第6期,第109-127页,(1998年)
[14] 法耶兹,UM;Irani,KB,关于决策树生成中连续值属性的处理,机器学习,8,87-102,(1992)·Zbl 0767.68084号
[15] Flach,P.(2012)。机器学习:理解数据的算法的艺术和科学剑桥:剑桥大学出版社·Zbl 1267.68010号
[16] Fujikawa,Y.和Ho,T.(2002年)。用于处理缺失值的基于群集的算法。亚太知识发现和数据挖掘会议(第549-554页)。施普林格·Zbl 1048.68756号
[17] Fürnkranz,J.和Petrak,J.(2001年)。对地标变体的评估。ECML/PKDD 2000数据挖掘、决策支持和元学习集成研讨会的工作说明(第57-68页)。
[18] Gama,J.和Braddil,P.(1995)。分类算法的特征。在C.Pinto-Ferreira和N.J.Mamede(编辑)中,人工智能进展:第七届葡萄牙人工智能会议1995年10月3日至6日,葡萄牙马德拉岛Funchal,EPIA’95会议记录(第189-200页)。柏林,海德堡:施普林格。
[19] Ganganwar,V,《不平衡数据集分类算法概述》,《新兴技术和先进工程国际期刊》,第242-47页,(2012)
[20] 有限合伙人加西亚;AC卡瓦略;Lorena,AC,元学习水平中的噪声检测,神经计算,176,14-25,(2015)
[21] Goethals,B;MJ Zaki,《频繁项集挖掘实现的进展:FIMI’03报告》,ACM SIGKDD Explorations Newsletter,6,109-117,(2004)
[22] Hansen,N.(2009年)。在BBOB-2009功能试验台上对双种群CMA-ES进行基准测试。GECCO’09年(第2389-2396页)。ACM。https://doi.org/10.1145/1570256.1570333
[23] 哈斯蒂,T;Tibshirani,R;弗里德曼,J;J·富兰克林,《统计学习的要素:数据挖掘、推理和预测》,《数学智能化》,第27期,第83-85页,(2005年)
[24] Hechenbichler,K.S.K.(2014)。kknn:加权k近邻。http://CRAN.R-project.org/package=kknn。R软件包版本1.2-5。
[25] Ho,TK;Basu,M,监督分类问题的复杂性度量,IEEE模式分析和机器智能汇刊,24289-300,(2002)
[26] Holmes,G.、Donkin,A.和Witten,I.H.(1994)。韦卡:机器学习工作台。1994年第二次澳大利亚和新西兰智能信息系统会议记录1994年(第357-361页)。电气与电子工程师协会。
[27] Holte,RC,非常简单的分类规则在最常用的数据集上表现良好,机器学习,11,63-90,(1993)·Zbl 0850.68278号
[28] 伊格尔,C;Toussaint,M,目标函数非均匀分布的无免费午餐定理,《数学建模与算法杂志》,313-322,(2005)·Zbl 1079.90111号
[29] 约旦,M;Mitchell,T,《机器学习:趋势、前景和展望》,《科学》,349255-260,(2015)·Zbl 1355.68227号
[30] 卡拉佐格鲁,A;斯莫拉,A;霍尼克,K;Zeileis,A,Kernlab—R中内核方法的S4包,统计软件杂志,11,1-20,(2004)
[31] Kotsiantis,SB,《监督机器学习:分类技术综述》,Informatica,31249-268,(2007)·Zbl 1162.68552号
[32] 科齐安提斯,SB;扎哈拉基斯,ID;Pintelas,PE,《机器学习:分类和组合技术综述》,《人工智能评论》,26,159-190,(2006)
[33] Langley,P,机器学习的变化科学,机器学习,82,275-279,(2011)·Zbl 1237.68153号
[34] Lee,JW;Giraud-Carrier,C,数据挖掘从业者分类学习算法的自动选择,智能数据分析,17,665-678,(2013)
[35] Leite,R.和Braddil,P.(2008年)。使用带有采样地标和数据特征的元学习选择分类器。在ICML/COLT/UAI举行的计划学习研讨会(PlanLearn 2008)会议记录(第35-41页)。
[36] 莱斯曼,S;贝森,B;Seow,H-V;Thomas,LC,《信用评分的标杆先进分类算法:研究更新》,《欧洲运筹学杂志》,247,124-136,(2015)·Zbl 1346.90835号
[37] Lichman,M.(2013)。UCI机器学习库. http://archive.ics.uci.edu/ml
[38] Lindner,G.和Studer,R.(1999)。AST:支持CBR方法的算法选择。在J.M.Żytkow和J.Rauch(编辑)中,数据挖掘和知识发现原理:第三届欧洲会议1999年9月15日至18日,《捷克共和国布拉格PKDD'99会议记录》(第418-423页)。柏林,海德堡:施普林格。
[39] 北马西亚;Bernadó-Mansilla,E,《走向UCI+:一个谨慎的存储库设计》,信息科学,261237-262,(2014)
[40] Maciá,N.,Orriols-Puig,A.,Bernadó-Mansilla,E.(2010年)。寻找目标复杂问题。第12届遗传与进化计算年会论文集(第1055-1062页)。ACM公司。
[41] Meyer,D.、Dimitriadou,E.、Hornik,K.、Weingessel,A.和Leisch,F.(2015)。e1071:概率论小组统计部的其他职能(原名:e1071),TU Wien(2015)。http://CRAN.R-project.org/package=e1071。R软件包版本1.6-7。
[42] Michie,D.、Spiegelhalter,D.J.、Taylor,C.C.和Campbell,J.(编辑)。(1994).机器学习、神经和统计分类新泽西州上鞍河:Ellis Horwood·Zbl 0827.68094号
[43] Muñoz,M.A.和Smith-Miles,K.A.(2017年)。通过实例空间中的足迹分析连续黑盒优化算法的性能。进化计算,25(4), 529-554.
[44] Orriols-Puig,A.、Macia,N.和Ho,T.K.(2010年)。c中数据复杂性库的文档++(第196卷)。拉萨尔:拉蒙·勒尔大学。
[45] Peng,Y.、Flach,P.A.、Soares,C.和Braddil,P.(2002)。改进了元学习的数据集特征。S.Lange、K.Satoh和C.H.Smith(编辑),发现科学:第五届国际会议,DS 2002吕贝克,德国,2002年11月24日至26日,《会议记录》(第141-152页)。柏林,海德堡:施普林格·Zbl 1024.68579号
[46] Perez,E.和Rendell,L.A.(1996年)。通过在基于属性的数据中发现结构,尽管概念发生了变化,但仍然可以进行学习。第十三届机器学习国际会议记录Citeser。
[47] Pfahringer,B.、Bensusan,H.和Giraud-Carrier,C.(2000a)。通过标记各种学习算法的元学习。第十七届机器学习国际会议记录(第743-750页)。加利福尼亚州旧金山:摩根·考夫曼出版社。
[48] Pfahringer,B.、Bensusan,H.和Giraud-Carrier,C.(2000b)。告诉我谁可以学习你,我可以告诉你是谁:标记各种学习算法。第17届机器学习国际会议论文集(第743-750页)。
[49] 罗摩克里希南,N;赖斯,JR;Houstis,EN,Gauss:数值求积的在线算法选择系统,工程软件进展,33,27-36,(2002)·Zbl 1003.68581号
[50] Reif,M;Shafait,F,通过预测前向选择有效减小特征尺寸,模式识别,471664-1673,(2014)
[51] Reif,M;沙法特,F;Dengel,A,分类器进化参数优化的元学习,机器学习,87,357-380,(2012)
[52] Reif,M;沙法特,F;戈德斯坦,M;Breuel,T;Dengel,A,《非专家自动分类器选择》,模式分析与应用,17,83-96,(2014)
[53] 伦德尔,L;Cho,H,作为概念特征函数的经验学习,机器学习,5267-298,(1990)
[54] 赖斯,JR,算法选择问题,计算机进展,15,65-118,(1976)
[55] Robnik-Šikonja,M;Kononenko,I,Reliff和rrelieff的理论和实证分析,机器学习,53,23-69,(2003)·Zbl 1076.68065号
[56] 鲁丁,C;Wagstaff,KL,《科学与社会的机器学习》,机器学习,95,1-9,(2014)
[57] Salzberg,SL,《关于比较分类器:要避免的陷阱和推荐的方法》,《数据挖掘和知识发现》,1317-328,(1997)
[58] Segrera,S.、Pinho,J.和Moreno,M.N.(2008年)。元学习的信息论测量。在E.Corchado、A.Abraham和W.Pedrycz(编辑)中,混合人工智能系统:第三次国际研讨会,HAIS 2008,西班牙布尔戈斯,2008年9月24日至26日,《会议记录》(第458-465页)。柏林,海德堡:施普林格。
[59] Smith,K.A.、Woo,F.、Ciesielski,V.和Ibrahim,R.(2002)。使用自组织映射将数据挖掘算法适用性与数据特征匹配。在A.Abraham和M.Köppen(编辑)中,混合信息系统(第169-179页)。海德堡:Physica Verlag·Zbl 1007.68054号
[60] 史密斯-迈尔斯,K;巴塔,D;Wreford,B;Lewis,R,《在实例空间中实现算法性能的客观测量》,计算机与运筹学,45,12-24,(2014)·Zbl 1348.90646号
[61] 史密斯-迈尔斯,K;Bowly,S,《通过实例空间的演化生成新的测试实例》,《计算机与运营研究》,第63期,第102-113页,(2015年)·Zbl 1349.68325号
[62] 史密斯-迈尔斯,K;Hemert,J,《通过学习进化实例发现优化算法的适用性》,《数学与人工智能年鉴》,61,87-104,(2011)·Zbl 1236.49008号
[63] 史密斯-迈尔斯,K;Lopes,L,度量组合优化问题的实例难度,计算机与运筹学,39,875-889,(2012)·Zbl 1251.90339号
[64] Smith-Miles,K.,&Tan,T.(2012年)。测量实例空间中的算法足迹。IEEE CEC’12(第3446-3453页)。
[65] Smith-Miles,K.,&Tan,T.T.(2012)测量实例空间中的算法足迹。2012年IEEE进化计算大会(CEC)(第1-8页)。电气与电子工程师协会。
[66] Smith-Miles,K.、Wreford,B.、Lopes,L.和Insani,N.(2013年)。使用数据挖掘预测图着色问题的元启发式性能。在E.Talbi(编辑)中,混合元启发式(第417-432页)。柏林,海德堡:施普林格。
[67] Smith-Miles,KA,《用于算法选择的元学习的跨学科观点》,ACM计算调查(CSUR),第41、6、(2008)页
[68] Soares,C.(2009年)。UCI++:使用数据集改进了对算法选择的支持。知识发现和数据挖掘的进展:第13届亚太会议PAKDD 2009泰国曼谷,2009年4月27日至30日,《会议记录》(第499-506页)。https://doi.org/10.1007/978-3-642-01307-2_46。
[69] Soares,C.和Braddil,P.B.(2000年)。缩放排名:根据相关性能信息选择分类算法。在D.A.Zighed、J.Komorowski和J.Żytkow(编辑)中,数据挖掘和知识发现原理:第四届欧洲会议2000年9月13日至16日,法国里昂PKDD 2000会议记录(第126-135页)。柏林,海德堡:施普林格。
[70] Soares,C.、Petrak,J.和Braddil,P.(2001)。基于采样的相对地标:在选择之前系统测试驾驶算法。葡萄牙人工智能会议(第88-95页)。斯普林格·Zbl 1053.68643号
[71] 索科洛娃,M;Lapalme,G,《分类任务绩效指标的系统分析》,信息处理与管理,45,427-437,(2009)
[72] 宋,Q;王,G;王,C,基于数据集特征的分类算法自动推荐,模式识别,452672-2689,(2012)
[73] Therneau,T.、Atkinson,B.和Ripley,B.(2014)。rpart:递归分区和回归树. http://CRAN.R-project.org/package=rpart。R包版本4.1-8。
[74] Tsoumakas,G.,Vlahavas,I.(2007年)。随机k标签集:多标签分类的集成方法。欧洲机器学习会议(第406-417页)。斯普林格。
[75] Vanschoren,J.(2010)。使用实验数据库了解机器学习性能鲁汶大学工程学院博士论文·Zbl 1211.68171号
[76] Vanschoren,J;JN,Rijn;Bischl,B;Torgo,L,Openml:机器学习中的网络科学,SIGKDD Explorations,15,49-60,(2013)·数字对象标识代码:10.1145/2641190.2641198
[77] Vapnik,V.N.(1995)。统计学习理论的本质纽约州纽约市:Springer-Verlag·Zbl 0833.62008号
[78] Venables,W.N.和Ripley,B.D.(2002年)。现代应用统计学与S(第四版)。纽约州施普林格。http://www.stats.ox.ac.uk/pub/MASS4。国际标准图书编号0-387-95457-0·Zbl 1006.62003号
[79] Villata,R.(1999)。通过概念表征和算法分析了解准确性性能。关于元学习最新进展和未来工作的ICML-99研讨会会议记录(第3-9页)。
[80] Villata,R.和Drissi,Y.(2002年)。分类中困难问题的表征。在M.A.Wani、H.R.Arabnia、K.J.Cios、K.Hafeez和G.Kendall(编辑)中,2002年机器学习和应用国际会议记录-ICMLA 2002,2002年6月24日至27日,内华达州拉斯维加斯(第133-138页)。
[81] Wagstaff,K.(2012)。重要的机器学习.arXiv预打印arXiv:1206.4656
[82] Weerawarana,S;霍斯蒂斯,英语;赖斯,JR;乔希,A;Houstis,CE,Pythia:选择科学算法的基于知识的系统,ACM数学软件交易(TOMS),22447-468,(1996)·Zbl 0884.65123号
[83] 雅罗,S;哈扎克,KA;塞茨,AR;Seriès,P,《神经地图中地形的检测和量化》,《公共科学图书馆·综合》,第9期,第1-14页,(2014年)·doi:10.1371/journal.pone.0087178
[84] 杨,W;威克曼,G;Holland,W,数据集中缺失值处理方法的调查:局限性和益处,工效学科学理论问题,12,15-43,(2011)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。