文件Zbl 1457.68235-zbMATH Open

机器学习分类的实例空间。（英语） Zbl 1457.68235号

机器。学习。 107，第1号，109-147（2018）.

摘要：本文解决了机器学习分类器的客观性能评估问题，以及测试实例选择的影响。鉴于数据集的统计属性或特征会影响特定分类算法实例的难度，我们检查了大多数机器学习研究人员使用的测试实例UCI存储库的多样性和质量。我们展示了如何可视化实例空间，将每个分类数据集表示为空间中的一个点。实例空间的构建旨在揭示硬实例和简单实例的口袋，并能够识别单个分类器的优缺点。最后，我们提出了一种生成新测试实例的方法，目的是丰富实例空间的多样性，从而获得比当前UCI存储库提供的更深入的见解。

引用于15文件

MSC公司：

68T05型	人工智能中的学习和自适应系统
62H30型	分类和区分；聚类分析（统计方面）

关键词：

分类;元学习;测试数据;实例空间;绩效评估;算法足迹;测试实例生成;实例困难

软件：

皮西亚;质量（R）;UCI-毫升;对;kknn公司;高斯;开放多媒体程序库;威卡;ElemStatLearn（电子状态学习）;救济F;e1071号;UCI公司++;KEEL公司;科恩拉布;r零件;JStatCom公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Aha，D.W.（1992年）。从案例研究中归纳：案例研究。在第九届机器学习国际会议记录（第1-10页）。
[2]	阿尔卡拉，J；费尔南德斯，A；卢恩戈，J；德里克，J；加西亚，S；桑切斯，L；Herrera，F，Keel数据挖掘软件工具：数据集存储库，算法集成和实验分析框架，多值逻辑与软计算杂志，17，255-287，（2010）
[3]	阿里，S；Smith，KA，《关于分类的学习算法选择》，应用软计算，6，119-138，（2006）
[4]	巴尔特，A；比塞，N；Kulkarni，P，《利用地标进行元学习：一项调查》，《国际计算机应用杂志》，105，47-51，（2014）
[5]	Bensusan，H.和Giraud-Carrier，C.（2000）。通过里程碑式的学习表现发现任务邻里。在D.A.Zighed、J.Komorowski和J.Żytkow（编辑）中，数据挖掘和知识发现原理：第四届欧洲会议2000年9月13日至16日，法国里昂PKDD 2000会议记录（第325-330页）。柏林，海德堡：施普林格。
[6]	Braddil，P.、Carrier，C.G.、Soares，C.和Vialta，R.（2008年）。元学习：在数据挖掘中的应用柏林：施普林格科技与商业媒体·Zbl 1173.68625号
[7]	Braddil，P.、Gama，J.和Henery，B.（1994年）。描述使用元级学习的分类算法的适用性。在机器学习：ECML-94（第83-102页）。斯普林格。
[8]	SH伯顿；RG莫里斯；Giraud-Carrier，CG；西部，JH；Thackeray，R，从问卷数据中挖掘有用的关联规则，智能数据分析，18，479-494，（2014）
[9]	Caputo，B.、Sim，K.、Furesjo，F.和Smola，A.（2002年）。使用SVMS进行基于外观的对象识别：我应该使用哪个内核？在：NIPS视觉处理和计算机视觉计算实验统计方法研讨会论文集，Whistler（2002年）。
[10]	Carbonell，J.G.、Michalski，R.S.和Mitchell，T.M.（1983年）。机器学习概述。R.S.Michalski、J.G.Carbonell和T.M.Mitchell（编辑），机器学习：一种人工智能方法（第3-23页）。柏林，海德堡：施普林格。
[11]	Castiello，C.、Castellano，G.和Fanelli，A.M.（2005）。元数据：用于元学习的输入特征的特征。在V.Torra、Y.Narukawa和S.Miyamoto（编辑）中，人工智能建模决策：第二届国际会议《MDAI 2005》，日本筑波，2005年7月25日至27日，《会议记录》（第457-468页）。柏林，海德堡：施普林格·Zbl 1121.68366号
[12]	Cohen，J，统计力量分析，《心理科学的当前方向》，198-101，（1992）
[13]	卡伯森，JC，《论盲目搜索的徒劳性：“没有免费午餐”的算法观点》，《进化计算》，第6期，第109-127页，（1998年）
[14]	法耶兹，UM；Irani，KB，关于决策树生成中连续值属性的处理，机器学习，8，87-102，（1992）·Zbl 0767.68084号
[15]	Flach，P.（2012）。机器学习：理解数据的算法的艺术和科学剑桥：剑桥大学出版社·Zbl 1267.68010号
[16]	Fujikawa，Y.和Ho，T.（2002年）。用于处理缺失值的基于群集的算法。在亚太知识发现和数据挖掘会议（第549-554页）。施普林格·Zbl 1048.68756号
[17]	Fürnkranz，J.和Petrak，J.（2001年）。对地标变体的评估。在ECML/PKDD 2000数据挖掘、决策支持和元学习集成研讨会的工作说明（第57-68页）。
[18]	Gama，J.和Braddil，P.（1995）。分类算法的特征。在C.Pinto-Ferreira和N.J.Mamede（编辑）中，人工智能进展：第七届葡萄牙人工智能会议1995年10月3日至6日，葡萄牙马德拉岛Funchal，EPIA’95会议记录（第189-200页）。柏林，海德堡：施普林格。
[19]	Ganganwar，V，《不平衡数据集分类算法概述》，《新兴技术和先进工程国际期刊》，第242-47页，（2012）
[20]	有限合伙人加西亚；AC卡瓦略；Lorena，AC，元学习水平中的噪声检测，神经计算，176，14-25，（2015）
[21]	Goethals，B；MJ Zaki，《频繁项集挖掘实现的进展：FIMI’03报告》，ACM SIGKDD Explorations Newsletter，6，109-117，（2004）
[22]	Hansen，N.（2009年）。在BBOB-2009功能试验台上对双种群CMA-ES进行基准测试。在GECCO’09年（第2389-2396页）。ACM。https://doi.org/10.1145/1570256.1570333
[23]	哈斯蒂，T；Tibshirani，R；弗里德曼，J；J·富兰克林，《统计学习的要素：数据挖掘、推理和预测》，《数学智能化》，第27期，第83-85页，（2005年）
[24]	Hechenbichler，K.S.K.（2014）。kknn：加权k近邻。http://CRAN.R-project.org/package=kknn。R软件包版本1.2-5。
[25]	Ho，TK；Basu，M，监督分类问题的复杂性度量，IEEE模式分析和机器智能汇刊，24289-300，（2002）
[26]	Holmes，G.、Donkin，A.和Witten，I.H.（1994）。韦卡：机器学习工作台。在1994年第二次澳大利亚和新西兰智能信息系统会议记录1994年（第357-361页）。电气与电子工程师协会。
[27]	Holte，RC，非常简单的分类规则在最常用的数据集上表现良好，机器学习，11，63-90，（1993）·Zbl 0850.68278号
[28]	伊格尔，C；Toussaint，M，目标函数非均匀分布的无免费午餐定理，《数学建模与算法杂志》，313-322，（2005）·Zbl 1079.90111号
[29]	约旦，M；Mitchell，T，《机器学习：趋势、前景和展望》，《科学》，349255-260，（2015）·Zbl 1355.68227号
[30]	卡拉佐格鲁，A；斯莫拉，A；霍尼克，K；Zeileis，A，Kernlab—R中内核方法的S4包，统计软件杂志，11，1-20，（2004）
[31]	Kotsiantis，SB，《监督机器学习：分类技术综述》，Informatica，31249-268，（2007）·Zbl 1162.68552号
[32]	科齐安提斯，SB；扎哈拉基斯，ID；Pintelas，PE，《机器学习：分类和组合技术综述》，《人工智能评论》，26，159-190，（2006）
[33]	Langley，P，机器学习的变化科学，机器学习，82，275-279，（2011）·Zbl 1237.68153号
[34]	Lee，JW；Giraud-Carrier，C，数据挖掘从业者分类学习算法的自动选择，智能数据分析，17，665-678，（2013）
[35]	Leite，R.和Braddil，P.（2008年）。使用带有采样地标和数据特征的元学习选择分类器。在在ICML/COLT/UAI举行的计划学习研讨会（PlanLearn 2008）会议记录（第35-41页）。
[36]	莱斯曼，S；贝森，B；Seow，H-V；Thomas，LC，《信用评分的标杆先进分类算法：研究更新》，《欧洲运筹学杂志》，247，124-136，（2015）·Zbl 1346.90835号
[37]	Lichman，M.（2013）。UCI机器学习库. http://archive.ics.uci.edu/ml
[38]	Lindner，G.和Studer，R.（1999）。AST：支持CBR方法的算法选择。在J.M.Żytkow和J.Rauch（编辑）中，数据挖掘和知识发现原理：第三届欧洲会议1999年9月15日至18日，《捷克共和国布拉格PKDD'99会议记录》（第418-423页）。柏林，海德堡：施普林格。
[39]	北马西亚；Bernadó-Mansilla，E，《走向UCI+：一个谨慎的存储库设计》，信息科学，261237-262，（2014）
[40]	Maciá，N.，Orriols-Puig，A.，Bernadó-Mansilla，E.（2010年）。寻找目标复杂问题。在第12届遗传与进化计算年会论文集（第1055-1062页）。ACM公司。
[41]	Meyer，D.、Dimitriadou，E.、Hornik，K.、Weingessel，A.和Leisch，F.（2015）。e1071：概率论小组统计部的其他职能（原名：e1071），TU Wien（2015）。http://CRAN.R-project.org/package=e1071。R软件包版本1.6-7。
[42]	Michie，D.、Spiegelhalter，D.J.、Taylor，C.C.和Campbell，J.（编辑）。(1994).机器学习、神经和统计分类新泽西州上鞍河：Ellis Horwood·Zbl 0827.68094号
[43]	Muñoz，M.A.和Smith-Miles，K.A.（2017年）。通过实例空间中的足迹分析连续黑盒优化算法的性能。进化计算，25(4), 529-554.
[44]	Orriols-Puig，A.、Macia，N.和Ho，T.K.（2010年）。c中数据复杂性库的文档++（第196卷）。拉萨尔：拉蒙·勒尔大学。
[45]	Peng，Y.、Flach，P.A.、Soares，C.和Braddil，P.（2002）。改进了元学习的数据集特征。S.Lange、K.Satoh和C.H.Smith（编辑），发现科学：第五届国际会议，DS 2002吕贝克，德国，2002年11月24日至26日，《会议记录》（第141-152页）。柏林，海德堡：施普林格·Zbl 1024.68579号
[46]	Perez，E.和Rendell，L.A.（1996年）。通过在基于属性的数据中发现结构，尽管概念发生了变化，但仍然可以进行学习。在第十三届机器学习国际会议记录Citeser。
[47]	Pfahringer，B.、Bensusan，H.和Giraud-Carrier，C.（2000a）。通过标记各种学习算法的元学习。在第十七届机器学习国际会议记录（第743-750页）。加利福尼亚州旧金山：摩根·考夫曼出版社。
[48]	Pfahringer，B.、Bensusan，H.和Giraud-Carrier，C.（2000b）。告诉我谁可以学习你，我可以告诉你是谁：标记各种学习算法。在第17届机器学习国际会议论文集（第743-750页）。
[49]	罗摩克里希南，N；赖斯，JR；Houstis，EN，Gauss:数值求积的在线算法选择系统，工程软件进展，33，27-36，（2002）·Zbl 1003.68581号
[50]	Reif，M；Shafait，F，通过预测前向选择有效减小特征尺寸，模式识别，471664-1673，（2014）
[51]	Reif，M；沙法特，F；Dengel，A，分类器进化参数优化的元学习，机器学习，87，357-380，（2012）
[52]	Reif，M；沙法特，F；戈德斯坦，M；Breuel，T；Dengel，A，《非专家自动分类器选择》，模式分析与应用，17，83-96，（2014）
[53]	伦德尔，L；Cho，H，作为概念特征函数的经验学习，机器学习，5267-298，（1990）
[54]	赖斯，JR，算法选择问题，计算机进展，15，65-118，（1976）
[55]	Robnik-Šikonja，M；Kononenko，I，Reliff和rrelieff的理论和实证分析，机器学习，53，23-69，（2003）·Zbl 1076.68065号
[56]	鲁丁，C；Wagstaff，KL，《科学与社会的机器学习》，机器学习，95，1-9，（2014）
[57]	Salzberg，SL，《关于比较分类器：要避免的陷阱和推荐的方法》，《数据挖掘和知识发现》，1317-328，（1997）
[58]	Segrera，S.、Pinho，J.和Moreno，M.N.（2008年）。元学习的信息论测量。在E.Corchado、A.Abraham和W.Pedrycz（编辑）中，混合人工智能系统：第三次国际研讨会，HAIS 2008，西班牙布尔戈斯，2008年9月24日至26日，《会议记录》（第458-465页）。柏林，海德堡：施普林格。
[59]	Smith，K.A.、Woo，F.、Ciesielski，V.和Ibrahim，R.（2002）。使用自组织映射将数据挖掘算法适用性与数据特征匹配。在A.Abraham和M.Köppen（编辑）中，混合信息系统（第169-179页）。海德堡：Physica Verlag·Zbl 1007.68054号
[60]	史密斯-迈尔斯，K；巴塔，D；Wreford，B；Lewis，R，《在实例空间中实现算法性能的客观测量》，计算机与运筹学，45，12-24，（2014）·Zbl 1348.90646号
[61]	史密斯-迈尔斯，K；Bowly，S，《通过实例空间的演化生成新的测试实例》，《计算机与运营研究》，第63期，第102-113页，（2015年）·Zbl 1349.68325号
[62]	史密斯-迈尔斯，K；Hemert，J，《通过学习进化实例发现优化算法的适用性》，《数学与人工智能年鉴》，61，87-104，（2011）·Zbl 1236.49008号
[63]	史密斯-迈尔斯，K；Lopes，L，度量组合优化问题的实例难度，计算机与运筹学，39，875-889，（2012）·Zbl 1251.90339号
[64]	Smith-Miles，K.，&Tan，T.（2012年）。测量实例空间中的算法足迹。在IEEE CEC’12（第3446-3453页）。
[65]	Smith-Miles，K.，&Tan，T.T.（2012）测量实例空间中的算法足迹。在2012年IEEE进化计算大会（CEC）（第1-8页）。电气与电子工程师协会。
[66]	Smith-Miles，K.、Wreford，B.、Lopes，L.和Insani，N.（2013年）。使用数据挖掘预测图着色问题的元启发式性能。在E.Talbi（编辑）中，混合元启发式（第417-432页）。柏林，海德堡：施普林格。
[67]	Smith-Miles，KA，《用于算法选择的元学习的跨学科观点》，ACM计算调查（CSUR），第41、6、（2008）页
[68]	Soares，C.（2009年）。UCI++：使用数据集改进了对算法选择的支持。在知识发现和数据挖掘的进展：第13届亚太会议PAKDD 2009泰国曼谷，2009年4月27日至30日，《会议记录》（第499-506页）。https://doi.org/10.1007/978-3-642-01307-2_46。
[69]	Soares，C.和Braddil，P.B.（2000年）。缩放排名：根据相关性能信息选择分类算法。在D.A.Zighed、J.Komorowski和J.Żytkow（编辑）中，数据挖掘和知识发现原理：第四届欧洲会议2000年9月13日至16日，法国里昂PKDD 2000会议记录（第126-135页）。柏林，海德堡：施普林格。
[70]	Soares，C.、Petrak，J.和Braddil，P.（2001）。基于采样的相对地标：在选择之前系统测试驾驶算法。在葡萄牙人工智能会议（第88-95页）。斯普林格·Zbl 1053.68643号
[71]	索科洛娃，M；Lapalme，G，《分类任务绩效指标的系统分析》，信息处理与管理，45，427-437，（2009）
[72]	宋，Q；王，G；王，C，基于数据集特征的分类算法自动推荐，模式识别，452672-2689，（2012）
[73]	Therneau，T.、Atkinson，B.和Ripley，B.（2014）。rpart：递归分区和回归树. http://CRAN.R-project.org/package=rpart。R包版本4.1-8。
[74]	Tsoumakas，G.，Vlahavas，I.（2007年）。随机k标签集：多标签分类的集成方法。在欧洲机器学习会议（第406-417页）。斯普林格。
[75]	Vanschoren，J.（2010）。使用实验数据库了解机器学习性能鲁汶大学工程学院博士论文·Zbl 1211.68171号
[76]	Vanschoren，J；JN，Rijn；Bischl，B；Torgo，L，Openml：机器学习中的网络科学，SIGKDD Explorations，15，49-60，（2013）·数字对象标识代码：10.1145/2641190.2641198
[77]	Vapnik，V.N.（1995）。统计学习理论的本质纽约州纽约市：Springer-Verlag·Zbl 0833.62008号
[78]	Venables，W.N.和Ripley，B.D.（2002年）。现代应用统计学与S（第四版）。纽约州施普林格。http://www.stats.ox.ac.uk/pub/MASS4。国际标准图书编号0-387-95457-0·Zbl 1006.62003号
[79]	Villata，R.（1999）。通过概念表征和算法分析了解准确性性能。在关于元学习最新进展和未来工作的ICML-99研讨会会议记录（第3-9页）。
[80]	Villata，R.和Drissi，Y.（2002年）。分类中困难问题的表征。在M.A.Wani、H.R.Arabnia、K.J.Cios、K.Hafeez和G.Kendall（编辑）中，2002年机器学习和应用国际会议记录-ICMLA 2002，2002年6月24日至27日，内华达州拉斯维加斯（第133-138页）。
[81]	Wagstaff，K.（2012）。重要的机器学习.arXiv预打印arXiv:1206.4656
[82]	Weerawarana，S；霍斯蒂斯，英语；赖斯，JR；乔希，A；Houstis，CE，Pythia:选择科学算法的基于知识的系统，ACM数学软件交易（TOMS），22447-468，（1996）·Zbl 0884.65123号
[83]	雅罗，S；哈扎克，KA；塞茨，AR；Seriès，P，《神经地图中地形的检测和量化》，《公共科学图书馆·综合》，第9期，第1-14页，（2014年）·doi:10.1371/journal.pone.0087178
[84]	杨，W；威克曼，G；Holland，W，数据集中缺失值处理方法的调查：局限性和益处，工效学科学理论问题，12，15-43，（2011）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
数据传输时间	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	括号

示例

领域

操作员

机器学习分类的实例空间。（英语） Zbl 1457.68235号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

机器学习分类的实例空间。 （英语） Zbl 1457.68235号

MSC公司：

关键词：

软件：

参考文献：

机器学习分类的实例空间。（英语） Zbl 1457.68235号