×

数据复杂性的实例级分析。 (英语) Zbl 1469.62290号

摘要:大多数数据复杂性研究都侧重于表征整个数据集的复杂性,而没有提供有关单个实例的信息。了解哪些实例被错误分类,了解它们被错误分类的原因以及它们如何导致数据集复杂性,可以改进学习过程,并可以指导学习算法和数据分析方法的未来发展。本文的目标是通过识别和分析学习算法经常错误分类的实例,更好地理解机器学习问题中使用的数据,这些学习算法迄今已显示出实用性,并且在实践中常用。我们识别难以正确分类的实例(实例硬度)通过9种学习算法从64个数据集中对19万多个实例进行分类。然后,我们使用一组硬度度量来理解为什么某些实例比其他实例更难正确分类。我们发现类重叠是实例硬度的主要原因。我们试图将这些信息整合到培训过程中,以减轻课堂重叠的影响,并提出可以使用实例硬度来改进学习的方法。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abe,N。;Mamitsuka,H.,使用助推和打包的查询学习策略,1-9(1998)
[2] Abe,N。;扎德罗兹尼,B。;Langford,J.,《通过主动学习检测孤立点》,504-509(2006),纽约
[3] Barnett,V.和Lewis,T.(1978年)。统计数据中的异常值(第二版)。纽约:威利·Zbl 0377.62001
[4] 巴蒂斯塔,G.E.A.P.A.、普拉蒂,R.C.和莫纳德,M.C.(2004)。平衡机器学习训练数据的几种方法的行为研究。SIGKDD探索新闻稿,6(1),20-29·数字对象标识代码:10.1145/1007730.1007735
[5] Bennett,P.N.(2000年)。评估朴素贝叶斯后验估计值的校准(技术代表CMU-CS-00-155)。卡内基·梅隆大学。
[6] Braddil,P.、Giraud-Carrier,C.、Soares,C.和Villata,R.(2009年)。元学习:数据挖掘的应用。柏林:斯普林格·Zbl 1173.68625号
[7] Breunig,M.M.、Kriegel,H.P.、Ng,R.T.和Sander,J.(2000)。Lof:识别基于密度的局部异常值。SIGMOD记录,29(2),93-104·doi:10.1145/335191.335388
[8] Bridle,J.S.,前馈分类网络输出的概率解释,与统计模式识别的关系,227-236(1989),柏林
[9] Brighton,H.和Mellish,C.(2002年)。基于实例的学习算法实例选择的进展。数据挖掘与知识发现,6(2),153-172·Zbl 1027.68673号 ·doi:10.1023/A:1014043630878
[10] Brodley,C.E.和Friedl,M.A.(1999年)。识别标记错误的培训数据。《人工智能研究杂志》,第11期,第131-167页·Zbl 0924.68158号
[11] Brodley,C.E.和Utgoff,P.E.(1995年)。多元决策树。机器学习,19(1),45-77·Zbl 0831.68091号
[12] 达根,I。;Engelson,S.P.,基于委员会的概率分类器训练抽样,150-157(1995)
[13] 多明戈斯,P。;巴扎尼,M.J。;Saitta,L.(编辑),《超越独立性:简单贝叶斯分类器的优化条件》,105-112(1996),圣马特奥
[14] Frank,A.和Asuncion,A.(2010年)。UCI机器学习库。http://archive.ics.uci.edu/ml。
[15] 弗伦德,Y。;Schapire,R.E.,新增压算法的实验,148-156(1996)
[16] 弗伦德,Y。;Seung,H.S.公司。;沙米尔,E。;蒂什比,N.,《委员会的信息、预测和查询》,483-490(1992)
[17] Hall,M.、Frank,E.、Holmes,G.、Pfahringer,B.、Reutemann,P.和Witten,I.H.(2009)。weka数据挖掘软件:更新。SIGKDD探索新闻稿,11(1),10-18·数字对象标识代码:10.1145/1656274.1656278
[18] Ho,T.K.,&Basu,M.(2002)。监督分类问题的复杂性度量。IEEE模式分析和机器智能汇刊,24289-300·doi:10.1009/34.990132
[19] John,G.H.,《稳健决策树:从数据库中删除离群值》,174-179(1995)
[20] 克诺尔,E.M。;Ng,R.T.,寻找基于距离的离群值的内涵知识,211-222(1999)
[21] Kriegel,H.P。;科尔格,P。;舒伯特,E。;Zimek,A.,Loop:局部异常概率,1649-1652(2009)
[22] 克里格尔,H.P。;科尔格,P。;舒伯特,E。;Zimek,A.,解释和统一离群值得分,13-24(2011)
[23] Lee,J.和Giraud-Carrier,C.(2011年)。无监督的元学习指标。智能数据分析,15(6),827-841。
[24] 刘易斯,D.D。;Gale,W.A.,训练文本分类器的序列算法,3-12(1994)
[25] Mansilla,E.B。;Ho,T.K.,《关于能力的分类域》,第1期,136-139(2004)
[26] Mitchell,T.M.(1982)。概括为搜索。人工智能,18(2),203-226·doi:10.1016/0004-3702(82)90040-6
[27] Orriols-Puig,A.、Maciá,N.、Bernadó-Mansilla,E.和Ho,T.K.(2009)。C++中数据复杂性库的文档(Tech.Rep.2009001)。拉蒙·卢尔大学拉萨尔分校。
[28] 彼得森,A.H。;Martinez,T.R.,估计组合学习模型的潜力,68-75(2005)
[29] Platt,J.,支持向量机的概率输出以及与正则化似然方法的比较(2000)
[30] Quinlan,J.R.(1993)。C4.5:机器学习程序。圣马特奥:摩根·考夫曼。
[31] Salojärvi,J.、Puolamäki,K.、Simola,J.,Kovanen,L.、Kojo,I.和Kaski,S.(2005)。从眼球运动推断相关性:特征提取(技术代表A82)。赫尔辛基科技大学。
[32] Sayyad Shirabad,J.和Menzies,T.(2005年)。软件工程数据库的PROMISE存储库。加拿大渥太华大学信息技术与工程学院,http://promise.site.uottawa.ca/SERepository/。
[33] Scheffer,T。;装饰,C。;Wrobel,S.,信息提取的主动隐马尔可夫模型,309-318(2001),伦敦·Zbl 1029.68887号 ·数字对象标识代码:10.1007/3-540-44816-0_31
[34] 塞加塔,N。;E.布兰齐里。;坎宁安,P.,《大型案例系统的可扩展降噪技术》,328-342(2009)
[35] Settles,B.(2010年)。积极学习文献调查(技术代表计算机科学技术报告1648)。威斯康星大学麦迪逊分校。
[36] Seung,H.S.公司。;Opper,M。;Sompolinsky,H.,委员会质询,287-294(1992)·数字对象标识代码:10.1145/130385.130417
[37] M.R.史密斯。;Martinez,T.,通过识别和删除应被错误分类的实例来提高分类准确性,2690-2697(2011)
[38] Stiglic,G.和Kokol,P.(2009年)。GEMLer:基因表达机器学习库。http://gemler.fzv.uni-mb.si/。
[39] Thomson,K.和McQueen,R.J.(1996)。机器学习应用于14个农业数据集(技术报告96/18)。怀卡托大学。
[40] Tomek,I.(1976年)。使用编辑过的最近邻规则进行的实验。IEEE系统、人与控制论汇刊,6448-452·Zbl 0332.68081号 ·doi:10.1109/TSMC.1976.4309523
[41] Tong,S.和Koller,D.(2001)。支持向量机主动学习,并应用于文本分类。机器学习研究杂志,245-66·Zbl 1009.68131号
[42] Hulse,J。;Khoshgoftaar,T.M。;Napolitano,A.,从不平衡数据中学习的实验视角,935-942(2007),纽约
[43] Webb,G.I.(2000)。多重助推:一种结合助推和摆动的技术。机器学习,40(2),159-196·doi:10.1023/A:1007659514849
[44] Wolpert,D.H.(1996)。学习算法之间缺乏先验差异。神经计算,8(7),1341-1390·doi:10.1162/neco.1996.8.7.1341
[45] 扎德罗兹尼,B。;Elkan,C.,《成本和概率都未知时的学习和决策》,204-213(2001)
[46] 扎德罗兹尼,B。;Elkan,C.,《将分类器得分转化为准确的多类概率估计》,694-699(2002),纽约
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。