×

核心集群是解决集群标签中噪声的工具。 (英语) 兹比尔07223593

摘要:现实世界数据集通常包含标签错误的实体。如果监督分类算法在其学习阶段使用数据集,这可能会特别成问题。在这种情况下,当应用于未标记数据时,这种分类算法的准确性可能会受到很大影响。本文介绍了一种基于聚类的方法,能够减少数据集中标记错误的实体的数量。我们的方法可以概括如下:(i)对数据集进行聚类;(ii)选择最有可能分配给正确集群的实体;(iii)使用先前步骤的实体来定义核心集群,并使用混淆矩阵将它们映射到标签;(iv)使用核心集群和我们的集群成员标准来更正其余实体的标签。我们使用(k)-最近邻分类器作为基准,进行了大量实验来验证我们的方法。我们使用不同比例的错误标记实体的合成数据集和真实数据集进行了实验。我们的实验表明,该方法产生了令人满意的结果。因此,它可以用作监督机器学习算法的预处理数据校正步骤。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Angluin博士。;Laird,P.,从噪声示例中学习,机器学习,2,4,343-370(1988)
[2] 阿伯莱茨,O。;古鲁特哈加,I。;穆盖尔扎,J。;佩雷斯,JM;Perona,I.,《集群有效性指数的广泛比较研究》,模式识别,46,1,243-256(2013)
[3] 球,GH;DJ Hall,《总结多元数据的聚类技术》,行为科学,12,2,153-155(1967)
[4] Bock,H-H,聚类分析中k-means算法的起源和扩展,《Electronique d'Historie des Probabilités et de la Statistique杂志》(概率统计历史电子杂志),4,2(2008)·Zbl 1175.01030号
[5] Bouveyron,C。;Girard,S.,《混合模型稳健监督分类:从标签不确定的数据中学习》,模式识别,42,11,2649-2658(2009)·Zbl 1175.68313号
[6] De Amorim,RC,《基于特征加权的K-Means算法调查》,《分类杂志》,33,2,210-242(2016)·兹比尔1349.62291
[7] 德阿莫林,RC;Makarenkov,V.,在具有分布质心的加权K-Means中应用子聚类和Lp距离,神经计算,173700-707(2016)
[8] 德阿莫林,RC;Mirkin,B.,Minkowski度量,k均值聚类中的特征加权和异常簇初始化,模式识别,45,3(2011)
[9] 弗莱奈,B。;Verleysen,M.,《标签噪声存在下的分类:调查》,IEEE神经网络和学习系统汇刊,25,5,845-869(2014)
[10] JH弗里德曼;本特利,JL;Finkel,RA,在对数期望时间内寻找最佳匹配的算法,ACM数学软件交易(TOMS),3,3,209-226(1977)·Zbl 0364.68037号
[11] Grira,N.、Crucianu,M.、Boujemaa,N..(2004年)。无监督和半监督聚类:简要调查。《处理多媒体内容的机器学习技术综述》,《肌肉欧洲卓越网络报告》(FP6),第1001-1030页。
[12] 盖恩,I。;Elisseeff,A.,《变量和特征选择简介》,《机器学习研究杂志》,31157-1182(2003)·Zbl 1102.68556号
[13] Hickey,RJ,《噪声建模和评估示例学习》,人工智能,82,1,157-179(1996)·Zbl 1506.68095号
[14] 休伯特,L。;Arabie,P.,比较分区,分类杂志,2,2,193-218(1985)
[15] Hughes,N.P.、Roberts,S.J.、Tarassenko,L.(2004)。心电图分割概率模型的半监督学习。收录于:医学和生物学会工程,2004年。IEMBS’04。IEEE第26届国际年会。第1卷。IEEE,第434-437页。
[16] Jain,A.、Jin,R.、Chitta,R.(2014)。半监督聚类。聚类分析手册,第1-35页。
[17] Jain,AK,《数据聚类:超越K-means 50年》,《模式识别字母》,31,8,651-666(2010)
[18] Jones,E.、Oliphant,T.、Peterson,P.等人(2001年)。SciPy:Python的开源科学工具。[在线;2016-11-28]。http://www.scipy.org/。
[19] Kaufman,L.和Rousseeuw,P.J.(1990年)。在数据中寻找群体:聚类分析简介。第39卷。威利在线图书馆·Zbl 1345.62009号
[20] Lichman,M.(2013)。UCI机器学习库。http://archive.ics.uci.edu/ml。
[21] Macqueen,J.等人(1967年)。多元观测值分类和分析的一些方法。收录于:第五届伯克利数学统计与概率研讨会论文集。第1卷。281-297. 美国加利福尼亚州,第14页·Zbl 0214.46201号
[22] Maletic,J.I.和Marcus,A.(2000年)。数据清理:超越完整性分析。摘自:《智商》,Citeser,第200-209页。
[23] 版本8.10.0(R2013a)。马萨诸塞州纳蒂克(2013):马萨诸塞州数学工程公司
[24] 米尔金,BG,《数据挖掘的聚类:数据恢复方法》,第3卷(2016年),博卡拉顿:CRC出版社,博卡拉通
[25] Orr,K.,《数据质量和系统理论》,ACM通信,41,2,66-71(1998)
[26] Pechenizkiy,M.、Tsymbal,A.、Puuronen,S.、Pechenizziy,O.(2006)。医学领域中的类噪声和监督学习:特征提取的效果。摘自:IEEE第19届基于计算机的医疗系统研讨会(CBMS’06)。IEEE,第708-713页·Zbl 1204.68159号
[27] 昆兰,JR,决策树归纳,机器学习,1,1,81-106(1986)
[28] R: 《统计计算的语言和环境》(2014),维也纳:R统计计算基金会,维也纳
[29] Redman,TC,《数据质量差对典型企业的影响》,《ACM的通信》,41,2,79-82(1998)
[30] Saeys,Y。;Inza,I。;Larrañaga,P.,《生物信息学中的特征选择技术综述》,生物信息学,23,19,2507-2517(2007)
[31] JA Saáez;加拉尔,M。;Luengo,J。;Herrera,F.,《分析多类问题中噪声的存在:用Onevs-One分解减轻其影响》,《知识与信息系统》,38,1,179-206(2014)
[32] Settles,B.,积极学习文献调查(1648),计算机科学技术报告:威斯康星大学,计算机科学技术报告
[33] Steinley,D.,K-means集群:半个世纪的综合,英国数学与统计心理学杂志,59,1,1-34(2006)
[34] Struyf,A。;休伯特,M。;Rousseeuw,P.,《面向对象环境中的聚类》,《统计软件杂志》,1,4,1-30(1997)
[35] Wishart,D.(1998)。克鲁斯坦。http://www.clustan.com网站/(2016年11月28日访问)。
[36] ZHU,X.,半监督学习文献调查。威斯康星大学麦迪逊分校计算机科学,2,3,4(2006)
[37] 朱旭。;WU,X.,《类噪声与属性噪声:定量研究》,《人工智能评论》,22,3,177-210(2004)·Zbl 1069.68587号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。