×

不完全数据的稳健K-Median和K-means聚类算法。 (英语) Zbl 1400.62133号

摘要:在聚类问题中,缺少特征值的不完整数据很常见。传统的聚类方法首先通过插补估计缺失值,然后对完整数据应用经典的聚类算法,如K-median和K-means。然而,在实际应用中,往往很难获得缺失值的准确估计,这会降低聚类的性能。为了增强聚类算法的鲁棒性,本文用区间数据表示缺失值,并引入鲁棒聚类目标函数的概念。为了提供对估计误差不敏感的聚类结果,提出了一种极大极小鲁棒优化(RO)公式。为了解决RO问题,我们提出了鲁棒的K-median和K-means聚类算法,具有较低的时间和空间复杂度。通过对人工生成的和真实世界不完全数据集的实验结果的比较和分析,验证了所提算法的鲁棒性和有效性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68分10秒 模式识别、语音识别

软件:

UCI-毫升;插补
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Marlin,B.M.,机器学习中的数据缺失问题[博士论文],(2008),加拿大多伦多:多伦多大学,加拿大多伦多
[2] Sebesyen,G.S.,模式识别中的决策过程。模式识别中的决策过程,ACM专题丛书,(1962)
[3] Dempster,A.P。;新墨西哥州莱尔德。;Rubin,D.B.,《通过EM算法从不完整数据中获取最大似然》,《皇家统计学会杂志:B辑(统计方法)》,39,1,1-38,(1977)·Zbl 0364.62022号
[4] Dixon,J.K.,部分缺失数据的模式识别,IEEE系统、人与控制论汇刊,9,10,617-621,(1979)·doi:10.1109/tsmc.1979.4310090
[5] Jain,A.K。;Dubes,R.C.,聚类数据算法,(1988),美国新泽西州恩格尔伍德悬崖:Prentice Hall,美国新泽西州恩格尔伍德悬崖·Zbl 0665.62061号
[6] 周,X。;赵,R。;余,F。;田宏,用于红外图像分割的直觉模糊熵聚类算法,《智能与模糊系统杂志》,30,3,1831-1840,(2016)·Zbl 1361.68285号
[7] Lai,H.P。;维萨尼,M。;Boucher,A。;Ogier,J.-M.,《用于大型图像数据库索引和检索的无监督和交互式半监督聚类》,《基础信息学》,130,2,201-218,(2014)·doi:10.333/fi-2014-998
[8] 张,L。;卢·W。;刘,X。;佩德里茨,W。;Zhong,C.,基于缺失值概率信息颗粒的不完全数据模糊C-均值聚类,基于知识的系统,99,51-70,(2016)·doi:10.1016/j.knosys.2016.01.048
[9] 俄勒冈州特罗扬斯卡娅。;康托,M。;Sherlock,G。;布朗,P。;哈斯蒂,T。;Tibshirani,R。;博茨坦,D。;Altman,R.B.,DNA微阵列缺失值估计方法,生物信息学,17,6,520-525,(2001)·doi:10.1093/bioinformatics/17.6.520
[10] 宫本茂,S。;O.高田。;Umayahara,K.,处理模糊c均值中的缺失值,第三届亚洲模糊系统研讨会论文集
[11] 阿库纳,E。;Rodriguez,C.,《缺失值的处理及其对分类器准确性的影响》,《分类、聚类和数据挖掘应用》,639-647,(2004),美国纽约州纽约市:Springer,纽约州纽约
[12] Farhangfar,A。;库根,L。;Dy,J.,缺失值插补对离散数据分类误差的影响,模式识别,41,12,3692-3705,(2008)·Zbl 1173.68479号 ·doi:10.1016/j.patcog.2008.05.019
[13] 萨拉瓦南,P。;Sailakshmi,P.,《使用支持向量回归和遗传算法优化的模糊可能性c均值进行缺失值插补》,《理论与应用信息技术杂志》,72,1,34-39,(2015)
[14] 哈撒韦·R·J。;Bezdek,J.C.,不完全数据的模糊C均值聚类,IEEE系统、人与控制论汇刊,B部分:控制论,31,5,735-744,(2001)·数字对象标识代码:10.1109/3477.956035
[15] 蒂姆·H。;Kruse,R.,缺失值的模糊聚类分析,北美模糊信息处理协会IEEE会议记录(NAFIPS’98)
[16] Shibayama,T.,《缺失值多元数据的类pca方法》,《日本教育心理学杂志》,40,2,257-265,(1992)
[17] 本田,K。;Ichihashi,H.,具有缺失值的线性模糊聚类技术及其在局部主成分分析中的应用,IEEE模糊系统汇刊,12,2183-193,(2004)·doi:10.1109/tfuzz.2004.825073
[18] 张德清。;Chen,S.-C.,使用基于核的模糊C-均值算法对不完整数据进行聚类,《神经处理快报》,18,3,155-162,(2003)·doi:10.1023/b:nepl.000001135.19145.1b
[19] 萨达基,M。;伊德托莫,I。;Katsuhiro,H.,模糊聚类算法:C-均值聚类方法及其应用,(2008),德国柏林:施普林格,德国柏林·Zbl 1147.68073号
[20] 李,D。;顾,H。;Zhang,L.,不完全数据基于最近邻区间的模糊c-均值聚类算法,应用专家系统,37,10,6942-6947,(2010)·doi:10.1016/j.eswa.2010.03.028
[21] 李,D。;顾,H。;Zhang,L.,基于最近邻区间的不完全数据聚类的混合遗传算法-模糊c-均值方法,软计算,17,10,1787-1796,(2013)·doi:10.1007/s00500-013-0997-7
[22] Wang,B.L。;张丽英。;张,L。;Bing,Z.H。;Xu,X.H.,用最近邻训练的BP进行模糊聚类的缺失数据插补,《信息与计算科学杂志》,11,15,5367-5375,(2014)·doi:10.12733/jics20104716
[23] 张,L。;Z·宾。;Zhang,L.,一种基于缺失属性区间估计的不完全数据混合聚类算法,模式分析与应用,18,2,377-384,(2015)·doi:10.1007/s10044-014-0376-8
[24] 柳叶刀,G。;Ghaoui,L.E。;巴塔查里亚,C。;Jordan,M.I.,Minimax概率机,神经信息处理系统进展,801-807,(2001)
[25] 黄,K。;Yang,H。;国王一世。;Lyu,M.R。;Chan,L.,最小误差极大概率机器,机器学习研究杂志,5,4,1253-1286,(2004)·Zbl 1222.62071号
[26] Wang,Y。;Zhang,Y。;Yi,J。;Qu,H。;Miu,J.,基于修正X ^2距离的稳健概率分类器,工程数学问题,2014,(2014)·Zbl 1407.62243号 ·doi:10.1155/2014/621314
[27] Song,S。;龚,Y。;Zhang,Y。;黄,G。;Huang,G.-B.,最小误差最小最大概率机降维,IEEE系统、人与控制论学报:系统,(2016)·doi:10.1109/tsmc.2016.2563395
[28] 特拉法利斯,T.B。;Gilbert,R.C.,分类和计算问题的鲁棒支持向量机,优化方法和软件,22,187-1988,(2007)·Zbl 1116.62070号 ·网址:10.1080/10556780600883791
[29] Xu,H。;Caramanis,C。;Mannor,S.,支持向量机的鲁棒性和正则化,机器学习研究杂志,101485-1510,(2009)·Zbl 1235.68209号
[30] Wang,Y。;Zhang,Y。;张,F。;Yi,J.,稳健二次回归及其在能源增长消费问题中的应用,工程数学问题,2013,(2013)·Zbl 1296.62142号 ·doi:10.115/2013/10510
[31] 德里尼亚斯,P。;弗里兹,A。;Kannan,R。;Vempala,S。;Vinay,V.,通过奇异值分解聚类大型图,机器学习,56,1-3,9-33,(2004)·Zbl 1089.68090号 ·doi:10.1023/b:mach.0000033113.59016.96
[32] 阿洛伊斯,D。;Deshpande,A。;Hansen,P。;Popat,P.,欧几里得平方和聚类的NP硬度,机器学习,75,2245-248,(2009)·Zbl 1378.68047号 ·doi:10.1007/s10994-009-5103-0
[33] 布鲁姆,M。;弗洛伊德·R·W。;普拉特,V。;Rivest,R.L。;Tarjan,R.E.,《选择的时间界限》,《计算机与系统科学杂志》,7,4,448-461,(1973)·Zbl 0278.68033号 ·doi:10.1016/s0022-0000(73)80033-9
[34] 哈撒韦·R·J。;Bezdek,J.C.,通过重新制定优化聚类标准,IEEE模糊系统汇刊,3,2,241-245,(1995)
[35] Lichman,M.,Uci Machine Learning Repository,(2015),美国加州欧文:美国加州大学信息与计算机科学学院
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。