×

集成簇内和簇间信息的增强软子空间聚类。 (英语) Zbl 1187.68445号

摘要:虽然大多数软子空间聚类方法通常使用簇内信息来开发算法,但软子空间的聚类很少考虑簇间信息等其他重要信息。在本研究中,一种新的聚类技术称为增强软子空间簇(ESSC)通过同时使用簇内和类间信息提出。首先,通过在子空间中集成类内紧性和簇间分离,建立了一个新的优化目标函数。基于该目标函数,导出了相应的聚类更新规则,然后开发了新的ESSC算法。利用真实数据集和合成数据集(包括合成高维数据集、UCI基准数据集、高维癌症基因表达数据集和纹理图像数据集)对该算法的性能进行了研究和实验评估。实验研究表明,所提出的ESSC算法的准确性优于大多数现有的先进软子空间聚类算法。

理学硕士:

68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Jain,A。;Murty,M。;Flynn,P.,《数据聚类:综述》,ACM Compute。调查。,31, 264-323 (1999)
[2] 曹毅。;Wu,J.,高维空间中聚类数据集的投影ART,神经网络,15,105-120(2002)
[3] A.Hotho,A.Maedche,S.Staab,基于Ontology的文本文档聚类,收录于:《2001年国际JCAI文本学习研讨会论文集:超越监督》,2001年。;A.Hotho,A.Maedche,S.Staab,基于Ontology的文本文档聚类,收录于:《2001年IJCAI文本学习研讨会论文集:超越监督》,2001年·兹比尔1092.68667
[4] 帕森斯,L。;哈克,E。;Liu,H.,高维数据的子空间聚类:综述,SIGKDD Explorations,6,1,90-105(2004)
[5] R.Agrawal,J.Gehrke,D.Gunopulos,P.Raghavan,《数据挖掘应用中高维数据的自动子空间聚类》,载于《ACM SIGMOD国际数据管理会议论文集》,1998年,第94-105页。;R.Agrawal,J.Gehrke,D.Gunoplos,P.Raghavan,用于数据挖掘应用的高维数据的自动子空间聚类,载于:ACM SIGMOD国际数据管理会议论文集,1998年,第94-105页。
[6] C.H.Cheng,A.W.Fu,Y.Zhang,基于熵的子空间聚类挖掘数值数据,载《第五届ACM SIGKDD国际知识与数据挖掘会议论文集》,1999年,第84-93页。;C.H.Cheng,A.W.Fu,Y.Zhang,基于熵的子空间聚类挖掘数值数据,载《第五届ACM SIGKDD国际知识与数据挖掘会议论文集》,1999年,第84-93页。
[7] S.Goil,H.Nagesh,A.Choudhary,Mafia:超大数据集的高效可扩展子空间聚类,技术报告CPDC-TR-9906-010,西北大学,1999。;S.Goil,H.Nagesh,A.Choudhary,Mafia:超大数据集的高效可扩展子空间聚类,技术报告CPDC-TR-9906-010,西北大学,1999年。
[8] C.Aggarwal,C.Procopiuc,J.L.Wolf,P.S.Yu,J.S.Park,《预测聚类的快速算法》,载《ACM SIGMOD国际数据管理会议论文集》,1999年,第61-72页。;C.Aggarwal,C.Procopiuc,J.L.Wolf,P.S.Yu,J.S.Park,《预测聚类的快速算法》,载《ACM SIGMOD国际数据管理会议论文集》,1999年,第61-72页。
[9] C.C.Aggarwal,P.S.Yu,《在高维空间中发现广义投影簇》,载《ACM SIGMOD国际数据管理会议论文集》,2000年,第70-81页。;C.C.Aggarwal,P.S.Yu,《在高维空间中发现广义投影簇》,载《ACM SIGMOD国际数据管理会议论文集》,2000年,第70-81页。
[10] K.G.Woo,J.H.Lee,Findit:一种基于维度投票的快速智能子空间聚类算法,韩国高级科学技术研究院博士论文,2002。;K.G.Woo,J.H.Lee,Findit:一种使用维度投票的快速智能子空间聚类算法,韩国高级科学技术研究所博士论文,2002年。
[11] C.M.Procopiuc,M.Jones,P.K.Agarwal,T.M.Murali,《快速投影聚类的蒙特卡罗算法》,载于《ACM SIGMOD数据管理会议论文集》,2002年,第418-427页。;C.M.Procopiuc,M.Jones,P.K.Agarwal,T.M.Murali,《快速投影聚类的蒙特卡罗算法》,载《ACM SIGMOD数据管理会议论文集》,2002年,第418-427页。
[12] J.Yang,W.Wang,H.Wang,P.Yu,(δ);J.Yang、W.Wang、H.Wang、P.Yu、\(δ\)
[13] Yip,K.Y。;Cheung,D.W。;Ng,M.K.,实用投影聚类算法,IEEE Trans。知识。数据工程,16,11,1387-1397(2004)
[14] K.Chakrabarti,S.Mehrotra,局部降维:索引高维空间的新方法,收录于:《第26届超大数据库国际会议论文集》,2000年,第89-100页。;K.Chakrabarti,S.Mehrotra,局部降维:索引高维空间的新方法,收录于:《第26届超大数据库国际会议论文集》,2000年,第89-100页。
[15] De Soete,G.,超量和加性树聚类的最优变量权重,Qual。数量,20169-180(1986)
[16] De Soete,G.,OVWTRE:超量和加性树拟合的最优变量加权程序,J.分类,5101-104(1988)
[17] 马卡伦科夫,V。;Legendre,P.,《超度量树和加法树的最优变量加权和k-均值划分:方法和软件》,《分类杂志》,18,245-271(2001)·Zbl 1040.91087号
[18] 黄J.Z。;Ng,M.K。;荣,H。;Li,Z.,k-means类型聚类中的自动变量加权,IEEE Trans。模式分析。机器。智力。,27, 5, 657-668 (2005)
[19] Chan,Y。;Ching,W。;Ng,M.K。;Huang,J.Z.,使用加权相异度度量的聚类优化算法,模式识别,37,5943-952(2004)·Zbl 1072.68549号
[20] 弗里古伊,H。;Nasraoui,O.,原型和属性权重的无监督学习,模式识别,37,3,567-581(2004)
[21] 弗里古伊,H。;Nasraoui,O.,文本文档的同时聚类和动态关键词加权,(Berry,M.,文本挖掘调查(2004),施普林格:施普林格柏林),45-70
[22] C.Domeniconi,D.Papadopoulos,D.Gunopulos,S.Ma,《高维数据的子空间聚类》,载于《SIAM国际数据挖掘会议论文集》,2004年。;C.Domeniconi,D.Papadopoulos,D.Gunopulos,S.Ma,《高维数据的子空间聚类》,载《SIAM国际数据挖掘会议论文集》,2004年。
[23] 弗里德曼,J.H。;Meulman,J.J.,《属性子集上的聚类对象》,J.R.Stat.Soc.B,66,4,815-849(2004)·Zbl 1060.62064号
[24] L.Jing,M.K.Ng,J.Xu,J.Z.Huang,采用特征加权K-means算法的文本文档子空间聚类,载于:第九届亚太知识发现和数据挖掘会议论文集,2005年,第802-812页。;L.Jing,M.K.Ng,J.Xu,J.Z.Huang,采用特征加权K-means算法的文本文档子空间聚类,载于:第九届亚太知识发现和数据挖掘会议论文集,2005年,第802-812页。
[25] G.J.Gan,J.H.Wu,Z.J.Yang,用于聚类高维数据的模糊子空间算法,收录于:X.Li,O.Zaiane,Z.Li(编辑),《人工智能讲义》,第4093卷,Springer,柏林,2006年,第271-278页。;G.J.Gan,J.H.Wu,Z.J.Yang,用于聚类高维数据的模糊子空间算法,收录于:X.Li,O.Zaiane,Z.Li(编辑),《人工智能讲义》,第4093卷,施普林格,柏林,2006年,第271-278页。
[26] Gan,G.J。;Wu,J.H.,模糊子空间聚类(FSC)算法的收敛定理,模式识别,411939-1947(2008)·Zbl 1134.68488号
[27] Jing,L.P。;Ng,M.K。;Huang,Z.X.,高维稀疏数据子空间聚类的熵加权k-means算法,IEEE Trans。知识。数据工程,19,8,1026-1041(2007)
[28] 多梅尼科尼,C。;Gunopulos,D。;马,S。;Yan,B。;Al-Razgan,M。;Papadopoulos,D.,《聚类高维数据的局部自适应度量》,data Min.Knowl。《发现杂志》,第14卷,第63-97页(2007年)
[29] Wu,K.L。;Yu,J。;Yang,M.S.,一种基于模糊散布矩阵的新型模糊聚类算法,带优化测试,模式识别快报。,26, 5, 639-652 (2005)
[30] Leski,J.M.,走向稳健聚类,模糊集系统。,137, 2, 191-196 (2003)
[31] Wang,S.T。;Chung,F.L。;邓,Z.H。;胡德伟。;Wu,X.,带离群值标记的鲁棒最大熵聚类算法,软计算。,10, 7, 555-563 (2006) ·兹比尔1096.68728
[32] Vapnik,V.,《统计学习理论》(1998),威利出版社:威利纽约·Zbl 0935.62007号
[33] Yu,J。;Yang,M.S.,广义FCM的最优性检验及其在参数选择中的应用,IEEE Trans。模糊系统。,13, 1, 164-176 (2005)
[34] Yu,J。;程,Q.S。;Huang,H.K.,FCM中加权指数的分析,IEEE Trans。系统。,天啊,赛博-B部分:网络。,34, 1, 164-176 (2004)
[35] C.Domeniconi,M.Al-Razgan,加权集群系综:方法和分析,技术报告ISE-TR-07-06,2007年12月。;C.Domeniconi,M.Al-Razgan,加权簇群:方法和分析,技术报告ISE-TR-07-06,2007年12月。
[36] 刘杰。;J.穆罕默德。;Carter,J.,CGH数据的基于距离的聚类,生物信息学,22,161971-1978(2006)
[37] D.J.Newman、S.Hettich、C.L.Blake等人,加州大学欧文分校信息与计算机科学系UCI机器学习数据库库http://archive.ics.uci.edu/ml/; D.J.Newman、S.Hettich、C.L.Blake等人,加州大学欧文分校信息与计算机科学系UCI机器学习数据库库http://archive.ics.uci.edu/ml/
[38] Pomeroy,S.L.,《基于基因表达的中枢神经系统胚胎肿瘤预后预测》,《自然》,415436-442(2002)
[39] Welsh,J.B.,《基因表达分析确定前列腺癌的候选标记和药理靶点》,《癌症研究》,61,5974-5978(2001)
[40] Perou,C.M.,《人类乳腺肿瘤的分子肖像》,《自然》,406747-752(2000)
[41] Alizadeh,A.A.,通过基因表达谱确定的弥漫性大B细胞淋巴瘤的不同类型,《自然》,403,503-511(2000)
[42] Bhattacharjee,A.,通过mRNA表达谱对人类肺癌进行分类揭示了不同的腺癌亚类,Proc。美国国家科学院。科学。美国,98,13790-13795(2001)
[43] T.Randen,Brodatz纹理,〈网址:http://www.ux.uis.no/~tranden/brodatz.html;T.Randen,Brodatz纹理,〈网址:http://www.ux.uis.no/~tranden/brodatz.html
[44] 基尔基,V。;Kamarainen,J.K。;Kälviäinen,H.,用于不变目标识别的简单Gabor特征空间,模式识别快报。,25, 3, 311-318 (2004)
[45] Karypis,G。;Kumar,V.,《划分不规则图的快速高质量多级方案》,SIAM J.Sci。计算。,20, 1, 359-392 (1998) ·Zbl 0915.68129号
[46] A.Y.Ng,M.Jordan,Y.Weiss,《关于光谱聚类:分析和算法》,载于《NIPS学报》,2001年,第849-856页。;A.Y.Ng,M.Jordan,Y.Weiss,《关于光谱聚类:分析和算法》,载于《美国国立公共科学院院刊》,2001年,第849-856页。
[47] 达斯,S。;亚伯拉罕。;Konar,A.,《使用改进的差分进化算法进行自动聚类》,IEEE Trans。系统。,人类网络。,A部分,38,1,218-237(2008)
[48] Bezdek,J.C.(美国宾夕法尼亚州)。;哈撒韦·R·J。;萨宾,M.J。;Tucker,W.,《模糊c-均值的收敛理论:反例和修复》,IEEE Trans。系统。,人,赛博。,17, 5, 873-877 (1987) ·Zbl 0653.68091号
[49] E.P.Xing,A.Y.Ng,M.I.Jordan,S.J.Russell,《距离度量学习及其在附带信息聚类中的应用》,收录于《NIPS学报》,2003年,第505-512页。;E.P.Xing,A.Y.Ng,M.I.Jordan,S.J.Russell,《距离度量学习及其在附带信息聚类中的应用》,收录于《NIPS学报》,2003年,第505-512页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。