×

混合数据的模糊聚类。 (英语) Zbl 1456.62120号

摘要:提出了一种混合特征数据的模糊聚类模型。聚类模型允许考虑不同类型的变量或属性。这一结果是通过加权方案组合每个属性的不同度量来实现的,从而获得多个属性的距离度量。在优化过程中客观计算权重。权重反映了聚类结果中每个属性类型的相关性。进行了两次仿真研究和两次实证应用,结果表明,如果不采用多属性方法,所提出的聚类算法可以有效地找到隐藏的聚类。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62小时86 多元分析与模糊性
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 埃弗里特,B。;朗道,S。;Leese,M。;Stahl,D.,《聚类分析》(2011),John Wiley&Sons,Ltd:伦敦John Willey&Sons有限公司·Zbl 1274.62003年
[2] D’Urso,P.,《模糊聚类》(Hennig,C.;Meila,M.;Murtagh,F.;Rocci,R.,《聚类分析手册》(2015),查普曼和霍尔),545-573·Zbl 1396.62161号
[3] Caiado,J。;Maharaj,E。;D’Urso,P.,《时间序列聚类》(Hennig,C.;Meila,M.;Murtagh,F.;Rocci,R.,《聚类分析手册》(2015),查普曼和霍尔),241-263·Zbl 1396.62196号
[4] Huang,Z.,用分类值聚类大数据集的k-means算法的扩展,data Min.Knowl。发现。,2, 3, 283-304 (1998)
[5] 黄,Z。;Ng,M.K.,分类数据聚类的模糊K模式算法,IEEE Trans。模糊系统。,7, 4, 446-452 (1999)
[6] Ng,M.K。;Li,M.J。;黄J.Z。;He,Z.,《关于k模式聚类算法中不同度量的影响》,IEEE Trans。模式分析。机器。整数。,29, 3, 503-507 (2007)
[7] 曹,F。;梁,J。;李,D。;Bai,L。;Dang,C.,k模式聚类算法的差异性度量,Knowl-基于系统。,26, 120-127 (2012)
[8] Maharaj,E.A。;D’Urso,P.,频域时间序列的模糊聚类,信息科学。,181, 7, 1187-1211 (2011) ·Zbl 1215.62061号
[9] D’Urso,P。;Di Lallo博士。;Maharaj,E.A.,基于自回归模型的模糊聚类及其在空气污染监测网络信息冗余检测中的应用,软计算。,17, 1, 83-131 (2013)
[10] D’Urso,P。;De Giovanni,L。;Massari,R.,多元时间轨迹的稳健模糊聚类,国际期刊近似推理。,99, 12-38 (2018) ·Zbl 1453.62540号
[11] Kim,D.-W。;Lee,K.H。;Lee,D.,使用模糊质心对分类数据进行模糊聚类,模式识别。莱特。,25, 11, 1263-1271 (2004)
[12] Bai,L。;梁,J。;Dang,C.,一种同时找到初始聚类中心和聚类类别数据的簇数的初始化方法,Knowl-基于系统。,24785-795(2011年)
[13] D’Urso,P。;Massari,R.,人类活动模式的模糊聚类,模糊集系统。,215, 29-54 (2013)
[14] Pham,D.L.,模糊聚类的空间模型,计算。视觉。图像理解。,84, 2, 285-297 (2001) ·Zbl 1033.68612号
[15] Disegna,M。;D’Urso,P。;Durante,F.,基于Copula的空间时间序列模糊聚类,Spat。Stat.,21,209-225(2017)
[16] D’Urso,P。;乔瓦尼,L.D。;Disegna,M。;Massari,R.,具有时空信息的模糊聚类,Spat。统计,30,71-102(2019)
[17] De Carvalho,F.d.A。;Tenório,C.P.,基于自适应二次距离的区间值数据模糊K-means聚类算法,模糊集系统。,161, 23, 2978-2999 (2010) ·Zbl 1204.62106号
[18] D’Urso,P。;Leski,J.M.,区间值数据的模糊c序中值聚类,模式识别。,58, 49-67 (2016)
[19] D’Urso,P。;马萨里,R。;De Giovanni,L。;Cappelli,C.,区间值数据的基于指数距离的模糊聚类,模糊优化。Decis公司。制造商。,16, 1, 51-70 (2017) ·Zbl 1428.62306号
[20] 科皮,R。;D’Urso,P。;Giordani,P.,模糊数据的模糊和可能性聚类,计算。统计数据分析。,56, 4, 915-927 (2012) ·Zbl 1243.62089号
[21] D’Urso,P。;De Giovanni,L.,不精确数据的稳健聚类,化学。智力。实验室系统。,136, 58-80 (2014)
[22] 邓,J。;胡,J。;Chi,H。;Wu,J.,文本挖掘的改进模糊聚类方法,2010年第二届网络安全、无线通信和可信计算国际会议,65-69(2010),IEEE
[23] Nguyen,X。;Gelfand,A.E.,聚类函数数据的狄利克雷标记过程,中国统计,1249-1289(2011)·兹比尔1223.62104
[24] Kesems,O。;特泽尔。;Ùzkul,E.,定向数据的模糊c均值聚类算法(FCM4DD),专家系统。申请。,58, 76-82 (2016)
[25] 刘杰,检测复杂网络的模糊聚类,模式识别。,43, 4, 1334-1345 (2010) ·Zbl 1192.68589号
[26] 徐,C.-C。;林,S.-H。;Tai,W.-S.,应用扩展自组织映射对混合类型数据进行聚类和分类,神经计算,74,18,3832-3842(2011)
[27] Guha,S。;Rastogi,R。;Shim,K.,ROCK:分类属性的稳健聚类算法,数据工程,1999年。诉讼程序。,IEEE第15届国际会议,512-521(1999)
[28] Dougherty,J。;Kohavi,R。;Sahami,M.,《连续特征的监督和非监督离散化》,《机器学习学报》1995,194-202(1995),Elsevier
[29] 伊奇诺,M。;Yaguchi,H.,混合特征类型数据分析的广义minkowski度量,IEEE Trans。系统。人类网络。,24, 4, 698-708 (1994) ·Zbl 1371.68235号
[30] Foss,A。;马尔卡图,M。;雷,B。;Heching,A.,混合数据聚类的半参数方法,马赫。学习。,105, 3, 419-458 (2016) ·Zbl 1432.62182号
[31] Gower,J.C.,《一般相似系数及其某些特性》,《生物计量学》,857-871(1971)
[32] Huang,Z.,用混合数值和分类值聚类大型数据集,第一届亚太知识发现和数据挖掘会议论文集,(PAKDD),21-34(1997)
[33] 艾哈迈德。;Dey,L.,混合数字和类别数据的k-mean聚类算法,data Knowl。工程,63,2,503-527(2007)
[34] 梁,J。;X.赵。;李,D。;曹,F。;Dang,C.,使用混合数据的信息熵确定簇数,模式识别。,45, 6, 2251-2265 (2012) ·Zbl 1234.68343号
[35] 季军(Ji,J.)。;Bai,T。;周,C。;马,C。;Wang,Z.,一种用于混合数字和类别数据的改进k-原型聚类算法,神经计算,120590-596(2013)
[36] 季军(Ji,J.)。;庞,W。;周,C。;韩,X。;Wang,Z.,用于混合数字和分类数据的模糊k-原型聚类算法,Knowl-基于系统。,30, 129-135 (2012)
[37] 卢,Y。;卢,S。;Fotouhi,F。;邓,Y。;Brown,S.J.,FGKA:一种快速遗传k-means聚类算法,2004年ACM应用计算研讨会论文集,622-623(2004),ACM
[38] 罗伊·D·K。;Sharma,L.K.,《混合数值和类别数据集的遗传K-means聚类算法》,国际期刊Artif。智能。申请。,1, 2, 23-28 (2010)
[39] 杨,M。;Hwang,P。;陈,D.,混合特征变量的模糊聚类算法,模糊集系统。,141, 2, 301-317 (2004) ·Zbl 1137.62350号
[40] El-Sonbaty,Y。;Ismail,M.A.,符号数据的模糊聚类,IEEE Trans。模糊系统。,6, 2, 195-204 (1998)
[41] 哈撒韦·R·J。;Bezdek,J.C。;Pedrycz,W.,融合异质模糊数据的参数模型,IEEE Trans。模糊系统。,4, 3, 270-281 (1996)
[42] Everitt,B.S.,混合模式数据聚类的有限混合模型,Stat.probab。莱特。,6, 5, 305-309 (1988)
[43] Fisher,D.H.,通过增量概念聚类获取知识,马赫。学习。,2, 2, 139-172 (1987)
[44] 麦库西克,K。;汤普森,K.,《Cobweb/3:便携式实现》,《技术报告》(1990年),NASA艾姆斯研究中心
[45] Ralambondemain,H.,K-means算法的概念版本,模式识别。莱特。,1147-1157年11月16日(1995年)
[46] 李,C。;Biswas,G.,混合数字和标称数据的无监督学习,IEEE Trans。知识。数据工程,14,4,673-690(2002)
[47] 安东尼,L。;克拉奇,S。;克里德洛,俄勒冈州。;马塞克,B。;Pisková,L.,关于异质形式背景,模糊集系统。,234, 22-33 (2014) ·Zbl 1315.68232号
[48] 李,M。;Pedrycz,W.,《具有模糊p-模式原型的模糊c-means算法用于具有混合特征的聚类对象》,模糊集系统。,160, 24, 3590-3600 (2009) ·Zbl 1185.68601号
[49] 亨特,L。;Jorgensen,M.,聚类混合数据,Wiley Interdiscip。版次:1、4、352-361(2011)
[50] 徐,C.-C。;Lin,S.-H.,通过扩展自组织映射对混合数字和分类数据进行可视化分析,IEEE Trans。神经网络。学习。系统。,2012年1月23日,72-86
[51] Hennig,C。;Liao,T.F.,《如何为混合型变量找到合适的聚类并应用于社会经济分层》,J.R.Stat.Soc.Ser。C(应用统计),62,3,309-369(2013)
[52] 阿凯。;Yüksel,G.,使用Gower距离和k原型算法对混合面板数据集进行聚类,Commun。统计-模拟。计算。,1-11 (2017)
[53] 考夫曼,L。;Rousseeuw,P.,《在数据中发现群体:聚类分析简介》(2005年),WileyBlackwell
[54] Gordon,A.D.,《分类》(Chapman&Hall/CRC统计学与应用概率专著)(1999年),Chapman and Hall/CCR·Zbl 0929.62068号
[55] Fu,K。;Albus,J.,句法模式识别(1977),Springer-Verlag·Zbl 0356.68096号
[56] Krishnapuram,R。;Joshi,A。;O.Nasraoui。;Yi,L.,用于web挖掘的低复杂度模糊关系聚类算法,IEEE Trans。模糊系统。,9, 4, 595-607 (2001)
[57] D’Urso,P。;Maharaj,E.,基于自相关的时间序列模糊聚类,模糊集系统。,160, 24, 3565-3589 (2009)
[58] 科尔多瓦,M。;Piccolo,D.,通过自回归度量进行时间序列聚类和分类,计算。统计数据分析。,52, 4, 1860-1872 (2008) ·Zbl 1452.62624号
[59] Maharaj,E.A。;D’Urso,P。;Galagedera,D.U.,时间序列的基于小波的模糊聚类,经典分类。,27, 2, 231-275 (2010) ·Zbl 1337.62307号
[60] 伯恩特·D·J。;Clifford,J.,《使用动态时间扭曲发现时间序列中的模式》,《AAAI-94数据库知识发现研讨会论文集》,359-370(1994)
[61] Sokal,R.R.,《评估系统关系的统计方法》,堪萨斯大学科学院。公牛。,28, 1409-1438 (1958)
[62] Eskin,E。;阿诺德,A。;普雷罗,M。;波特诺伊,L。;Stolfo,S.,无监督异常检测的几何框架,数据挖掘在计算机安全中的应用,77-101(2002),Springer
[63] Karney,C.F.,《测地线算法》,J.Geod。,87, 1, 43-55 (2013)
[64] Hamming,R.,错误检测和纠错码,贝尔系统。《技术期刊》,29,2147-160(1950)·Zbl 1402.94084号
[65] Levenshtein,V.,《能够纠正删除、插入和反转的二进制代码》,《苏联物理学》。道克。,10, 707-710 (1966) ·Zbl 0149.15905号
[66] Kruskal,J.,《序列比较概述》(Sankoff,D.;Kruskar,J.《时间扭曲、字符串编辑和大分子:序列比较的理论和实践》(1983),Addison-Wesley出版公司:Addison-Whesley出版公司Reading,MA),1-44
[67] 杨,M。;Ko,C.,关于模糊数据的一类模糊(C)数聚类过程,模糊集系统。,84, 1, 49-60 (1996) ·Zbl 0906.68136号
[68] D’Urso,P。;Giordani,P.,模糊数据的加权模糊c-均值聚类模型,计算。统计数据分析。,50, 6, 1496-1523 (2006) ·Zbl 1445.62157号
[69] D’Urso,P。;Giordani,P.,区间值数据主成分分析的最小二乘法,化学。智力。实验室系统。,70, 2, 179-192 (2004)
[70] Gowda,K.C。;Diday,E.,使用新的差异性度量的符号聚类,模式识别。,24, 6, 567-578 (1991)
[71] Yeung,D.S。;Wang,X.,通过特征权重学习提高基于相似性聚类的性能,IEEE Trans。模式分析。机器。整数。,24, 4, 556-561 (2002)
[72] 谢晓乐。;Beni,G.,模糊聚类的有效性度量,IEEE Trans。模式分析。机器。整数。,1841-847(1991年)
[73] 坎佩罗,R.J。;Hruschka,E.R.,用于聚类分析的轮廓宽度标准的模糊扩展,模糊集系统。,157, 21, 2858-2875 (2006) ·Zbl 1103.68674号
[74] Hüllermier,E。;里夫奇,M。;Henzgen,S。;Senge,R.,《比较模糊划分:兰德指数和相关测度的推广》,模糊系统。IEEE传输。,20, 3, 546-556 (2012)
[75] 休伯特,L。;Arabie,P.,比较分区,J.Classif。,2, 1, 193-218 (1985)
[76] Hair,J.F。;安德森·R·E。;塔塔姆,R.L。;Black,W.C.,《多元数据分析》(1998年),Upper Saddle River
[77] D’Urso,P。;De Giovanni,L。;Disegna,M。;Massari,R.,Bagged聚类及其在旅游市场细分中的应用,专家系统。申请。,40, 12, 4944-4956 (2013)
[78] D’Urso,P。;Disegna,M。;马萨里,R。;Osti,L.,《后现代游客的模糊分割》,《旅游》。管理。,55, 297-308 (2016)
[79] Szepannek,G.,clustMixType:k原型混合变量类型数据聚类(2018),R包版本0.1-36
[80] Foss,A.H。;Markatou,M.,kamila:R和Hadoop中混合类型数据的聚类,J.Stat.Softw。,83, 1, 1-44 (2018)
[81] 韦登菲尔德,A。;巴特勒,R.W。;威廉姆斯,A.M.,《旅游景点之间的集群和兼容性》,国际旅游杂志。第12、1、1-16号决议(2010年)
[82] 韦登菲尔德,A。;威廉姆斯,A.M。;Butler,R.W.,《景点间的知识转移和创新》,Ann.Tour。第37、3、604-626号决议(2010年)
[83] Izakian,H。;佩德里茨,W。;Jamal,I.,使用动态时间扭曲距离对时间序列数据进行模糊聚类,工程应用。Artif公司。整数。,39235-244(2015年)
[84] Tenenbaum,J.B。;德席尔瓦,V。;Langford,J.C.,《非线性降维的全球几何框架》,《科学》,29055002319-2323(2000)
[85] Hijmans,R.J.,《地球圈:球面三角学》(2017),R包版本1.5-7
[86] 鲍里亚,S。;V·钱多拉。;Kumar,V.,《分类数据的相似性度量:比较评估》,《2008年SIAM国际数据挖掘会议论文集》,243-254(2008),SIAM
[87] Goodall,D.W.,基于概率的新相似性指数,生物统计学,882-907(1966)
[88] D’Urso,P。;Giordani,P.,区间值数据的稳健模糊k-均值聚类模型,计算。统计,21,2,251-269(2006)·Zbl 1113.62076号
[89] Pittau,M.G。;马萨里,R。;Zelli,R.,《再分配偏好差异的层次模型》,牛津公牛出版社。经济。《法律总汇》第75、4、556-584页(2013年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。