×

集群稳定性的统计模型。 (英语) Zbl 1138.68519号

总结:我们提出了一种评估集群稳定性的方法。该方法与聚类算法相结合,可以得到数据分区的估计值,即聚类数。我们采用集群稳定性的观点,将集群想象为“低”密度海洋中的“高”密度岛屿。显然,集群与其高密度核心相关。我们的方法通过整个集群及其核心之间的相似性来评估集群的优缺点。我们建议通过两个样本测试或适当概率分布之间的概率距离来测量这种相似性。根据两种不同的分布,根据从源种群中提取的聚类样本计算距离。
第一定律是基本的集合分布。第二定律的构造是为了表示星系团的核心。这里,应用了(k)-最近邻密度估计的变体,因此属于核心的项目有更高的被选择的机会。由于样本分布未知,需要进行无分布双样本测试来检查上述对应关系。为了构造这样的测试,我们使用了建立在负定核上的距离函数。在实践中,样本中的离群值和聚类算法的局限性严重影响了噪声水平。
由于这一缺点,必须确定多对样本的距离值,从而获得经验距离分布。分布取决于检查的簇数。为了防止这种属性对结果产生偏差,我们对距离进行了规范化。据推测,真实的簇数会产生最集中的归一化分布。为了测量浓度,我们使用样本平均值和样本25%。本文展示了该方法在合成数据和真实数据上的良好性能。

MSC公司:

68吨10 模式识别、语音识别

软件:

群集查找
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Jain,A。;Dubes,R.,《聚类数据算法》(1988),Prentice Hall:Prentice Hall Englewood Cliffs,NJ·Zbl 0665.62061号
[2] Gordon,A.D.,Classification(1999),查普曼和霍尔,CRC:查普曼和霍尔,CRC博卡拉顿,佛罗里达州·Zbl 0929.62068号
[3] Chakravarthy,S.V。;Ghosh,J.,使用径向基函数网络的基于尺度的聚类,IEEE Trans。神经网络,7,5,1250-1261(1996)
[4] Dunn,J.C.,《分离良好的簇和最优模糊划分》,J.Cybern。,4, 95-104 (1974) ·Zbl 0304.68093号
[5] 休伯特,L。;Schultz,J.,二次分配作为一种通用的数据分析策略,Br.J.数学。统计心理学。,76, 190-241 (1974) ·Zbl 0356.92027号
[6] 卡林斯基,R。;Harabasz,J.,用于聚类分析的树枝晶方法,Commun。统计,3,1-27(1974)·Zbl 0273.62010
[7] Hartigan,J.,《聚类中的统计理论》,J.分类,263-76(1985)·Zbl 0575.62058号
[8] Krzanowski,W。;Lai,Y.,《使用平方和聚类确定数据集中组数的标准》,《生物统计学》,44,23-34(1985)·Zbl 0707.62122号
[9] 糖,C。;James,G.,《发现数据集中的簇数:信息论方法》,美国统计协会,98,750-763(2003)·Zbl 1046.62064号
[10] Gordon,A.D.,《在分类中识别真正的集群》,计算。统计数据分析。,18, 561-581 (1994) ·Zbl 0825.62536号
[11] 米利根,G。;Cooper,M.,《确定数据集中簇数的程序检查》,《心理测量学》,第50期,第159-179页(1985年)
[12] 蒂布希拉尼,R。;Walther,G。;Hastie,T.,《通过间隙统计估算集群数量》,J.R.Stat.Soc.B,63,2,411-423(2001)·Zbl 0979.62046号
[13] Cheng,R。;Milligan,G.W.,《在聚类分析中测量单个数据点的影响》,J.Classification,13,315-335(1996)·Zbl 1059.62554号
[14] 莱文,E。;Domany,E.,无监督估计聚类有效性的重采样方法,神经计算。,13, 2573-2593 (2001) ·Zbl 0993.68113号
[15] Ben-Hur,A。;Elisseeff,A。;Guyon,I.,一种基于稳定性的集群数据结构发现方法,(太平洋生物计算研讨会(2002)),6-17
[16] 本·赫尔,A。;Guyon,I.,使用主成分分析检测稳定簇,(Brownstein,M.J.;Kohodursky,A.,分子生物学方法(2003),Humana出版社),159-182
[17] Mufti,G.B。;Bertrand,P。;El Moubarki,L.,《根据聚类有效性度量确定群体数量》(ASMDA2005(2005)会议记录),404-414
[18] Dudoit,S。;Fridlyand,J.,估算数据集中簇数的基于预测的重采样方法,基因组生物学。,3, 7 (2002)
[19] V.Roth,V.Lange,M.Braun,J.Buhmann,聚类验证的重新采样方法,载于:COMPSTAT,2002,可在\(\langle;\)网址:http://www.cs.uni-bonn.De/\(\sim;\rangle;\);V.Roth,V.Lange,M.Braun,J.Buhmann,《集群验证的重采样方法》,载于:COMPSTAT,2002年,在线阅读网址:http://www.cs.uni-bonn.De/\(\sim;\rangle;\)
[20] 罗斯,V。;兰格,V。;布朗,M。;Buhmann,J.,基于稳定性的聚类解决方案验证,神经计算。,16, 6, 1299-1323 (2004) ·Zbl 1089.68100号
[21] 兰格,T。;罗斯,V。;布劳恩,L.M。;Buhmann,J.M.,基于稳定性的聚类解决方案验证,神经计算。,16, 6, 1299-1323 (2004) ·Zbl 1089.68100号
[22] Jain,A.K。;Moreau,J.V.,聚类分析中的Bootstrap技术,模式识别,20,5,547-568(1987)
[23] 蒂布希拉尼,R。;Walther,G.,《预测强度的聚类验证》,J.Compute。图形统计,14,3,511-528(2005)
[24] Wishart,D.,《模式分析:减少连锁效应的最近邻的概括》(Numer.Taxon.(1969)),282-311
[25] Hartigan,J.A.,《聚类算法》(1975),威利出版社:威利纽约·Zbl 0321.62069号
[26] Hartigan,J.A.,《高密度集群的单一连锁一致性》,美国统计协会,76,388-394(1981)·Zbl 0468.62053号
[27] Cuevas,A。;费布雷罗,M。;Fraiman,R.,《估算簇数》,加拿大。《统计杂志》,28,2,367-382(2000)·Zbl 0981.62054号
[28] Cuevas,A。;费布雷罗,M。;Fraiman,R.,《聚类分析:基于密度估计的进一步方法》,计算。统计数据分析。,28, 441-459 (2001) ·Zbl 1053.62537号
[29] Stuetzle,W.,通过分析样本的最小生成树来估计密度的聚类树,J.分类,20,5,25-47(2003)·Zbl 1055.62075号
[30] 泽奇,G。;Aslan,B.,基于最小能量概念的多元双样本问题的新检验,J.Stat.Comput。模拟,75,2,109-119(2005)·Zbl 1096.62037号
[31] 巴林豪斯,L。;Franz,C.,《关于一种新的多元双样本检验》,J.multivariate Anal。,88, 1, 190-206 (2004) ·Zbl 1035.62052号
[32] 津格,A.A。;Kakosyan,A.V。;Klebanov,L.B.,通过统计平均值与一些概率度量相关的分布特征,(随机模型的稳定性问题,VNIISI(1989)),47-55·Zbl 1267.60014号
[33] L.Klebanov,《一类无分布多元检验》,圣彼得堡数学学会,预印本,2003(03),2003。;L.Klebanov,《一类无分布多元检验》,圣彼得堡数学学会,预印本,2003(03),2003。
[34] Klebanov,L.B.,《(N)-距离及其应用》,布拉格夏塞尔大学(2005),卡罗林出版社
[35] 肖尔科夫,B。;Smola,A.J.,《与内核一起学习》(2002),麻省理工学院出版社:麻省理学院出版社,剑桥
[36] A.K.Jain,X.Xu,T.K.Ho,F.Xiao,使用最小生成树进行均匀性测试,in:第十六届国际模式识别会议(ICPR’02),04:402812002。;A.K.Jain,X.Xu,T.K.Ho,F.Xiao,使用最小生成树进行均匀性测试,in:第十六届国际模式识别会议(ICPR’02),04:402812002。
[37] 麦克拉克伦,G.J。;Peel,D.,有限混合模型(2000),Wiley:Wiley纽约·Zbl 0963.62061号
[38] Celeux,G。;Govaert,G.,分类EM算法和两个随机版本,计算。统计数据分析。,14, 315-332 (1992) ·Zbl 0937.62605号
[39] Forgy,E.W.,多元数据效率与分类可解释性的聚类分析,生物统计学,21,3,768(1965)
[40] Macqueen,J.B.,《多元观测分类和分析的一些方法》,(第五届伯克利数理统计与概率研讨会论文集,第1卷(1967),加利福尼亚大学出版社:加利福尼亚大学出版社伯克利分校),281-297·Zbl 0214.46201号
[41] Mardia,J。;肯特,K。;Bibby,J.,多元分析(1979),学术出版社:圣地亚哥学术出版社·Zbl 0432.62029号
[42] Rand,W.,《聚类方法评估的客观标准》,美国统计协会,66,846-850(1971)
[43] Fowlkes,E.W。;Mallows,C.L.,《比较两个层次聚类的方法》,《美国统计协会期刊》,第78期,第553-584页(1983年)·Zbl 0545.62042号
[44] Kuhn,H.,分配问题的匈牙利方法,海军后勤研究Q.,283-97(1955)·Zbl 0143.41905号
[45] Minaei-Bidgoli,B。;Topchy,A.P。;Punch,W.F.,通过数据重采样的分区集合,(ITCC(2)(2004)),188-192
[46] Duran,B.S.,《非参数尺度检验调查》,Commun。统计理论方法,51287-1312(1976)·兹比尔0362.62044
[47] 科诺弗,W.J。;Johnson,医学博士。;Johnson,M.M.,方差齐性检验的比较研究,及其在外大陆架投标数据中的应用,技术计量学,23,351-361(1981)
[48] 弗里德曼,J.H。;拉夫斯基,L.C.,沃尔福威茨和斯米尔诺夫双样本检验的多元推广,《美国统计年鉴》,第7697-717页(1979年)·Zbl 0423.62034号
[49] Henze,N.,基于最近邻型重合数的多元双样本检验,《美国统计年鉴》,16772-783(1988)·Zbl 0645.62062号
[50] Klebanov,L。;科祖博夫斯基,T。;Rachev,S。;Volkovich,V.,关于一组变换对称分布的表征和相应统计假设的测试,Stat.Prob。莱特。,53, 241-247 (2001) ·Zbl 0982.62054号
[51] 亚利桑那州Belopolskaya。;Klebanov,L。;Volkovich,V.,椭圆分布的特征,J.Math。科学。,127, 1, 1682-1686 (2005) ·Zbl 1120.62034号
[52] D.Haussler,离散结构上的卷积核。加州大学圣克鲁斯分校计算机科学系UCSC-CRL-9910技术报告,1999年。;D.Haussler,离散结构上的卷积核。加州大学圣克鲁斯分校计算机科学系UCSC-CRL-9910技术报告,1999年。
[53] Akhiezer,N.,《经典力矩问题和分析中的一些相关问题》(1965年),哈夫纳出版公司:纽约哈夫纳出版社·Zbl 0135.33803号
[54] Linnik,Y。;Ostrovskii,J.,随机变量和向量的分解(1977),美国数学学会:美国数学学会普罗维登斯,RI·Zbl 0358.60020号
[55] Volkovich,V.,《从广义函数的观点看Levy-Khintchine公式》,(第二十四届随机模型稳定性问题国际研讨会论文集,第二十四届国际随机模型稳定性研究会论文集,拉脱维亚朱马拉(2004年9月10日至17日)),74-76
[56] Lukacs,E.,特征函数(1970),格里芬:格里芬伦敦·Zbl 0201.20404号
[57] 杜达,P.O。;哈特,体育。;Stork,D.G.,《模式分类》(2001),威利出版社:威利纽约·Zbl 0968.68140号
[58] 迪伦,I.S。;Modha,D.S.,使用聚类对大型稀疏文本数据进行概念分解,Mach。学习。,42,1,143-175(2001),另见IBM研究报告RJ 101471999年7月·Zbl 0970.68167号
[59] Kogan,J。;尼古拉斯,C。;Volkovich,V.,《使用混合聚类方案进行文本挖掘》(Berry,M.W.;Pottenger,W.M.,《文本挖掘研讨会论文集》(与第三届SIAM国际数据挖掘会议联合举行)(2003年),5-16
[60] Kogan,J.等人。;尼古拉斯,C。;Volkovich,V.,《信息理论聚类的文本挖掘》,(科学与工程计算(2003年11月/12月),52-59
[61] Kogan,J。;特布尔,M。;Nicholas,C.,《生成类(k)均值算法族的优化方法》(Dhillon,I.;Kogan,J.,《聚类高维数据及其应用研讨会论文集》(与第三届SIAM国际数据挖掘会议联合举行)(2003年))
[62] Volkovich,V。;Kogan,J。;Nicholas,C.,\(k\)-意味着通过采样大型数据集进行初始化,(Dhillon,I.;Kogan,J.,聚类高维数据及其应用研讨会论文集(与SDM 2004联合举行)(2004)),17-22
[63] 迪尔隆,I。;Kogan,J。;Nicholas,C.,《特征选择和文档聚类》(Berry,M.,文本挖掘综合调查(2003),Springer:Springer Berlin,Heildelberg,New York),73-100
[64] Diaconis,P。;Freedman,D.,《图形投影追踪的渐近》,《Ann.Stat.》,12793-815(1984)·Zbl 0559.62002号
[65] 内部人,N。;库珀,L.,视觉皮层可塑性BCM理论的目标函数公式,神经网络,5,3-17(1992)
[66] 考夫曼,L。;Rousseeuw,P.J.,《在数据中发现群体:聚类分析导论》(1990),威利:威利纽约·Zbl 1345.62009号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。