×

聚类分析中使用的一系列相似指数的均值和方差。 (英语) Zbl 1191.62111号

总结:A.N.奥尔巴蒂纳等[J.Classic.23,301–313(2006)]引入了一系列相似性指数。这个家族的成员是匹配计数矩阵\([m_{ij}]\)的线性函数,其中\(m_{ij}\)是\(i\)之间公共元素的数量th和\(j)由同一数据集的两个聚类产生的第个聚类。E.B.家禽C.L.马尔洛【《美国统计协会期刊》第78卷,第553–584页(1983年;Zbl 0545.62042号)]导出了W.兰德[同上,66,846–850(1971)]索引和一个他们称之为[(B_k)]的索引A.奥奇艾,公牛。日本。鱼类科学学会。22,526–530(1957)],匹配计数矩阵的固定边际总和和聚类算法的独立性。本文将Fowlkes和Mallows对均值和方差的求导推广到(mathcal L)族的任何一个成员,这使得广泛指数族的比较问题变得更加容易。蒙特卡罗模拟用于比较零案例数据(无聚类结构)的\(\mathcal L\)家族九个成员的形状、均值和方差。通过结构化案例模拟,评估了这九个指标,作为衡量集群结构恢复的工具。数据由双变量正态分布生成。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
65二氧化碳 蒙特卡罗方法

软件:

R(右)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Albatineh,A.N。;Niewiadomska-Bugaj,M。;Mihalko,D.P.,《关于相似性指数和机会一致性修正》,《分类杂志》,23,301-313(2006)·Zbl 1336.62168号
[2] Albatineh,A.N.,Razeghifard,R.,2008年。使用最大聚类相似性对氨基酸进行聚类。摘自:《生物信息学、计算生物学、基因组学和化学信息学国际会议论文集》,第89-92页。;Albatineh,A.N.,Razeghifard,R.,2008年。使用最大聚类相似性对氨基酸进行聚类。摘自:《生物信息学、计算生物学、基因组学和化学信息学国际会议论文集》,第89-92页。
[3] Cohen,A.J.,标称量表的一致系数,教育和心理测量,3,37-46(1960)
[4] Czekanowski,J.,种族相似性和差异系数,Anothropologicher,14,227-249(1932)
[5] Fowlkes,E.B。;Mallows,C.L.,《比较两种等级聚类的方法》,《美国统计协会杂志》,78,553-569(1983)·Zbl 0545.62042号
[6] 甘斯,L.P。;Robertson,C.A.,《小样本和中等样本2×2表中Goodman和Kruskal的Gamma和Spearman的Rho分布》,美国统计协会杂志,76942-946(1981)
[7] Goodall,D.W.,匹配系数的分布,生物统计学,4647-656(1967)
[8] 洛杉矶古德曼。;Kruskal,W.H.,交叉分类的关联度量,《美国统计协会杂志》,49,732-764(1954)·Zbl 0056.12801号
[9] Hubàlek,Z.,基于二元(存在-不存在)数据的关联系数和相似性:评估,《生物评论》,57669-689(1982)
[10] 休伯特,L。;Arabie,P.,比较分区,分类杂志,2193-218(1985)
[11] Jaccard,P.,《植物分布新研究》,布尔。Vaudoise科学社。《Nat.》,第44卷,第223-270页(1908年)
[12] Jain,A.K。;Dubes,R.C.,《聚类数据算法》(1988),普伦蒂斯·霍尔:新泽西普伦蒂斯霍尔·Zbl 0665.62061号
[13] Janson,S。;Vegelius,J.,《生态关联度量》,《生态学》,49,371-376(1981)
[14] Lancaster,H.O.,《卡方分布》(1969),John Wiley:John Wiley,纽约·Zbl 0193.17802号
[15] McCormick,W.P。;新泽西州莱昂斯。;Hutcheson,K.,Jaccard相似性指数的分布特性,《统计学中的沟通——理论和方法》,21,51-68(1992)·Zbl 0800.92031号
[16] 米利根,G。;Cooper,M.,层次聚类分析外部标准的可比性研究,多变量行为研究,21441-458(1986)
[17] 米利根,G。;Soon,S。;Sokol,L.,《集群大小、维度和集群数量对恢复真实集群结构的影响》,IEEE模式分析和机器智能事务PAMI,5,40-47(1983)
[18] 莫雷,L。;Agresti,A.,《分类一致性的测量:对随机一致性的兰德统计的调整》,《教育和心理测量》,44,33-37(1984)
[19] Ochiai,A.,《在日本及其邻近地区发现的螺线管鱼类的动物地理学研究》,《日本鱼类科学学会公报》,22,526-530(1957)
[20] R开发核心团队,2007年。R: 统计计算语言和环境,R统计计算基金会,奥地利维也纳。ISBN 3-900051-07-0,URL\(\langle\)网址:http://www.R-project.org\(\范围\)。;R开发核心团队,2007年。R: 统计计算语言和环境,R统计计算基金会,奥地利维也纳。ISBN 3-900051-07-0,URL\(\langle\)网址:http://www.R-project.org\(\范围\)。
[21] Rand,W.,《聚类方法评估的客观标准》,《美国统计协会杂志》,66,846-850(1971)
[22] 萨克森那州。;Navaneerham,K.,《簇大小、维数和簇数对通过切尔诺夫型面恢复真实簇结构的影响》,《统计学家》,第40期,第415-425页(1991年)
[23] 萨克森那州。;Navaneerham,K.,Chernoff型面和非图形方法聚类多元观测值的比较,计算统计和数据分析,15,63-79(1993)·Zbl 0937.62527号
[24] Snijders,T.A.B。;多马尔,M。;范舒尔,W.H。;Dijkman-Caes,C。;Driessen,G.,在关联属性的情况下二元数据的一些相似系数的分布,分类杂志,7,5-31(1990)·Zbl 0711.62054号
[25] Steinley,D.,Hubert-Arabie调整后的兰德指数的性质,《心理学方法》,9386-396(2004)
[26] Unnikrishnan,R.,Pantofaro,C.,Hebert,M.,2005年。图像分割算法的客观评价方法。摘自:IEEE计算机学会计算机视觉和模式识别会议记录,第1063-6919页。;Unnikrishnan,R.,Pantofaro,C.,Hebert,M.,2005年。图像分割算法的客观评价方法。载:《IEEE计算机学会计算机视觉和模式识别会议论文集》,第1063-6919页。
[27] Warrens,M.J.,《关于2×2表格的相似系数和机会修正》,《心理测量学》,73,487-502(2008)·Zbl 1301.62125号
[28] Warrens,M.J.,《关于科恩的卡帕指数和Hubert-Arabie调整后的兰德指数的等价性》,《分类杂志》,25,177-183(2008)·Zbl 1276.62043号
[29] Warrens,M.J.,《关于不依赖边际分布的2×2表和属性的关联系数》,《心理测量学》,73,777-789(2008)·Zbl 1284.62762号
[30] Warrens,M.J.,《关于二元存在/缺失数据相似性度量的不确定性》,《分类杂志》,25,125-136(2008)·Zbl 1260.62052号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。