×

基于经验连接过程和置换链接的连续变量的层次聚类。 (英语) Zbl 1284.62380号

摘要:在Lerman提出的似然关联分析方法的框架下,研究了连续变量的凝聚层次聚类。变量之间的相似性是根据Deheuvels提出的独立性检验的精神,通过比较经验关联词和独立关联词来定义的。与基于秩统计的更经典的变量相似系数不同,本文中考虑的比较度量也可以对非单调依赖性敏感。作为聚合标准,除了经典链接外,还考虑了与组合依赖\(p\)值的过程相关的基于排列的链接。通过深入的仿真比较了相应的聚类算法的性能。为了指导分区的选择,提出了一种与对象聚类中间隙统计的使用有关的自然概率选择策略,并与经典序数方法进行了实证比较。由此产生的变量聚类过程可以等效地被视为一种潜在的计算成本较低的替代方法,以替代更强大的多元独立性测试。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62-07 数据分析(统计)(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] R.Beran。;比洛多,M。;Lafaye de Michoaux,P.,随机向量独立性的非参数检验,多元分析杂志,98,9,1805-1824(2007)·兹比尔1130.62040
[2] Bruynooghe,M.,《大礼堂合奏的分类:非算法快速乐曲的构建》,《礼堂分析》,第三卷,第7-33页(1978年)
[3] Deheuvels,P.,《独立性的非参数检验》,巴黎大学统计研究所出版,26,29-50(1981)·Zbl 0478.62029号
[4] Edgington,E.S.,《组合独立实验概率值的加法法》,《心理学杂志》,80,351-363(1972)
[5] Embrechts,P。;麦克尼尔,A.J。;斯特劳曼,D.,《风险管理中的相关性和依赖性:属性和陷阱》(Dempster,M.,风险管理:风险价值及其以外(2002),剑桥大学出版社),176-223
[6] Feller,W.(《概率论及其应用导论》,《概率论及应用导论,概率与数理统计中的Wiley级数》,第二卷(1971年),John Wiley and Sons,Inc.:John Willey and Sons公司,纽约)·Zbl 0138.10207号
[7] Fisher,R.A.,《研究工作者的统计方法》(1932年),奥利维尔和博伊德:奥利维尔与博伊德伦敦
[8] 弗雷德里克斯,G.A。;Nelsen,R.B.,《关于连续变量对的Spearmanρ和Kendallτ之间的关系》,《统计规划与推断杂志》,137,2143-2150(2007)·Zbl 1120.62045号
[9] Genest,C。;Rémillard,B.,基于经验copula过程的独立性和随机性测试,测试,13,2,335-369(2004)·Zbl 1069.62039号
[10] Genest,C。;Verret,F.,copula模型独立性的局部最强大秩检验,非参数统计,17,5,521-539(2005)·Zbl 1065.62081号
[11] Genest,C。;Quessy,J.-F。;Rémillard,B.,CraméR-von Mises独立性检验的局部效率,多元分析杂志,97,274-294(2006)·Zbl 1079.62048号
[12] Genest,C.基因。;Quessy,J.-F。;Rémillard,B.,《多元独立性的CraméR-von Mises检验的渐近局部效率》,《统计年鉴》,35166-191(2007)·Zbl 1114.62058号
[13] Hansen,P。;Jaumard,B.,聚类分析和数学规划,数学规划,79,191-215(1997)·Zbl 0887.90182号
[14] Harrell,F.E.,R包Hmisc(2007),网址http://biostat.mc.vanderbilt.edu/s/Hmisc。R包版本3.2-1
[15] 霍夫丁,W.,《独立性的非参数检验》,《数学年鉴》。Stat.,19546-557(1948)·Zbl 0032.42001号
[16] Joe,H.,多元相关性的相对熵测量,美国统计协会杂志,84,157-164(1989)·Zbl 0677.62054号
[17] Kojadinovic,I.,基于互信息的连续变量聚集层次聚类,计算统计与数据分析,46,269-294(2004)·兹比尔1429.62251
[18] 科贾迪诺维奇,I。;Holmes,M.,基于经验copula过程的Cramér-von Mises泛函的连续随机向量独立性检验,多元分析杂志,100,6,1137-1154(2009)·Zbl 1159.62033号
[19] 科贾迪诺维奇,I。;列曼,I.C。;Peter,P.,hclust:《基于可能性连锁分析方法的变量或对象层次聚类》(2009),R包版本0.2-2
[20] Lerman,I.C.,《Données分类与分析法令》(1981年),Dunod:Dunod Paris·Zbl 0485.62051号
[21] Lerman,I.C.,可能性连锁分析分类方法的基础,应用随机模型和数据分析,763-76(1991)·Zbl 0800.62320号
[22] Lerman,I.C.,《可能性连锁分析分类方法:手治疗的一个例子》,《生物化学》,75,379-397(1993)
[23] Loughin,T.M.,《独立测试中组合p值方法的系统比较》,计算统计与数据分析,47,467-485(2004)·Zbl 1430.62048号
[24] Milligan,G.W。;Cooper,M.C.,《确定数据集中簇数的程序检查》,《心理测量学》,50,2,159-179(1985)
[25] Murtagh,F.,《层次聚类算法最新进展的调查》,《计算机杂志》,26354-359(1983)·Zbl 0523.68030号
[26] Pesarin,F.,《多元排列测试及其在生物统计学中的应用》(2001),威利·Zbl 0972.62037号
[27] 普拉斯,M。;Niang,N。;萨波尔塔,G。;维勒米诺,A。;Leblond,L.,结合使用关联规则挖掘和聚类方法查找大型数据集中二进制罕见属性之间的相关链接,计算统计与数据分析,52,1,596-613(2007)·Zbl 1452.62460号
[28] R开发核心团队,R统计计算基金会,奥地利维也纳,R:统计计算语言与环境(2009),URL网址:http://www.R-project.org
[29] Rényi,A.,《依赖性度量》,匈牙利科学院数学学报,第10期,第441-451页(1959年)·Zbl 0091.14403号
[30] Sahmer,K。;Vigneau,大肠杆菌。;Qannari,E.M.,《分析偏好数据的集群方法:集群数量的选择》,《食品质量与偏好》,第17期,第257-265页(2006年)
[31] Sarle,W.S.,《SAS/STAT用户指南:VARCLUS程序》(1990),SAS Institute,Inc:SAS Institution,Inc Cary,NC,USA
[32] Schweizer,B。;Wolff,E.F.,《关于随机变量相关性的非参数度量》,《统计年鉴》,9,4,879-885(1981)·Zbl 0468.62012年
[33] Sklar,A.,《(n)维与勒尔市场划分函数》,巴黎大学统计研究所出版物,第8229-231页(1959年)·Zbl 0100.14202号
[34] Tibshirani,R。;沃尔瑟,G。;Hastie,T.,《通过缺口统计估算数据集中的簇数》,《皇家统计学会期刊B》,63(2001),441-423·Zbl 0979.62046号
[35] 蒂佩特,L.H.C.,《统计方法》(1931),威廉姆斯和诺盖特:威廉姆斯和伦敦诺盖特
[36] 维涅奥,E。;Qannari,E.M.,《围绕潜在成分的变量聚类:在感官分析中的应用》,Commun。统计师。模拟计算。,32, 4, 1131-1150 (2003) ·Zbl 1100.62582号
[37] 严,J。;Kojadinovic,I.,Copula:与Copula的多元相关性(2009),R包版本0.8-8
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。