×

关于单峰零分布的非参数聚类显著性检验。 (英语) Zbl 1520.62226号

摘要:聚类分析是一种无监督学习策略,对于识别未知结构数据集中的同质观察子群非常有用。然而,确定已识别的簇是否代表真正不同的子组而非噪声是一项挑战。现有解决该问题的方法倾向于基于分布假设定义聚类,忽略数据中固有的相关性结构,或不适用于高维低样本(HDLSS)设置。在本文中,我们提出了一种新的方法来评估已识别聚类的重要性,方法是将原始数据中因聚类而产生的解释变化与通过聚类保持数据中协方差结构的单峰参考分布而产生的变化进行比较。参考分布是使用核密度估计生成的,因此不要求数据遵循特定的分布。通过使用稀疏协方差估计,该方法适用于HDLSS设置。该方法可用于测试数据无法划分为簇的空假设,并确定最佳簇数。仿真示例、理论评估以及在颞下颌关节紊乱病研究和癌症微阵列数据中的应用说明了该方法的实用性。
{©2020国际生物识别学会}

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ahmed,M.O.和Walther,G.(2012)用主曲线研究多元数据的多模态。计算统计与数据分析,56,4462-4469·Zbl 1255.62170号
[2] Alizadeh,A.A.,Eisen,M.B.,Davis,R.E.,Ma,C.,Lossos,I.S.,Rosenwald,A.等人(2000)通过基因表达谱确定的不同类型的弥漫性大B细胞淋巴瘤。《自然》,403503-511。
[3] Bair,E.,Gaynor,S.,Slade,G.D.,Ohrbach,R.,Fillingim,R.B.,Greenspan,J.D.等人(2016)《与颞下颌关节紊乱病和其他慢性疼痛状况相关的个体集群识别:OPPERA研究》。《公共科学图书馆生物学》,1571266-1278。
[4] Balabdaoui,F.、Rufibach,K.和Wellner,J.A.(2009)对数凹密度最大似然估计的极限分布理论。《统计年鉴》,第37期,第1299-1331页·Zbl 1160.62008年
[5] Behboodian,J.(1970)关于两个正态分布的混合模式。技术计量学,12131-139·Zbl 0195.20304号
[6] Benjamini,Y.和Hochberg,Y.(1995)控制错误发现率:一种实用且强大的多重测试方法。英国皇家统计学会杂志:B辑,57289-300·Zbl 0809.62014号
[7] Birge,L.(1997)无平滑度假设的单峰密度估计。《统计年鉴》,1970-981·Zbl 0888.62033号
[8] Caliñski,T.和Harabasz,J.(1974)用于聚类分析的枝晶方法。统计学传播,3,1-27·Zbl 0273.62010
[9] Cheng,M.-Y。,Gasser,T.和Hall,P.(1999)单峰和单调约束下的非参数密度估计。计算与图形统计杂志,8,1-21。
[10] Cybis,G.B.、Valk,M.和Lopes,S.R.(2018)通过u‐统计研究遗传学中的聚类和分类问题。统计计算与模拟杂志,88,1882-1902·Zbl 07192637号
[11] Devroye,L.(1997)多变量单峰密度的随机变量生成。ACM建模与计算机仿真汇刊(TOMACS),7447-477·Zbl 0917.65004号
[12] Dharmadhikari,S.W.和Jogdeo,K.(1976)多元单模态。《统计年鉴》,第4607-613页·Zbl 0338.62006号
[13] Efron,B.和Tibshirani,R.(1993年)《Bootstrap简介》。佛罗里达州博卡拉顿:查普曼和霍尔/CRC·兹比尔083562038
[14] Fang,Y.和Wang,J.(2012)通过bootstrap方法选择簇数。计算统计与数据分析,56468-477·兹比尔1239.62076
[15] Foss,A.、Markatou,M.、Ray,B.和Heching,A.(2016)混合数据聚类的半参数方法。机器学习,105,419-458·Zbl 1432.62182号
[16] Friedman,J.、Hastie,T.和Tibshirani,R.(2008)用图形套索进行稀疏逆协方差估计。生物统计学,9432-441·Zbl 1143.62076号
[17] Gaynor,S.和Bair,E.(2017)通过预加权稀疏聚类识别相关亚型。计算统计与数据分析,116139-154·Zbl 1466.62074号
[18] Hall,P.和Huang,L.‐S。(2002)使用核方法的单峰密度估计。中国统计局,1965-990年12月·Zbl 1004.62031号
[19] Huang,H.,Liu,Y.,Yuan,M.和Marron,J.S.(2015)使用软阈值进行聚类的统计意义。计算与图形统计杂志,24975-993。
[20] Ibragimov,I.A.(1956)关于单峰分布的构成。概率论及其应用,1255-260。
[21] Kapp,A.V.和Tibshirani,R.(2006)在一个数据集中发现的聚类是否存在于另一个数据集?生物统计学,8,9-31·兹比尔1170.62390
[22] Liu,Y.,Hayes,D.N.,Nobel,A.和Marron,J.S.(2008)高维低样本数据聚类的统计意义。美国统计协会杂志,103,1281-1293·Zbl 1205.62079号
[23] Liu,H.,Lafferty,J.和Wasserman,L.(2009)《非规范:高维无向图的半参数估计》。机器学习研究杂志,102295-2328·Zbl 1235.62035号
[24] Maitra,R.、Melnykov,V.和Lahiri,S.N.(2012)《多维数据集中紧簇重要性的引导》。美国统计协会杂志,107378-392·Zbl 1261.62060号
[25] Mammen,E.、Marron,J.和Fisher,N.(1992)基于核密度估计的多模态检验的一些渐近性。概率论和相关领域,9115-132·Zbl 0745.62048号
[26] Perou,C.M.、Sörlie,T.、Eisen,M.B.、van deRijn,M.、Jeffrey,S.S.、Rees,C.A.等人(2000)人类乳腺肿瘤的分子肖像。《自然》,406747-752。
[27] Ravikumar,P.、Wainwright,M.J.、Raskutti,G.和Yu,B.(2011年)通过最小化惩罚对数行列式散度的高维协方差估计。电子统计杂志,5935-980·Zbl 1274.62190号
[28] Rousseeuw,P.(1987)《剪影:聚类分析解释和验证的图形辅助》。计算与应用数学杂志,20,53-65·Zbl 0636.62059号
[29] Silverman,B.W.(1981)使用核密度估计来研究多模态。英国皇家统计学会杂志:B辑,43,97-99。
[30] Sklar,A.(1959)《维度和边界划分函数》。巴黎大学统计研究所出版物,8229-231·Zbl 0100.14202号
[31] Slade,G.D.、Bair,E.、By,K.、Mulkey,F.、Baraian,C.、Rothwell,R.等人(2011)OPPERA研究中的研究方法、招募、社会人口统计结果和人口代表性。疼痛杂志,12,T12-T26。
[32] Tibshirani,R.和Walther,G.(2005)通过预测强度进行聚类验证。计算与图形统计杂志,14,511-528。
[33] Tibshirani,R.、Walther,G.和Hastie,T.(2001)通过间隙统计估计数据集中的簇数。英国皇家统计学会杂志:B辑,63,411-423·Zbl 0979.62046号
[34] Walther,G.(2002)用多尺度最大似然检测混合的存在。美国统计协会杂志,97508-513·Zbl 1073.62533号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。