×

增长维层次聚类的渐近性。 (英语) Zbl 1278.62093号

摘要:现代科学给数据分析师带来了许多挑战。数据收集的进展提供了非常大的数据集(观测数量和维度数量)。在数据分析的许多领域中,信息性任务是将数据自然分离为同质组,即簇。我们研究了在样本大小和维数都增长到无穷大的情况下层次聚类的渐近行为。我们推导了不同类型聚类行为之间的明确信号与噪声边界。我们还表明,边界内的聚类行为在广泛的渐近设置中是相同的。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62H25个 因子分析和主成分;对应分析
2012年12月62日 参数估计量的渐近性质
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 安,J。;Marron,J.S。;穆勒,K.M。;Chi,Y.-Y.,《高维、低样本几何表征在温和条件下仍然成立》,Biometrika,94,760-766(2007)·Zbl 1135.62039号
[2] 卡塞拉,G。;Hwang,J.T.,james-stein估值器风险的极限表达式,Canad。J.统计。,10, 305-309 (1982) ·兹比尔0512.62044
[3] 范,J。;Lv,J.,超高维特征空间的确定独立筛选,J.R.Stat.Soc.Ser。B统计方法。,70, 849-911 (2008) ·Zbl 1411.62187号
[4] 费希尔,L。;Van Ness,J.W.,《允许的聚类程序》,《生物统计学》,58,91-104(1971)·Zbl 0224.62030号
[5] 霍尔,P。;Marron,J.S。;Neeman,A.,《高维低样本数据的几何表示》,J.Roy。统计师。Soc.序列号。B、 67427-444(2005)·Zbl 1069.62097号
[6] Hartigan,J.A.,《高密度集群的单一链接一致性》,J.Amer。统计师。协会,76388-394(1981)·兹伯利0468.62053
[7] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素》(2009),斯普林格出版社·Zbl 1273.62005年
[8] Hoeffing,W.,有界随机变量和的概率不等式,J.Amer。统计师。协会,58,13-30(1963)·Zbl 0127.10602号
[9] Huber,P.J.,《稳健回归:渐近、猜想和蒙特卡罗》,《统计年鉴》。,1, 799-821 (1973) ·Zbl 0289.62033号
[10] Jung,S.K。;Marron,J.S.,《高维、低样本量背景下PCA一致性》,Ann.Statist。,37、6B、4104-4130(2009)·Zbl 1191.62108号
[11] MacQueen,J.,《多元观测分类和分析的一些方法》(第五届伯克利数理统计与概率研讨会论文集(1967),加利福尼亚大学出版社),281-297·兹比尔0214.46201
[12] 马尔琴科,V.A。;Pastur,L.A.,一些随机矩阵集的特征值分布,数学。苏联斯博尼克,1457(1967)·Zbl 0162.22501号
[13] McQuity,L.L.,《分离正交和斜向类型及典型相关性的基本连锁分析》,《教育心理学》。测量,17207-229(1957)
[14] Milligan,G.W.,《六种误差扰动对十五种聚类算法的影响的检验》,《心理测量学》,45,325-342(1980)
[15] Portnoy,S.,当(p^2/n)较大时回归参数的(M)-估计量的渐近行为。I.一致性,Ann.Statist。,12, 1298-1309 (1984) ·Zbl 0584.62050号
[16] Portnoy,S.,(p^2/n)大时回归参数M估计的渐近行为;二、。正态近似,Ann.Statist。,13, 1403-1417 (1985) ·Zbl 0601.62026号
[17] 乔,X。;Zhang,H.H。;刘,Y。;托德,M.J。;Marron,J.S.,加权距离加权判别及其渐近性质,J.Amer。统计师。协会,105,489,401-414(2010)·Zbl 1397.62227号
[19] Sokal,R.R。;Michener,C.D.,《评估系统关系的统计方法》,堪萨斯大学科学院。公牛。,38, 1409-1438 (1958)
[20] Tan,P.-N。;斯坦巴赫,M。;库马尔,V.,《数据挖掘导论》(2006),艾迪森·韦斯利
[21] Tropsha,A.,《QSAR模型开发、验证和开发的最佳实践》,《分子信息》。,2476-488(2010年)
[22] Van Der Vaart,A.W.,《渐近统计》,剑桥统计与概率数学丛书(2000),剑桥大学出版社·Zbl 0943.6202号
[23] Ward,J.H.,优化目标函数的分层分组,J.Amer。统计师。协会,58,236-244(1963)
[24] Wigner,E.P.,无限维加边矩阵的特征向量,数学年鉴。(2), 62, 548-564 (1955) ·Zbl 0067.08403号
[25] Wigner,E.P.,《关于某些对称矩阵根的分布》,《数学年鉴》。(2), 67, 325-327 (1958) ·Zbl 0085.13203号
[26] Yata,K。;Aoshima,M.,非高斯数据在高维、低样本量背景下的PCA一致性,Comm.Statist。理论与方法,38,2634-2652(2009)·Zbl 1175.62060号
[27] Yata,K。;Aoshima,M.,具有D-渐近性的高维低样本数据的内在维数估计,Comm.Statist。理论方法,39,1511-1521(2010)·Zbl 1318.62204号
[28] Yata,K。;Aoshima,M.,《通过几何表示降低噪声的高维低样本数据的有效主成分分析》,《多元分析杂志》。,105, 193-215 (2012) ·Zbl 1236.62065号
[29] 尤海,V.J。;Maronna,R.A.,线性模型M-估计量的渐近行为,统计年鉴,7258-268(1979)·Zbl 0408.62027号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。