×

关于主成分的数量:基于矩阵之间相似性度量的维度测试。 (英语) Zbl 1452.62409号

摘要:主成分分析(PCA)中的一个重要问题是估计要保留的正确成分数量。PCA最常用于将一组观测变量简化为一组新的低维变量。这个维度的选择是解释结果或后续分析的关键步骤,因为它可能导致信息丢失(低估)或引入随机噪声(高估)。提出了一种新的PCA维数评估方法。它们基于相似性度量、奇异值分解和置换过程。进行了仿真研究,以评估所提方法的相对优点。结果表明,一种基于RV系数的方法非常准确,似乎比其他现有方法更有效。

MSC公司:

62H25个 因子分析和主成分;对应分析
62-08 统计问题的计算方法

软件:

ade4(ade4)
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Benzécri,J.,《统计分析作为从数据中产生模式的工具》(Watanabe,S.,《模式识别方法》(1969),学术出版社:纽约学术出版社),35-60
[2] Besse,P.,Pca稳定性和维度选择,统计学。普罗巴伯。莱特。,13, 405-410 (1992) ·Zbl 0743.62046号
[3] Besse,P。;de Falguerolles,A.,《重采样方法在主成分分析维度选择中的应用》,(Hardle,W.;Simar,L.,《统计学中的计算机密集型方法》(1993),Physica-Verlag:Physica-Verlag Heidelberg),167-176·兹比尔0792.62001
[4] Chessel,D。;杜福尔,A.-B。;Thioulouse,J.,《ade4包-I:单表法》,R News,4,5-10(2004)
[5] Daudin,J。;杜比,C。;Trecourt,P.,用bootstrap方法研究主成分分析的稳定性,统计学,19241-258(1988)·Zbl 0643.62043号
[6] 南卡罗来纳州多莱德。;Chessel,D.,《共生分析:研究物种与环境关系的替代方法》,淡水生物学。,31, 277-294 (1994)
[7] Dray,S。;Chessel博士。;Thioulouse,J.,Co-interia分析和生态数据表的链接,生态学,84,3078-3089(2003)
[8] Dray,S。;Chessel,D。;Thioulouse,J.,《多元数据集链接的普鲁斯特共同惯性分析》,生态科学,10,1,110-119(2003)
[9] 埃卡特,C。;Young,G.,《一个矩阵与另一个低阶矩阵的近似》,《心理测量学》,1,3,211-218(1936)·JFM 62.1075.02标准
[10] Escoufier,Y.,Le traitement des variables vectorielles,生物统计学,29750-760(1973)
[11] Fava,J。;Velicer,W.,《过度提取对因子和成分分析的影响》,《多元行为研究》,27387-415(1992)
[12] Ferré,L.,《主成分分析中成分的选择:方法的比较》,计算。统计师。数据分析。,19, 669-682 (1995) ·Zbl 0875.62253号
[13] Good,I.,矩阵奇异分解的一些应用,技术计量学,11823-831(1969)·Zbl 0186.33803号
[14] Gower,J.,比较同一数据的不同多元分析的统计方法,(Hodson,F.;Kendall,D.;Tautu,P.,考古和历史科学中的数学(1971),爱丁堡大学出版社:爱丁堡大学出版社,爱丁堡),138-149·Zbl 0302.62027号
[15] Holm,S.,一个简单的顺序拒绝多重测试程序,Scand。J.统计。,6, 65-70 (1979) ·Zbl 0402.62058号
[16] Hotelling,H.,《将复杂的统计变量分析为主要成分》,《教育心理学杂志》,第24期,第417-441页(1933年)·JFM 59.1182.04号文件
[17] Hotelling,H.,两组变量之间的关系,生物统计学,28,321-377(1936)·兹伯利0015.40705
[18] Jackson,D.,《主成分分析中的停止规则:启发式和统计方法的比较》,生态学,74,8,2204-2214(1993)
[19] Jolliffe,I.,主成分分析(2002),《施普林格:柏林施普林格》·Zbl 1011.62064号
[20] 林戈斯,J。;Schönemann,P.,《Schónemann-Carrol矩阵拟合算法的替代拟合度量》,《心理测量学》,39,423-427(1974)·Zbl 0295.92022号
[21] Mantel,N.,《疾病聚类检测和广义回归方法》,《癌症研究》,27,2,209-220(1967)
[22] 麦克唐纳,G。;Schwing,R.,《空气污染与死亡率相关回归估计的不稳定性》,《技术计量学》,第15期,第463-481页(1973年)
[23] 佩雷斯·内托,P。;Jackson,D.,多元数据集的匹配程度如何?Procrustean叠加方法相对于Mantel测试的优势,Oecologia,129169-178(2001)
[24] 佩雷斯-内托,P。;Jackson,D。;Somers,K.,有多少主要成分?用于确定重新访问的非平凡轴数量的停止规则,计算。统计师。数据分析。,49, 974-997 (2005) ·Zbl 1429.62223号
[25] 罗伯特·P。;Escoufier,Y.,线性多元统计方法的统一工具:RV系数,应用。统计学。,25, 257-265 (1976)
[26] 辛哈,A。;Buchanan,B.,《使用回归评估主成分的稳定性》,《心理测量学》,60,355-369(1995)·兹伯利0875.62255
[27] Tenenhaus,M。;Young,F.,《多重对应分析、最优标度、双标度、同质性分析和量化分类多元数据的其他方法的分析与综合》,《心理测量学》,50,1,91-119(1985)·Zbl 0585.62104号
[28] 范登·沃伦伯格(van den Wollenberg),A.,《冗余分析,规范分析的替代方法》,《心理测量学》,42,2,207-219(1977)·Zbl 0354.92050号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。