×

当变量被标准化时,主成分分析的假设检验。 (英语) Zbl 1426.62178号

摘要:在主成分分析(PCA)中,前几个主成分可能揭示数据中有趣的系统模式,而最后一个主成分可能反映随机噪声。研究人员可能想知道有多少主成分具有统计显著性。已经提出了许多方法来确定模型中要保留多少主成分,但大多数方法都假设数据是非标准化的。然而,在农业、生物和环境应用中,常常需要标准化。本文提出了变量标准化时主成分假设检验的参数自举方法。与先前提出的方法不同,所提出的参数自举方法不依赖于任何需要大维数的渐近结果。在一项模拟研究中,将提出的标准化数据的参数引导方法与PCA并行分析和使用Tracy-Widom分布的方法进行了比较。并行分析在测试第一主成分时表现良好,但在测试不反映随机噪声的高阶主成分时过于保守。当变量被标准化时,Tracy-Widom分布可能无法近似最大特征值的分布。提出的参数引导方法大致保持了显著性水平,其功能是使用Tracy-Widom分布的方法的两倍。为推荐的方法提供了SAS和R计算机代码。

理学硕士:

62H25个 因子分析和主成分;对应分析
62F40型 引导、折刀和其他重采样方法
62H15型 多元分析中的假设检验
62页第12页 统计在环境和相关主题中的应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bai,J.和Ng,S.(2002),“确定近似因子模型中的因子数”,《计量经济学》,第70期,第191-221页·Zbl 1103.91399号 ·数字对象标识代码:10.1111/1468-0262.00273
[2] Bro,R.、Kjeldahl,K.、Smilde,A.K.和Kiers,H.A.L.(2008),“成分模型的交叉验证:对当前方法的批判性审视”,《分析与生物分析化学》,3901241-1251·doi:10.1007/s00216-007-1790-1
[3] Bumpus,H.C.(1899年),“引入麻雀说明的不适合的消除,家雀,”生物讲座,海洋生物实验室,伍兹霍尔,第11讲,209-226。
[4] Cattell,R.B.(1966),“因素数量的筛选测试”,《多元行为研究》,1245-276·doi:10.1207/s15327906mbr0102_10
[5] Choi,B.Y.、Taylor,J.和Tibshirani,R.(2017),“选择主成分的数量:估计噪声矩阵的真实秩”,《统计年鉴》,452590-2617·Zbl 1394.62073号 ·doi:10.1214/16-AOS1536
[6] Crawford,A.V.、Green,S.B.、Levy,R.、Lo,W.J.、Scott,L.、Svetina,D.等人(2010年),“确定因素数量的平行分析方法评估”,《教育与心理测量》,70885-901·doi:10.1177/0013164410379332
[7] Crossa J.,Yang,R.C.和Cornelius,P.L.(2004),“使用线性双线性模型和混合模型研究交叉基因型x环境交互作用”,《农业、生物和环境统计杂志》,9,362-380·doi:10.1198/108571104X4423
[8] Crossa,J.、Burgueño,J.、Autran,D.、Vielle Calzada,J.P.、Cornelius,P.L.、Garcia,N.、Salamanca,F.和Arenas,D.(2005),“使用线性双线性模型研究微阵列实验中的基因表达x处理相互作用”,《农业、生物和环境统计杂志》,10333-353·doi:10.19198/108571105X58216
[9] Forkman J.(2015),“基因型-环境交互作用主成分分析的重采样测试”,《塔尔图恩大学学报》,第19期,第27-33页·Zbl 1341.62311号 ·doi:10.12697/ACUTM.2015.19.03
[10] Forkman,J.和Piepho H.P.(2014),“用于测试GGE和AMMI模型中乘法项的参数自举方法”,《生物计量学》,70,639-647·Zbl 1299.65014号 ·doi:10.1111/biom.12162
[11] Forkman,J.和Piepho H.P.(2015),“加性主效应和乘法相互作用(AMMI)模型的简单参数自举方法的稳健性”,Biuletyn-Oceny-Odmian,34,11-18。
[12] Franklin,S.B.、Gibson,D.J.、Robertson,P.A.、Pohlmann,J.T.和Fralish,J.S.(1995),“平行分析:确定重要主成分的方法”,《植被科学杂志》,第699-106页·doi:10.2307/3236261
[13] Galgani,E.、Bocquene,G.、Lucon,M.、Grzebyk,D.、Letrouit E.和Claisse D.(1991年),“法国西北部鱼类的EROD测量”,《海洋污染公报》,第22期,第494-500页·doi:10.1016/0025-326X(91)90403-F
[14] Gauch,H.G.(1992),《区域产量试验的统计分析:析因设计的AMMI分析》,阿姆斯特丹:Elsevier。
[15] Gelman,A.和Loken,E.(2014),“科学中的统计危机”,《美国科学家》,102,460-465·doi:10.1511/2014.111.460
[16] Glorfeld,L.W.(1995),“改进Horn的平行分析方法,以选择正确的保留因子数量”,《教育与心理测量》,55,377-393·doi:10.1177/0013164495055003002
[17] Green,S.B.、Levy,R.、Thompson,M.S.、Lu,M.和Lo,W.J.(2012),“使用完全随机数据通过平行分析评估因素数量的问题解决方案”,《教育与心理测量》,72357-374·doi:10.1177/0013164411422252
[18] Hoyos-Villegas,V.、Wright,E.M.和Kelly,J.D.(2016),“中美洲大豆多样性小组中产量与根系性状相关性的GGE双区分析”,《作物科学》,561081-1094·doi:10.2135/cropsci2015.10.0609
[19] Hoff,P.D.(2007),“奇异值分解的模型平均和维数选择”,《美国统计协会杂志》,102674-685·Zbl 1172.62318号 ·doi:10.1198/0162145000001310
[20] Horn,J.L.(1965),“因子分析中因子数量的理论基础和检验”,《心理测量学》,第30期,第179-185页·Zbl 1367.62186号 ·doi:10.1007/BF02289447
[21] Husson,F.、Lé,S.和PagèS,J.(2011),使用R的探索性多元分析,佛罗里达州博卡拉顿:CRC出版社·Zbl 1281.62006年
[22] Johnson,R.A.和Wichern,D.W.(2007),应用多元统计分析,第6版,Harlow:Pearson Education·Zbl 1269.62044号
[23] Johnstone,I.M.(2001),“关于主成分分析中最大特征值的分布”,《统计年鉴》,29,295-327·Zbl 1016.62078号 ·doi:10.1214/aos/1009210544
[24] -(2007),“高维统计推断和随机矩阵”,载于:M.Sanz-Sol、J.Soria、J.L.Varona、J.Verdera(编辑),《国际数学家大会论文集》,西班牙马德里,2006年,第1卷,第307-333页,苏黎世:欧洲数学学会·Zbl 1120.62033号
[25] Jolliffe,I.T.(2002)。主成分分析,第二版,纽约:Springer·Zbl 1011.62064号
[26] Jolliffe,I.T.和Cadima,J.(2016),“主成分分析:综述和最新进展”,《皇家学会哲学汇刊》a 374,20150202·兹比尔1353.62067 ·doi:10.1098/rsta.2015.0202
[27] Josse,J.、van Eeuwijk,F.、Piepho H.P.和Denis,J.B.(2014),“基因型环境数据AMMI模型的贝叶斯分析”,《农业、生物和环境统计杂志》,第19卷,第240-257页·Zbl 1303.62079号
[28] Josse,J.和Husson,F.(2011),“使用交叉验证近似值选择主成分分析中的成分数量”,计算统计与数据分析,561869-1879·Zbl 1243.62082号 ·doi:10.1016/j.csda.2011.11.012
[29] Kang,M.S.、Balzarini,M.和Guerra,J.L.L.(2004),“基因型-环境相互作用”,摘自:A.M.Saxton(编辑)。使用SAS对复杂性状进行遗传分析,第69-96页,北卡罗来纳州卡里:SAS研究所。
[30] Kaiser,H.F.(1960),“电子计算机在因素分析中的应用”,《教育与心理测量》,第20期,第141-151页·doi:10.1177/001316446002000116
[31] Kollah,B.,Ahirwar,U.,Mohanty,S.R.(2017年),“升高的二氧化碳和温度改变了热带变性土壤中的总比甲烷消耗量”,《农业科学杂志》,1551191-1202。
[32] Kritchman,S.和Nadler,B.(2008),“从有限的噪声数据确定因子模型中的成分数量”,《化学计量学和智能实验室系统》,第94、19-32页·doi:10.1016/j.chemolab.2008.06.002
[33] Malik,W.A.、Hadasch,S.、Forkman,J.和Piepho H.P.(2018),“用于测试多环境试验AMMI和GGE模型中乘法项的非参数重采样方法”,《作物科学》,58,752-761·Zbl 1391.62219号 ·doi:10.2135/cropsci2017.10.0615
[34] Manly,B.F.J.(1986),《多元统计方法:入门》,伦敦:查普曼和霍尔出版社·Zbl 0867.62041号
[35] Marasinghe,M.G.(1985),“与乘法相互作用模型相关的渐近检验和Monte-Carlo研究”,《统计学中的通信——理论和方法》,第14期,第2219-2231页·doi:10.1080/03610928508829039
[36] Muirhead,R.J.(1978),“潜在根和矩阵变量:一些渐近结果的回顾”,《统计学年鉴》,6,5-33·Zbl 0375.62050号 ·doi:10.1214/aos/1176344063
[37] Muirhead,R.J.(1982),《多元统计理论方面》,纽约:Wiley出版社·Zbl 0556.62028号 ·doi:10.1002/9780470316559
[38] 北达科他州立大学(1997),信息技术服务,https://www.ndsu.edu/pubweb/doetkott/introsas/rawdata/bumpus.html(2018年10月28日访问)。
[39] Onatski,A.(2009),“关于大因子模型中因子数量的假设检验”,《计量经济学》,77,1447-1479·Zbl 1182.62180号 ·doi:10.3982/ECTA6964
[40] Owen,A.B.和Wang,J.(2016),“因子分析的双交叉验证”,《统计科学》,31,119-139·Zbl 1442.62136号 ·doi:10.1214/15-STS539
[41] Passimier,D.、Li,Z.和Yao,J.(2017),“关于高维概率主成分分析中噪声方差的估计”,《皇家统计学会杂志》B,79,51-67·兹伯利1414.62218 ·doi:10.1111/rssb.12153
[42] Patterson,N.,Price,A.L.,Reich,D.(2006),“种群结构和特征分析”,《公共科学图书馆·遗传学》,第22074-2093页·doi:10.1371/journal.pgen.0020190
[43] Paul,D.和Aue,A.(2014),“统计学中的随机矩阵理论:综述”,《统计规划与推理杂志》,150,1-29·兹比尔1287.62011 ·doi:10.1016/j.jspi.2013.09.005
[44] Peres-Neto,P.R.、Jackson,D.A.和Somers,K.M.(2005),“多少主成分?确定重新访问的非主轴数量的停止规则”,计算统计与数据分析,49974-997·Zbl 1429.62223号 ·doi:10.1016/j.csda.2004.06.015
[45] Perez-Elizalde,S.、Jarquin,D.和Crossa J.(2012),“应用于基因型x环境交互作用的植物育种试验的线性双线性模型的一般贝叶斯估计方法”,《农业、生物和环境统计杂志》,17,15-37·Zbl 1302.62275号 ·doi:10.1007/s13253-011-0063-9
[46] Ruscio,J.和Roche,B.(2012),“使用已知因子结构的比较数据确定探索性因子分析中保留的因子数量”,《心理评估》,24,282-292·数字对象标识代码:10.1037/a0025697
[47] 邵,J.(2003),《数理统计》,第二版,纽约:施普林格出版社·Zbl 1018.62001号 ·数字对象标识代码:10.1007/b97553
[48] Sobczyk,P.、Bogdan,M.和Josse,J.(2017),“使用惩罚半积分似然通过PCA进行贝叶斯维数缩减”,《计算与图形统计杂志》,26,826-839·doi:10.1080/10618600.2017.1340302
[49] Sterling,T.D.(1959年),“出版决定及其对从显著性检验中得出的推断的可能影响——反之亦然”,《美国统计协会杂志》,54,30-34。
[50] Underhill,L.G.(1990),“变异系数双标图”,《分类杂志》,第7期,第241-256页·doi:10.1007/BF01908718
[51] Wasserstein,R.L.和Lazar,N.A.(2016),“ASA关于<InlineEquation ID=“IEq243”><EquationSource Format=“TEX”>\[p\]<EquationSource Format=“MATHML”><math xmlns:xlink=的声明”http://www.w3.org/1999/xlink“>p-values:context,process,and purpose”,《美国统计学家》,70129-133·Zbl 07665862号 ·doi:10.1080/00031305.2016.1154108
[52] Yan W.和Frgeau-Reid,J.(2018),“按产量*性状(GYT)双位点的基因型:基于多性状的基因型选择新方法”,《科学报告》,第88242页·doi:10.1038/s41598-018-26688-8
[53] Yan,W.和Kang,M.S.(2003),《GGE双位点分析:育种家、遗传学家和农学家的图形工具》,博卡拉顿:CRC出版社。
[54] Yan,W.和Tinker,N.A.(2006年),“多环境试验数据的Biplot分析:原理和应用”,《加拿大植物科学杂志》,86,623-645·doi:10.4141/P05-169
[55] Yang,R.C.,Crossa,J.,Cornelius,P.L.和Burgueño,J.(2009),“基因型x环境相互作用的双谱分析:谨慎进行”,作物科学,491564-1576·doi:10.2135/cropsci2008.11.0665
[56] Yeater,K.M.、Duke,S.E.和Riedell,W.E.(2015),“多元分析:对复杂系统的更深入了解”,《农学杂志》,107,799-810·doi:10.2134/agronj14.0017
[57] Yochowitz,M.G.和Cornell,R.G.(1978),“交互作用乘法成分的逐步测试”,《技术计量学》,第20、79-84页·Zbl 0379.62046号 ·doi:10.1080/00401706.1978.10489619
[58] Zitko,V.(1994),“环境数据评估中的主成分分析”,《海洋污染公报》,第28期,第718-722页·doi:10.1016/0025-326X(94)90329-8
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。