×

识别主成分分析中的信息/信号维度。 (英语) 兹比尔1407.62215

摘要:识别数据的降维表示是探索性多维数据分析的主要问题之一,文献中已根据该方法提出了几种解决方案。主成分分析(PCA公司)是迄今为止受到最大关注的方法和几种识别方法,即所谓的停止规则–已提出,在实践中给出了非常不同的结果,并进行了一些比较研究。先前研究中的一些不一致之处导致我们试图解决中信号和噪声之间的区别PCA公司–及其限制–并提出新的测试方法。这包括根据预定义的特征值结构(包括零特征值)生成模拟数据。从根据几种此类结构构建的随机群体中,提取缩小尺寸的样本,并向其添加不同水平的随机正态噪声。这种有控制的噪声引入允许在预期信号和噪声之间进行明确区分,后者归入样本中对应于总体零特征值的非零特征值。使用这种新方法,我们测试了十种不同停止规则的性能。在每种方法中,对于每种结构和每种噪声,都测量了功率(正确识别预期尺寸的能力)和I类误差(仅由噪声组成的尺寸的检测),通过计算样本中最小非零特征值被识别为信号的相对频率和最大零特征值分别被识别为噪声的相对频率。这样,受检方法的行为清晰,可以进行比较/评估。报告的结果表明,Rencher对Bartlett检验的推广和Pillar的bootstrap方法的结果都比其他方法好得多:这两种方法都具有合理的功率,随着噪声的降低而降低,并且I型误差非常好。因此,这些方法比其他方法更值得采用。

MSC公司:

62H25个 因子分析和主成分;对应分析
60克40 停止次数;最优停车问题;赌博理论
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Gnanadesikan,R。;Kettering,J。;多响应数据的稳健估计、残差和离群值检测;生物统计学:1972年;第28卷,第81-124页。
[2] 乔利夫;主成分分析:德国柏林,2002年·Zbl 1011.62064号
[3] 伦彻,A.C;多元分析方法:美国纽约州纽约市,2002年·Zbl 0995.62056号
[4] Lebart,L。;皮隆,M。;Morineau,A;Statistique Exploratoire Multidimensinelle-Visualisation et Inférence en Fouilles de Donnes:巴黎,法国2016。
[5] Guttman,L。;共因子分析的一些必要条件;《心理测量学》:1954年;第19卷,149-161·Zbl 0058.13004号
[6] 乔利夫,麻省理工学院。;在主成分分析中丢弃变量。一: 人工数据;申请。统计:1972年;第21卷,160-173。
[7] 卡特尔,R.B。;因素数量的碎石试验;多变量。贝哈夫。决议:1966年;第1卷,245-276。
[8] D.A.杰克逊。;主成分分析中的停止规则:启发式和统计方法的比较;生态学:1993年;第74卷,2204-2214。
[9] 佩雷斯-内托,P.R。;D.A.杰克逊。;萨默斯,K.M。;有多少主要成分?确定重新访问的非平凡轴数量的停止规则;计算。统计数据分析:2005; 第49卷,974-997·Zbl 1429.62223号
[10] 边境,南部。;《综合原理分析》:《布里斯托商业模式的比较》(The etude de la décroissance des valeurs dans une analysis en composantes principales:Comparison avec le modèle du báton brisé);《实验3月生物杂志》。生态:1976; 第25卷,第67-75页。
[11] Legendre,P。;Legendre,L;数值生态学:美国纽约州阿姆斯特丹,1998年·Zbl 1033.92036号
[12] Caron,邮政编码:。;对断棒分布进行蒙特卡罗检验,以确定要保留在主成分分析中的成分;J.统计计算。模拟:2016; 第86卷,2405-2410·Zbl 1510.62263号
[13] Bartlett,M.S。;关于各种χ2近似乘数的注记;J.R.统计社会服务。B数学:1954; 第16卷,296-298·兹比尔0057.35404
[14] 沃尔德,S。;因子和主成分模型中成分个数的交叉验证估计;技术计量学:1978年;第20卷,397-405·Zbl 0403.62032号
[15] 东距,H。;Krzanowski,W。;主成分分析中成分数量的交叉验证选择;技术计量学:1982年;第24卷,73-77。
[16] 明卡,T.P。;PCA维数的自动选择;第十三届神经信息处理系统国际会议论文集:,598-604.
[17] 奥尔,P。;Gervini,D。;选择主成分:一种基于贝叶斯模型选择的新图形方法;Commun公司。统计模拟。计算:2008; 第37卷,962-977·Zbl 1160.62334号
[18] 王,M。;Kornblau,S.M.公司。;库姆斯,K.R。;细胞凋亡途径的生物解释主成分分解;癌症信息:2017; 第17卷。
[19] 立柱,V.D。;重新审视了那个自私自利的圣职;J.素食。科学:1999; 第10卷,895-902。
[20] 维埃拉,V.M。;主成分分析中估计显著性的置换检验;计算。经济。软件:2012; 第2卷,103-123。
[21] 卡米兹,S。;立柱,V.D。;单、全连锁聚类与变量层次因子分类的比较;社区经济:2007; 第8卷,25-30页。
[22] 费奥利,E。;祖卡雷洛,V。;社区研究中的模糊集和特征分析:分类和排序是“同一硬币的两面”;社区经济:2013; 第14卷,164-171。
[23] 麻省理工学院Jolliffe。;关于回归中主成分使用的一点注记;J.R.统计社会服务。C申请。统计:1982年;第31卷,300-303。
[24] Céréghino,r。;支柱V。;Srivastava,D。;de Omena,P.M。;麦克唐纳,A.A.M。;巴贝里斯,I.M。;科尔巴拉,B。;L.M.古兹曼。;Leroy,C。;Bautista,F.O。;溴化物水生无脊椎动物功能性状空间的制约因素;功能。经济:2018; 第32卷,2435-2447。
[25] 费雷,L。;主成分分析中成分的选择:方法的比较;计算。统计数据分析:1995; 第19卷,669-682·Zbl 0875.62253号
[26] Dray,S。;关于主成分的数量:基于矩阵之间相似性测量的维度测试;计算。统计数据分析:2008; 第52卷,2228-2237·Zbl 1452.62409号
[27] 卡尔·J。;马丁,T。;随机数和主成分:进一步搜索独角兽;《多元统计在野生动物栖息地中的应用:美国华盛顿特区,1981年》,20-24.
[28] 高奇,H.G.J。;通过特征向量排序进行约简;生态学:1982年;第63卷,1643-1649。
[29] 杰克逊,地方检察官。;萨默斯,K.M。;哈维,H.H。;零模型与鱼类群落:非随机模式的证据;美国国家:1992年;第139卷,930-951。
[30] Abdi,H。;奇异值分解和广义奇异值分解;测量与统计百科全书:千橡树,加利福尼亚州,美国2007。
[31] 埃卡特,C。;Young,G。;低阶矩阵对一个矩阵的逼近;《心理测量学》:1936年;第1卷,211-218。
[32] 巴兹列夫斯基;统计因素分析及相关方法:理论与应用:纽约,纽约,美国1994年·Zbl 1130.62341号
[33] Malinvoud,E。;应用社会经济统计中的数据分析,特别考虑对应分析;营销科学学院(AMS)年会论文集:。
[34] Ben Ammou,S。;萨波尔塔,G。;多元对应分析中特征值分布与对数线性模型的关系;Revstat Stat.J.:2003年;第1卷,42-79·Zbl 1057.62043号
[35] Wishart,J。;正态多元总体样本中的广义乘积矩分布;生物医学:1928年;第20卷,32-52。
[36] 安德森,T。;主成分分析的渐近理论;安。数学。统计:1963年;第34卷,第122-148页·Zbl 0202.49504号
[37] Jackson,J.E;主要部件用户指南:美国纽约州纽约市,1991年·Zbl 0743.62047号
[38] 埃夫隆,B。;引导方法:再次审视折刀;Ann.Stat.:1979年;第7卷,1-26·Zbl 0406.62024号
[39] 曼利,B.F;生物学中的随机、自举和蒙特卡罗方法:博卡拉顿,佛罗里达州,美国2007年·Zbl 1269.62076号
[40] 埃夫隆,B。;Tibshirani,R;Bootstrap简介:美国纽约州纽约市,1993年·Zbl 0835.62038号
[41] 巴顿,D。;大卫·F。;关于有序随机区间的几点注记;J.R.统计社会服务。B方法:1956; 第18卷,79-94·Zbl 0071.34802号
[42] Cangelosi,R。;Goriely,A。;主成分分析中的成分保留及其在cDNA微阵列数据中的应用;生物直接:2007年;第2卷,1-21。
[43] Jost,L。;熵与多样性;Oikos:2006年;第113卷,363-375页。
[44] Ter Braak,C.J;CANOCO-A FORTRAN程序,通过[部分][Detrended][Canonical]对应分析、主成分分析和冗余分析进行典型社区排序(2.1版):Wageningen,荷兰,1988年。
[45] Ter Braak,C.J;CANOCO 3.1版,更新说明:Wageningen,荷兰,1990年。
[46] Escoufier,Y。;向量变量特性;生物统计学:1973年;第29卷,751-760。
[47] 罗伯特·P。;Escoufier,Y。;线性多变量统计方法的统一工具:RV系数;申请。统计:1976年;第25卷,257-265。
[48] Josse,J。;帕格斯,J。;Husson,F。;测试RV系数的重要性;计算。统计数据分析:2008; 第53卷,82-91·兹比尔1452.62399
[49] Schönemann,P.H。;R.M.卡罗尔。;在中心扩张和刚性运动的选择下,将一个矩阵拟合到另一个矩阵;《心理测量学》:1970年;第35卷,245-255。
[50] 立柱,V.D。;生态调查中的抽样充分性;文章摘要。机器人:1998年;第22卷,第37-48页。
[51] 斯台普顿,J;线性统计模型:纽约,纽约,美国1995年·Zbl 0854.62059号
[52] 卡马乔,J。;费雷尔,A。;基于元素-wise k-fold(ekf)算法的PCA模型交叉验证:理论方面;化学杂志:2012; 第26卷,第361-373页。
[53] 卡马乔,J。;费雷尔,A。;用元素-wise k-fold(ekf)算法在PCA模型中的交叉验证:实用方面;化学。智力。实验室系统:2014; 第131卷,第37-50页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。