×

包含离群值和缺失元素的数据的主成分分析。 (英语) Zbl 1452.62419号

摘要:提出了两种方法来对包含离群情况和缺失元素的数据进行主成分分析(PCA)。首先,提出了一种能够处理此类数据的协方差矩阵的特征分解,但这种方法不适用于变量数量超过案例数量的数据。此外,还提出了一种期望稳健(ER)算法,以便将现有的稳健主成分分析方法应用于包含缺失元素的数据。根据广泛的模拟研究,ER方法对所有相关数据大小都表现良好。通过仿真和实例表明,借助于ER算法,现有的鲁棒PCA方法的特性可以应用于缺少元素的数据。

MSC公司:

62小时25分 因子分析和主成分;对应分析
62层35 鲁棒性和自适应程序(参数推断)
62D10号 缺少数据
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Cheng,T.-S。;Victoria-Feser,M.-P.,《多变量均值和协方差缺失观测值的高分解估计》,英国数学杂志。统计人员。心理学,55,317-335(2002)
[2] 科普特,S。;Victoria-Feser,M.-P.,《计算缺失数据的高分解协方差矩阵的快速算法》。2003年巴黎经济特区Cahiers duépartitement d’econométrie aoót。经济与社会科学学院(2003年),日内瓦大学:瑞士日内瓦大学
[3] Croux,C.,《规模的高效高分解M-估计量》,Statist。探针。莱特。,19, 371-379 (1994) ·Zbl 0791.62034号
[4] 克罗克斯,C。;Haesbroeck,G.,最小协方差行列式散射矩阵估计器的影响函数和效率,J.Multivariate Anal。,71161-190(1999年)·Zbl 0946.62055号
[5] Croux,C.,Ruiz-Gazen,A.,1996年。基于投影寻踪的鲁棒主成分快速算法。摘自:Prat,A.(编辑),COMPSTAT:计算统计学论文集。《物理》,海德堡,第211-216页。;Croux,C.,Ruiz-Gazen,A.,1996年。基于投影寻踪的鲁棒主成分快速算法。摘自:Prat,A.(编辑),COMPSTAT:计算统计学论文集。《物理》,海德堡,第211-216页·Zbl 0900.62300号
[6] 克罗克斯,C。;Ruiz-Gazen,A.,《主成分的高分解估计量:重访投影寻踪法》,《多元分析杂志》。,95, 206-226 (2005) ·Zbl 1065.62040号
[7] 崔,H。;何,X。;Ng,K.W.,基于稳健分散度的主成分渐近分布,生物统计学,90,953-966(2003)·兹比尔1436.62222
[8] Daszykowski,M.,Serneels,S.,Kaczmarek,K.,Van Espen,P.J.,Croux,C.,Walczak,B.,2007年。TOMCAT:用于多元校准技术的MATLAB工具箱。化学家。智力。实验室系统。85, 269-277.; Daszykowski,M.,Serneels,S.,Kaczmarek,K.,Van Espen,P.J.,Croux,C.,Walczak,B.,2007年。TOMCAT:用于多元校准技术的MATLAB工具箱。化学家。智力。实验室系统。85, 269-277.
[9] Davies,L.P。;收集,U.,分解和分组,Ann.统计师。,33, 977-1035 (2005) ·Zbl 1077.62041号
[10] Debruyne,M.、Hubert,M.,2007年。Stahel-Donoho型方法对稳健协方差估计和主成分分析的影响函数。扫描。J.统计。,提交出版。;Debruyne,M.、Hubert,M.,2007年。Stahel-Donoho型方法对稳健协方差估计和主成分分析的影响函数。扫描。J.统计。,提交出版。
[11] Dempster,A.P。;新墨西哥州莱尔德。;Rubin,D.B.,《通过EM算法获得不完整数据的最大可能性》(含讨论),J.Roy。统计人员。Soc.序列号。B、 39、1-38(1977年)·Zbl 0364.62022号
[12] 恩格伦,S。;休伯特,M。;Vanden Branden,K.,《高维稳健PCA三种程序的比较》,澳大利亚。J.统计。,34, 117-126 (2005)
[13] 加拉姆塞基,L.G。;海伦·D·。;莫勒,A.P。;埃恩斯,M。;de Lope,F.,仓燕的年龄依赖性健康状况和鸣叫特征,行为生态学,16580-591(2005)
[14] Grize,Y.L.,Robustheitseigenschaften von Korrelationsschätzungen。Diplorabeit,Eidgenössische Technische Hochschule(ETH)(1978),苏黎世:瑞士苏黎世
[15] 汉佩尔,F.R。;Ronchetti,E.M。;Rousseeuw,P.J。;Stahel,W.A.,《稳健统计:基于影响函数的方法》(1986),威利:威利纽约·Zbl 0593.62027号
[16] Huber,P.,投影追踪,Ann.统计师。,13, 435-475 (1985) ·Zbl 0595.62059号
[17] 休伯特,M。;Rousseeuw,P.J。;Verboven,S.,《稳健主成分的快速方法及其在化学计量学中的应用》,化学计计量学。智力。实验室系统。,60, 101-111 (2002)
[18] 休伯特,M。;Rousseeuw,P.J。;Vanden Branden,K.,《ROBPCA:稳健主成分分析的新方法》,《技术计量学》,47,64-79(2005)
[19] Krzanowski,W.J.,《组间主成分比较》,J.Amer。统计人员。协会,74703-707(1979)·Zbl 0459.62042号
[20] Lax,D.A.,规模稳健估计:长尾对称分布中的有限样本性能,J.Amer。统计人员。协会,80,736-741(1985)
[21] 李·G。;Chen,Z.,稳健分散矩阵和主成分的投影-探索方法:基本理论和蒙特卡罗,J.Amer。统计人员。协会,80,759-766(1985)·Zbl 0595.62060号
[22] Little,R.J.A.,从缺失值数据中稳健估计平均值和协方差矩阵,Appl。统计人员。,37, 23-38 (1988) ·Zbl 0647.62040号
[23] 北卡罗来纳州洛坎托尔。;Marron,J.S。;辛普森,D.G。;北的黎波里。;Zhang,J.T。;Cohen,K.L.,功能数据的主成分分析,Test,8,1-73(1998)·Zbl 0980.62049号
[24] Maronna,R.,基于稳健尺度的主成分和正交回归,技术计量学,47264-273(2005)
[25] Pearson,K.,《关于最接近空间点系的直线和平面》,Philos。Mag.,2559-572(1901年)
[26] Rousseeuw,P.J.,1985年。高崩溃点的多元估计。收录于:Grossmann,W.,Pflug,G.,Vincze,I.,Wertz,W.(编辑),《数理统计与应用》,第B.Reidel卷,Dordrecht,第283-297页。;卢梭,P.J.,1985年。高崩溃点的多元估计。收录于:Grossmann,W.,Pflug,G.,Vincze,I.,Wertz,W.(编辑),《数理统计与应用》,第B.Reidel卷,Dordrecht,第283-297页·Zbl 0609.62054号
[27] Rousseeuw,P.J.,1999年。Maxbias曲线。收录于:Kotz,S.、Read,C.、Banks,D.(Eds.),《统计科学百科全书》,更新第3卷。威利,纽约,第441-443页。;Rousseeuw,P.J.,1999年。最大偏差曲线。收录:Kotz,S.,Read,C.,Banks,D.(编辑),《统计科学百科全书》,更新第3卷。纽约威利出版社,第441-443页·Zbl 0919.62001号
[28] Rousseeuw,P.J。;Croux,C.,《中值绝对偏差的替代方法》,J.Amer。统计人员。协会,88,1273-1283(1994)·Zbl 0792.62025号
[29] Rousseeuw,P.J。;Leroy,A.M.,《稳健回归和异常值检测》(1987),威利出版社:威利纽约·Zbl 0711.62030号
[30] Rousseeuw,P.J.,Yohai,V.J.,1984年。通过S-估计量进行稳健回归。摘自:Franke,J.W.、Hardle,P.J.、Martin,R.D.(编辑),《稳健和非线性时间序列分析》。施普林格,纽约,第256-272页。;Rousseeuw,P.J.,Yohai,V.J.,1984年。通过S-估计量进行稳健回归。摘自:Franke,J.W.、Hardle,P.J.、Martin,R.D.(编辑),《稳健和非线性时间序列分析》。施普林格,纽约,第256-272页·Zbl 0567.62027号
[31] Rubin,D.B.,《推断和缺失数据》,《生物统计学》,63,581-592(1976)·Zbl 0344.62034号
[32] Serneels,S。;De Nolf,E。;Van Espen,P.J.,《空间符号预处理:赋予多元估计器适度稳健性的简单方法》,J.Chem。信息。型号。,46, 1402-1409 (2006)
[33] Smiled,A.K。;Geladi,P。;Bro,R.,《多向分析及其在化学科学中的应用》(2004),威利:英国威利奇切斯特出版社
[34] 斯坦尼米罗娃,I。;Walczak,B。;马萨特,D.L。;Simeonov,V.,两种鲁棒PCA算法之间的比较,Chemometr。智力。实验室系统。,71, 83-95 (2004)
[35] Verboven,S。;Hubert,M.,LIBRA:稳健分析的MATLAB库,化学计量学。智力。实验室系统。,75, 127-136 (2005)
[36] Walczak,B。;Massart,D.L.,《处理缺失数据》,第一部分:化学计量学。智力。实验室系统。,58,15-27(2001年)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。