×

成分表的稳健主成分分析。 (英语) Zbl 1521.62295号

摘要:根据两个因素排列的数据表通常可以被视为组成表。一个例子是按性别和年龄阶层划分的失业人数。作为成分分析,相关信息由这样一个表中不同单元格之间的比率组成。这在联合分析几个组成表时尤其有用,其中绝对数字的范围非常不同,例如,如果考虑来自不同国家的失业数据。在对数比方法的框架内,成分表可以分解为独立的和交互的部分,并且可以为这些部分指定正交坐标。然而,这些坐标通常需要一些关于数据的先验知识,并且在探索给定因素之间的关系时不容易处理。在这里,我们提出了一种与中心对数比(clr)系数直接相关的特殊坐标选择,这对于解释表格中的原始单元格特别有用。利用这些坐标,进行稳健的主成分分析(rPCA)以进行降维,从而可以研究因素之间的关系。正交坐标和clr系数之间的联系使得可以应用rPCA,否则会受到clr系数奇异性的影响。

MSC公司:

62至XX 统计学
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aitchison,J.,《成分数据的统计分析》(1986),查普曼和霍尔:查普曼与霍尔,伦敦·Zbl 0688.62004号
[2] 艾奇逊,J。;Greenacre,M.,《成分数据的双谱图》,J.R.Stat.Soc.C-Appl。,51, 375-392 (2002) ·Zbl 1111.62300号 ·数字对象标识代码:10.1111/1467-9876.00275
[3] 布鲁诺,F。;Greco,F。;Ventrucci,M.,成分协变量的时空回归:石膏露头植被建模,环境。经济。Stat.,22,445-463(2015)·文件编号:10.1007/s10651-014-0305-4
[4] 布契亚蒂,A。;埃戈佐克,J.J。;Pawlowsky-Glahn,V.,《地球化学变量行为统计模型的变化图:理论与应用》,J.Hydrol。(金额),519,988-998(2014)·doi:10.1016/j.jhydrol.2014.08.028
[5] Dickhaus,T。;英国斯特拉汉堡。;Schunk,D。;莫西洛·苏亚雷斯,C。;Illig,T。;纳瓦罗,A.,《如何在遗传关联研究中同时分析多个列联表》,Stat.Appl。遗传学。分子生物学。,11, 3026-3034 (2012) ·Zbl 1296.92027号 ·数字对象标识代码:10.1515/1544-6115.1776
[6] 医学硕士Di Palma。;Filzmoser,P。;加洛,M。;Hron,K.,《成分数据的稳健Parafac模型》,J.Appl。统计,45,1347-1369(2018)·Zbl 1516.62252号 ·doi:10.1080/02664763.2017.1381669
[7] Dumuid,D。;斯坦福,T.E。;马丁·费尔南德斯,J.A。;佩迪什奇。;马赫,C.A。;刘易斯,L.K。;Hron,K。;Katzmarzyk,P.T。;查普特,J.P。;Fogelholm,M。;胡,G。;兰伯特,E.V。;Maia,J。;Sarmiento,O.L。;停机位,M。;巴雷拉,T.V。;Broyles,S.T。;Tudor-Locke,C。;Tremblay,M.S。;Olds,T.,《体力活动、久坐时间和睡眠研究的成分数据分析》,统计方法。医学研究(2018)
[8] Egozcue,J.J.、Díaz-Barrero,J.L.和Pawlowsky-Glahn,V.,《二元离散概率的成分分析》,载于《2008年CODAWORK学报》,第三届成分数据分析研讨会,J.Daunis-i-Estadella,J.A.Martín-Fernández,eds.,西班牙吉罗纳大学,2008年·Zbl 1113.46016号
[9] 埃戈佐克,J.J。;Pawlowsky-Glahn,V.,成分数据分析中的零件组及其平衡,数学。地质。,37, 795-828 (2005) ·Zbl 1177.86018号 ·doi:10.1007/s11004-005-7381-9
[10] 埃戈佐克,J.J。;Pawlowsky-Glahn,V。;Mateu-Figueras,G。;Barceló-Vidal,C.,成分数据分析的等距对数比变换,数学。地质。,35, 279-300 (2003) ·Zbl 1302.86024号 ·doi:10.1023/A:1023818214614
[11] 埃戈佐克,J.J。;Pawlowsky-Glahn,V。;坦普尔,M。;Hron,K.,《使用单纯形几何的列联表中的独立性》,Commun。统计理论,44,3978-3996(2015)·兹比尔1327.62360 ·doi:10.1080/03610926.2013.824980
[12] 法切维科娃,K。;赫隆,K。;托多罗夫,V。;郭,D。;Templ,M.,2 x 2成分表统计分析的对数比方法,J.Appl。统计,41,944-958(2014)·Zbl 1352.62029号 ·doi:10.1080/02664763.2013.856871
[13] 法切维科娃,K。;Hron,K。;托多罗夫,V。;Templ,M.,《坐标系中的成分表分析》,Scand。J.Stat.,43,962-977(2016)·Zbl 1373.62338号 ·doi:10.1111/sjos.12223
[14] 法切维科娃,K。;Hron,K。;托多罗夫,V。;Templ,M.,《合成表坐标表示的一般方法》,Scand。J.Stat.,45,879-899(2018)·Zbl 1408.6211号 ·doi:10.1111/sjos.12326
[15] Filzmoser,P。;Hron,K.,《使用稳健方法对成分数据进行离群检测》,数学。地质科学。,40, 233-248 (2008) ·Zbl 1135.62040号 ·doi:10.1007/s11004-007-9141-5
[16] Filzmoser,P。;Hron,K。;Reimann,C.,《含有离群值的成分数据的主成分分析》,环境计量学,20621-632(2009)·doi:10.1002/env.966
[17] Filzmoser,P.和Hron,K.,《成分数据的稳健性》,摘自《稳健性和复杂数据结构》,C.Becker,R.Fried和S.Kuhnt,eds.,Springer,Berlin,2013年,第117-131页·Zbl 1336.62183号
[18] 菲舍罗娃,E。;Hron,K.,《关于成分数据的正交坐标解释》,数学。地质科学。,43, 455-468 (2011) ·doi:10.1007/s11004-011-9333-x
[19] Herder,C。;拉特曼,W。;斯特拉斯伯格,K。;芬纳,H。;Grallert,H.公司。;胡特,C。;梅辛格,C。;吉格,C。;马丁·S。;Giani,G。;Scherbaum,W.A。;Wichmann,H.E。;Illig,T.,PPARG、IGF2BP2、CDKAL1、HHEX和TCF7L2基因的变体在德国KORA研究中独立于BMI产生2型糖尿病风险,霍姆。Metab公司。决议,40722-726(2008)·doi:10.1055/s-2008-1078730
[20] Hron,K。;Filzmoser,P。;de Caritat,P。;菲舍罗娃,E。;Gardlo,A.,成分数据的加权枢轴坐标及其在地球化学制图中的应用,数学。地质科学。,49, 797-814 (2017) ·Zbl 1369.86019号 ·doi:10.1007/s11004-017-9684-z
[21] 休伯特,M。;Rousseeuw,P.J。;Vanden Branden,K.,《ROBPCA:稳健主成分分析的新方法》,《技术计量学》,47,64-79(2005)·doi:10.1198/00401700400000563
[22] 约翰逊,R。;Wichern,D.,应用多元统计分析(2007年),Prentice-Hall:Prentice-Hall,伦敦·Zbl 1269.62044号
[23] Kalivodová,A。;Hron,K。;Filzmoser,P。;内德克尔,L。;简契科娃,H。;Adam,T.,PLS-DA,成分数据及其在代谢组学中的应用,J.Chemom。,29, 21-28 (2015) ·doi:10.1002/cem.2657
[24] 肯奇洛娃,P。;Filzmoser,P。;Hron,K.,《包括外部非成分变量的成分双位图》,《统计学》,第50期,第1132-1148页(2016年)·Zbl 1359.62223号 ·doi:10.1080/02331888.2015.1135155
[25] Maronna,R。;马丁·R·D。;尤海,V.J.,《稳健统计:理论与方法》(2006),威利出版社,纽约·邮编1094.62040
[26] Mateu-Figueras,G.,Pawlowsky-Glahn,V.和Egozcue,J.J.,《坐标工作原理》,《成分数据分析:理论与应用》,威利,奇切斯特出版社,2011年,第31-42页。
[27] 经合组织统计,2010年按性别和年龄分列的失业率。可在http://stats.oecd.org/。
[28] 经合组织统计、教育和培训——2010年。可在http://stats.oecd.org/。
[29] 经合组织统计数据,贸易和环境政策指标——贸易中的碳排放量——2011年。可在http://stats.oecd.org/。
[30] 经合组织统计,《环境——物质资源——2017》。可在http://stats.oecd.org/。
[31] 经合组织统计数据,《环境-保护区生物多样性》(2018年)。可在http://stats.oecd.org/。
[32] 马里兰州奥尔特戈。;Egozcue,J.J.,列联表正交分解的贝叶斯估计,澳大利亚。J.Stat.,45,45-56(2016)·doi:10.17713/ajs.v45i4.136
[33] Pawlowsky-Glahn,V。;Egozcue,J.J.,《单形统计分析的几何方法》,Stoch。环境。风险研究A,15,384-398(2001)·Zbl 0987.62001号 ·doi:10.1007/s004770100077
[34] Pawlowsky-Glahn,V.,《坐标统计建模》,吉罗纳大学,2003年。可在http://ima.udg.es/Activits/CoDaWork2003/。
[35] Pawlowsky-Glahn,V。;埃戈佐克,J.J。;Tolosana-Delgado,R.,《成分数据建模与分析》(2015年),威利:威利,奇切斯特
[36] R核心团队,R:统计计算的语言和环境,R统计计算基金会,奥地利维也纳,2018年。可在https://www.R-project.org/。
[37] Templ,M.、Hron,K.和Filzmoser,P.,《成分:成分数据分析中成分数据稳健统计分析的R包》。《理论与应用》,V.Pawlowsky-Glahn和A.Buccianti编辑,Wiley,Chichester,2011年,第341-355页。
[38] 联合国数据,2011年男女青年失业率。可在http://data.un.org/DocumentData.asp/x?id=264#30。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。