×

用于结构零成分数据中离群值检测的探索工具。 (英文) Zbl 1516.62625号

小结:使用对数比率方法分析成分数据是基于成分部分之间的比率。因此,零件中的零会给分析带来严重困难。在结构零的情况下,这是一个特殊的问题,不能简单地用非零值替换,例如,对于低于检测极限的值或缺失的值。相反,零将被纳入进一步的统计处理中。重点是探索性工具,用于识别具有结构零的成分数据集中的异常值。为此,估计马氏距离,可以直接计算由零模式确定的子成分,也可以使用插补来提高估计的效率,然后继续计算子成分和子组级别。对于这种方法,提出了一种新的理论,该理论允许估计插补成分数据的协方差,并使用该协方差矩阵的一部分对子群进行估计。此外,使用二进制数据的主成分分析对零模式结构进行分析,以实现对整体多元数据结构的全面了解。拟议的工具适用于官方统计数据中较大的成分数据集,其中显然需要适当处理零。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] J.Aitchison,成分数据的统计分析查普曼和霍尔出版社,伦敦,1986年·兹比尔0688.62004 ·doi:10.1007/978-94-009-4109-0
[2] J.Aitchison和M.Greenacre,合成数据的双像素,J.应用。《统计》第51卷(2002年),第375-392页·Zbl 1111.62300号
[3] J.Aitchison和J.Kay,成分数据分析中一些基本零问题的可能解决方案。第1-6页。可在http://ima.udg.edu/Activits/CoDaWork03/paper_Aitchison_and_Kay.pdf。
[4] A.Alfons和M.Templ,从复杂调查中估算社会排斥指标:R包leeken,J.Statist。柔和。54(2013),第1-25页·doi:10.18637/jss.v054.i15
[5] A.Alfons、S.Kraft、M.Templ和P.Filzmoser,模拟用于家庭调查的接近现实的人口数据,并应用于欧盟-国际生命周期委员会,统计。方法应用。20(2011年),第383-407页·Zbl 1237.91178号 ·doi:10.1007/s10260-011-0163-2
[6] J.Bacon Shone,离散和连续成分,英寸2008年CoDaWork吉罗纳大学。《马蒂马蒂卡·阿普利卡达信息部》,2008年,第11页。
[7] A.Butler和C.Glassbey,零成分数据的潜在高斯模型,J.应用。《美国联邦法律大全》第57卷(2008年),第505-520页。
[8] F.Chebana和T.Ouarda,基于深度的多元描述性统计及其水文应用《地球物理学杂志》。研究:大气。116(2011),第1-19页·doi:10.1029/2010JD015338
[9] X.Dang和R.Serfling,基于深度的非参数多元离群值标识符和掩蔽稳健性特性J.Stat.计划。推断140(2010),第198-213页·Zbl 1191.62084号 ·doi:10.1016/j.jspi.2009.07.004
[10] J.de Leeuw,二值数据的迭代奇异值分解主成分分析,计算。统计数据分析。50(2006),第21-39页·Zbl 1429.62218号 ·doi:10.1016/j.csda.2004.07.010
[11] O.Dupriez,建立家庭消费数据库以计算贫困购买力平价,技术说明,世界银行,2007年,在线阅读http://siteresources.worldbank.org/ICPINT/Resources/270056-1195253046582/Dupriez_BuildingaHHCdatabaseforeCalculationofPovertyPPPs_Mar07.pdf。
[12] JJ公司。埃戈佐,回复“关于哈克变量图;……”作者:J.A.Cortés,数学。地质科学。41(2009年),第829-834页·Zbl 1178.86018号 ·doi:10.1007/s11004-009-9238-0
[13] JJ公司。Egozcue和V.Pawlowsky Glahn,成分数据分析中的零件组及其平衡,数学。地质。37(2005),第795-828页·Zbl 1177.86018号 ·doi:10.1007/s11004-005-7381-9
[14] J.Egozcue和V.Pawlowsky-Glahn,地球科学中的成分数据分析:从理论到实践《成分数据的简单几何》,地质学会,伦敦,2006年,第145-160页,专门出版物264·Zbl 1156.86307号
[15] JJ公司。Egozcue、V.Pawlowsky-Glahn、G.Mateu-Figueras和C.Barceló-Vidal,用于成分数据分析的等距对数比变换,数学。地质。35(2003年),第279-300页·Zbl 1302.86024号 ·doi:10.1023/A:1023818214614
[16] J.Egozcue、V.Pawlowsky-Glahn、G.Mateu-Figueras和C.Barceló-Vidal,成分数据分析:理论与应用,元素。单纯形线性代数几何。奇切斯特·威利,2011年,139-145·doi:10.1002/9781119976462.62ch11
[17] 欧盟统计局,目标变量描述:横向和纵向,EU-SILC 065/04,E-2单元:生活条件,E局:社会和区域统计及地理信息系统,欧盟统计局,卢森堡,2004年。
[18] P.Filzmoser和K.Hron,基于稳健方法的成分数据异常检测,数学。地质科学。40(2008),第233-248页·兹比尔1135.62040 ·doi:10.1007/s11004-007-9141-5
[19] P.Filzmoser、K.Hron和C.Reimann,含有离群值成分数据的主成分分析《环境计量学》第20卷(2009年),第621-632页·doi:10.1002/env.966
[20] P.Filzmoser、K.Hron和C.Reimann,成分数据多元异常值的解释,计算。地质科学。39(2012),第77-85页·doi:10.1016/j.cageo.2011.06.014
[21] JM.Fry、TR.Fry和KR.McLaren,组成数据分析和微观数据中的零,申请。经济学。32(2000),第953-959页,在线阅读http://www.tandfonline.com/doi/abs/101080/000368400322002。
[22] K.R.加布里埃尔,矩阵的双槽图形显示及其在主成分分析中的应用《生物统计学》第58卷(1971年),第453-467页·Zbl 0228.62034号 ·doi:10.1093/biomet/58.3453
[23] J.吉尔福德,心理测量方法《麦克劳·希尔心理学系列》,麦克劳·希尔纽约,1954年。
[24] K.Hron、M.Templ和P.Filzmoser,使用经典和稳健方法对成分数据的缺失值进行插补,计算。统计师。数据分析。54(2010年),第3095-3107页·Zbl 1284.62049号 ·doi:10.1016/j.csda.2009.11.023
[25] S.Lee,JZ。黄和胡锦涛,二进制数据的稀疏logistic主成分分析,Ann.应用。《统计》第4卷(2010年),第1579-1601页,网址:http://dx.doi.org/10.1214/10-AOAS327。 ·Zbl 1202.62084号 ·doi:10.1214/10-AOAS327
[26] 青年成就组织。马丁·费尔南德斯(Martín-Fernández)、C.Barceló-Vidal和V.Pawlowsky-Glahn,使用非参数插补处理成分数据集中的零和缺失值,数学。地质。35(2003),第253-278页·Zbl 1302.86027号 ·doi:10.1023/A:1023866030544
[27] J.Martín-Fernández、J.Palarea Albaladejo和R.Olea,成分数据分析:理论与应用《与零打交道》,威利,奇切斯特,2011年,第43-58页·数字对象标识代码:10.1002/9781119976462.4h4
[28] 青年成就组织。马丁·费尔南德斯(Martín-Fernández)、K.Hron、M.Templ、P.Filzmoser和J.Palarea-Albaladejo,基于模型替换成分数据中的四舍五入零:经典和稳健方法,计算。统计师。数据分析。C 56(2012),第2688-2704页·Zbl 1255.62116号 ·doi:10.1016/j.csda.2012.02.012
[29] J.Martín-Fernández、K.Hron、M.Templ、P.Filzmoser和J.Palarea-Albaladejo,组合数据集中计数零点的贝叶斯乘法处理,统计模型。15(2015),doi:10.1177/1471082X14535524·兹比尔1255.62116 ·doi:10.1177/1471082X14535524
[30] B.Meindl、M.Templ、A.Alfons和A.Kowarik,simPop:考虑辅助信息的调查数据合成总体模拟,2015年,网址:http://CRAN.R-project.org/package=simPop,##img####img####img##\(\mathsf{R}\)包版本0.2.9。
[31] V.Pawlowsky-Glahn和A.Buccianti,成分数据分析:理论与应用,奇切斯特威利出版社,2011年·Zbl 1103.62111号 ·doi:10.1002/9781119976462
[32] V.Pawlowsky-Glahn、J.Egozcue和R.Tolosana-Delgado,合成数据的建模与分析,威利,奇切斯特,2015年。
[33] P.Rousseeuw和K.von Driessen,最小协方差行列式估计的快速算法《技术计量学》41(1999),第212-223页。
[34] JL公司。Scealy和AH。威尔士的,使用超球面上定义的分布回归成分数据,J.R.Stat.Soc.Ser.,《美国国家统计年鉴》。B.统计方法。73(2011),第351-375页·Zbl 1411.62179号 ·文件编号:10.1111/j.1467-9868.2010.00766.x
[35] C.Stewart和C.Field,定量脂肪酸特征分析中的基本零点管理,农业杂志。生物与环境。《法律总汇》第16页(2010年),第45-69页·Zbl 1306.62237号 ·doi:10.1007/s13253-010-0040-8
[36] F.Tang和H.Tao,二元主成分分析,程序中。英国机器视觉会议,第一卷2006年,第377-386页。
[37] M.Templ、A.Alfons和P.Filzmoser,使用可视化技术探索不完整数据高级数据分析。分类。6(2012),第29-47页·doi:10.1007/s11634-011-0102-y
[38] M.Templ、K.Hron和P.Filzmoser,robCompositions:《成分数据分析:理论与应用》中用于成分数据稳健统计分析的R包,V.Pawlowsky-Glahn和A.Buccianti编辑,Wiley,Chichester,2011年,第341-355页·doi:10.1002/9781119976462.ch25
[39] M.Templ、K.Hron和P.Filzmoser,成分数据的稳健估计,2015年,网址:https://github.com/matthias-da/robCompositions网站,R软件包版本1.9.2·Zbl 1304.65033号
[40] V.Todorov、M.Templ和P.Filzmoser,不完全信息下商业调查数据中多变量异常值的检测高级数据分析。分类。5(2011年),第37-56页·doi:10.1007/s11634-010-0075-2
[41] O.Troyanskaya、M.Cantor、G.Sherlock、P.Brown、T.Hastie、R.Tibshirani、D.Botstein和RB。奥尔特曼,dna微阵列的缺失值估计方法《生物信息学》17(2001),第520-525页·doi:10.1093/bioinformatics/17.6.520
[42] K.van den Boogaart和R.Tolosana-Delgado,用R分析成分数据海德堡施普林格出版社,2013年·Zbl 1276.62011年 ·doi:10.1007/978-3-642-36809-7
[43] H.Wang、Q.Liu、HMK。莫、李甫和W.Man Tse,成分数据的超球面变换预测模型,欧洲药典。第179号决议(2007年),第459-468页·Zbl 1114.90049号 ·doi:10.1016/j.ejor.2006.03.039
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。