×

官方统计中的异常值。 (英语) Zbl 1466.62323号

摘要:这份手稿的目的是提供一份关于在生成官方统计数据时处理异常值的重要方法的调查。在调查统计中,离群值往往是不可避免的。它们可能会减少调查数据集的信息,并扭曲调查统计数据生成过程中每个步骤的估计。本文定义了每个生产步骤要关注的异常值,并介绍了处理这些异常值的实用方法。统计生产过程大致分为以下三个步骤。第一步是数据清理,需要关注的异常值可能包含要更正的错误。为此,引入了均值向量和协方差矩阵的稳健估计。下一步是插补。在各种插补方法中,回归和比率插补是本文的主题。在这一步中重点关注的异常值并不是错误的,但其极值可能会扭曲参数估计。引入了不受剩余异常值影响的稳健估计量。最后一步是评估和格式化。我们必须小心具有较大设计权重的极值的异常值,因为它们对最终统计产品有相当大的影响。基于前一插补步骤中获得的稳健权重,讨论了控制影响的权重校准方法。虽然本文介绍的多元异常值检测方法大多处于官方统计领域的研究阶段,但也简要提供了一些实际应用的例子。

MSC公司:

62G32型 极值统计;尾部推断
62G35型 非参数稳健性
62甲12 多元分析中的估计
60层10 大偏差
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 安德鲁斯,DF;PJ Bickel;法国汉佩尔;PJ Huber;罗杰斯,WH;Tukey,JW,《位置的稳健估计:调查与进展》(1972),普林斯顿:普林斯顿大学出版社,普林斯顿·Zbl 0254.62001号
[2] Antoch,J。;Ekblom,H.,递归稳健回归计算方面和比较,计算统计与数据分析,1995-128(1995)·Zbl 0875.62144号 ·doi:10.1016/0167-9473(93)E0050-E
[3] Bagheri,A.、Midi,H.、Ganjali,M.和Eftekhari,S.(2010年)。各种影响点诊断方法和稳健回归方法的比较:间质性肺病数据的重新分析。应用数学科学,4(28),1367-1386。https://www.m-hikari.com/ams/ams-2010/ams-25-28-2010/bagheriAMS25-28-2010.pdf。 ·Zbl 1205.62104号
[4] Barcaroli,G.(2002)。Euredit项目:活动和结果。Rivista di statistica足够。
[5] 巴内特,V。;Lewis,T.,《统计数据中的异常值》(1994年),西萨塞克斯:威利,西萨塞克斯·Zbl 0801.62001
[6] Beaton,AE;Tukey,JW,《幂级数的拟合,意义多项式,在光谱数据上说明》,《技术计量学》,第16期,第147-185页(1974年)·Zbl 0282.62057号 ·doi:10.1080/00401706.1974.10489171
[7] Béguin,C.和Hulliger,B.(2003)。不完全调查数据的稳健多元离群值检测和插补。EUREDIT可交付成果,D4/5.2.1/2第C部分。https://www.cs.york.ac.uk/euredit/results/results.html。访问日期:2020年10月19日。
[8] 贝根,C。;Hulliger,B.,《不完全调查数据中的多元离群值检测:流行病算法和转换后的秩相关》,《皇家统计协会杂志》,A辑,167,第2部分,275-294(2004)·兹比尔1408.62017 ·doi:10.1046/j.1467-985X.2003.00753.x
[9] PJ Bickel,《关于线性模型中顺序统计的线性组合的一些类比》,《统计年鉴》,第1期,第4期,第597-616页(1973年)·Zbl 0265.62021号 ·doi:10.1214/aos/1176342457
[10] Bienias,J.L.、Lassman,D.M.、Scheleur,S.A.和Hogan H.(1997)。改进两次机构调查中的离群值检测。联合国统计委员会和联合国欧洲经济委员会(编辑),《统计数据编辑2:方法和技术》,76-83。http://www.unece.org/fileadmin/DAM/stats/publications/editing/SDE2.pdf。2020年10月19日访问。
[11] Billor,N。;哈迪,AS;Velleman,PF,BACON:块自适应计算效率离群值提名器,计算统计与数据分析,34,279-298(2000)·Zbl 1145.62314号 ·doi:10.1016/S0167-9473(99)00101-2
[12] Chambers,RL,离群稳健有限总体估计,美国统计协会杂志,811063-1069(1986)·Zbl 0608.62010 ·doi:10.1080/01621459.1986.10478374
[13] 科克利,CW;Hettmansperger,TP,A有界影响,高分解,有效回归估计,美国统计协会Jorunal,88,640-644(1993)·Zbl 0783.62024号
[14] Cochran,WG,《取样技术》(1977年),纽约:威利·Zbl 0353.62011号
[15] 德瓦尔,T。;Pannekoek,J。;Scholtus,S.,《统计数据编辑和插补手册》(2011年),纽约:威利,纽约·doi:10.1002/9780470904848
[16] 多诺霍,DL;PJ Huber;比克尔,P。;Doksum,K。;霍奇斯,JL Jr,《崩溃点的概念》,《埃里希·莱曼的节日》(1983年),贝尔蒙特:沃兹沃思,贝尔蒙·Zbl 0523.62032号
[17] 联合国欧洲经济委员会(UNECE)。(2000年)《统计数据编辑术语表》,欧洲统计学家会议方法学材料,日内瓦。
[18] Franklin,S.和Brodeur,M.(1997)。一种稳健的多变量异常值检测方法的实际应用。《调查研究方法汇编》(第186-191页)。美国统计协会。http://www.asasrms.org/Proceedings/papers/1997_029.pdf。2020年10月19日访问。
[19] Greene,WH,经济计量分析(2002),《上鞍河:普伦蒂斯·霍尔》,上鞍河
[20] 汉佩尔,FR,稳健性的一般定性定义,《数理统计年鉴》,42,188-1896(1971)·Zbl 0229.62041号 ·doi:10.1214/aoms/1177693054
[21] Hampel,F.R.(1975年)。《超越位置参数:稳健的概念和方法》(含讨论),《ISI公报》,46(第375-391页)。
[22] 汉普尔,F.(2001)。稳健统计:简介和概述。第94号研究报告,苏黎世埃根西奇技术学院(ETH)德国统计研讨会。https://www.research-collection.ethz.ch/bitstream/handle/20.500.11850/145174/1/eth-24068-01.pdf。2020年10月19日查阅。
[23] Henry,K.,&Valliant,R.(2012)《比较替代权重调整方法》,调查研究方法章节。联合统计会议记录(JSM2012),4696-4710。http://www.asasrms.org/Processings/y2012/Files/306157_76012.pdf。2020年10月19日访问。
[24] Hill,R.W.(1977年)。当运营商中存在异常值时的稳健回归。哈佛大学统计系未发表博士论文。
[25] Hodges,J.L.,Jr.(1967)正常样本的效率和一些位置估计的极值容差。第五届伯克利数理统计与概率研讨会论文集,1163-168。https://digitalassets.lib.berkeley.edu/math/ucb/text/math_s5_v1_article-10.pdf。2020年10月19日访问·Zbl 0211.50205号
[26] 荷兰,普华永道;Welsch,RE,使用迭代加权最小二乘的稳健回归,统计学理论和方法中的通信,A6,9,813-827(1977)·Zbl 0376.62035号 ·doi:10.1080/03610927708827533
[27] 霍维茨,DG;DJ Thompson,《有限总体无替代抽样的推广》,美国统计协会杂志,47663-685(1952)·Zbl 0047.38301号 ·网址:10.1080/01621459.1952.10483446
[28] Huber,PJ,位置参数的稳健估计,《数理统计年鉴》,35,1,73-101(1964)·Zbl 0136.39805号 ·doi:10.1214/aoms/1177703732
[29] PJ Huber,《稳健回归:渐近、猜想和蒙特卡罗》,《统计年鉴》,第1期,第5期,第799-821页(1973年)·Zbl 0289.62033号 ·doi:10.1214/aos/1176342503
[30] 休伯,PJ,稳健统计(1981),纽约:威利,纽约·Zbl 0536.62025号 ·doi:10.1002/0471725250
[31] Huber,PJ,有界影响回归的Minimax方面,美国统计协会杂志,78,66-80(1983)·Zbl 0514.62073号 ·doi:10.1080/016214519983.10477928
[32] PJ Huber;Ronchetti,EM,稳健统计(2009),纽约:威利,纽约·Zbl 1276.62022号 ·doi:10.1002/9780470434697
[33] Hulliger,B.和Béguin,C.(2001年)。通过模拟流行病检测多变量异常值。ETK/NTTS 2001年会议记录,667-676。欧盟统计局。doi:10.1.1.519.77282&rep=rep1&type=pdf。2020年10月19日访问。
[34] 科勒,M。;华盛顿州斯塔尔,《小样本稳健回归中的锐化wald-type推断》,计算统计与数据分析,55,8,2504-2515(2011)·Zbl 1464.62105号 ·doi:10.1016/j.csda.2011.02.014
[35] 小,RJA;罗宾,DB,《缺失数据的统计分析》(2002),纽约:威利,纽约·Zbl 1011.62004号 ·doi:10.1002/9781119013563
[36] Maronna,R.A.、Martin,R.D.和Yohai,V.J.(2006)。稳健统计学:理论和方法。威利·邮编1094.62040
[37] Mosteller,F。;Tukey,JW,《数据分析与回归》(1977年),阅读:Addison-Wesley,阅读
[38] Nakamura,H.,《日本官方统计的微数据访问:主要关注现场设施的微数据获取》,《社会学理论与方法》,第32、2、310-320页(2017年)
[39] Noro,T.和Wada,K.(2015)。用于统计调查制表的单变量异常值检测手册(日语)。官方统计研究回忆录,72,41-53。统一资源定位地址https://www.stat.go.jp/training/2kenkyu/ihou/72/pdf/2-2-723.pdf。
[40] 皮尔斯,B.,《拒绝可疑观测的标准》,《天文学杂志II》,45,161-163(1852)·doi:10.1086/100259
[41] Ray,W.J.J.(1983年)。介绍稳健和准稳健统计方法。斯普林格·弗拉格·Zbl 0525.62040号
[42] Rousseeuw,PJ,最小二乘回归,美国统计协会杂志,79,388,871-880(1984)·Zbl 0547.62046号 ·doi:10.1080/016214519984.10477105
[43] 罗素,PJ;格罗斯曼,W。;Pflug,G。;文斯,I。;Wertz,W.,《高崩溃点多元估计》,《数理统计及其应用》,B卷,283-297(1985),多德雷赫特:雷德尔,多德雷赫特·Zbl 0609.62054号 ·文件编号:10.1007/978-94-009-5438-0_20
[44] 罗素,PJ;Leroy,AM,稳健回归和异常值检测(1987),纽约:威利,纽约·兹比尔0711.62030 ·doi:10.1002/0471725382
[45] 罗素,PJ;Van Driessen,K.,最小协方差行列式估计的快速算法,技术计量学,41,212-223(1999)·doi:10.1080/00401706.1999.10485670
[46] 罗素,PJ;尤海,VJ;Franke,J。;Härdle,W。;Martin,D.,通过S估计的稳健回归,稳健和非线性时间序列分析,256-272(1984),纽约:Springer,纽约·Zbl 0567.62027号 ·doi:10.1007/978-14615-7821-5_15
[47] 高桥,M。;川崎,M。;Tsubaki,H.,对异方差对数正态缺失变量的平均值进行插补:比率插补的统一方法,IAOS统计杂志,33763-776(2017)·doi:10.3233/SJI-160306
[48] Teshima,S。;长谷川,Y。;Tatebayashi,K.,《质量识别和预测:使用Mahalanobis-Taguchi系统的智能模式技术》(2012),纽约:动量出版社,纽约·doi:10.5643/9781606503447
[49] Tukey,JW,探索性数据分析(1977),阅读:Addison-Wesley,阅读·Zbl 0409.62003号
[50] Wada K.(2010)。多元异常值的检测:改进的Stahel-Donoho估计量(日语)。官方统计研究回忆录,67,89-157。https://www.stat.go.jp/training/2kenkyu/pdf/ihou/67/wada1.pdf。
[51] Wada,K.(2012)。多元异常值的检测:通过迭代加权最小二乘法进行回归插补(日语)。官方统计研究回忆录,69,23-52。https://www.stat.go.jp/training/2kenkyu/ihou/69/pdf/2-2-692.pdf。
[52] Wang,N。;Raftery,AE,通过最近邻清理的最近邻方差估计(NNVE)稳健协方差估计,美国统计协会杂志,97,260,994-1019(2002)·Zbl 1073.62541号 ·doi:10.1198/016214502388618780
[53] Wada,K。;Kawano,M。;Tsubaki,H.,《近椭圆分布的多元离群值检测方法比较》,《奥地利统计杂志》,49,2,1-17(2020)·doi:10.17713/ajs.v49i2.872
[54] Wada,K.和Noro,T.(2019年)。考虑权重函数的影响和稳健回归估计量表(日语)。官方统计研究备忘录,76101-114。https://www.stat.go.jp/training/2kenkyu/ihou/76/pdf/2-2-767.pdf。
[55] Wada,K.和Sakashita,K.(2017)用于插补的广义鲁棒比率估计量。《统计新技术与新技术学报》(NTTS),比利时布鲁塞尔。https://nt17.pg2.at/data/abstracts/abstract_56.html。于2019年12月14日访问。
[56] Wada,K。;Sakashita,K。;Tsubaki,H.,广义比率模型的稳健估计,奥地利统计杂志,5074-87(2021)·doi:10.17713/ajs.v50i1.994
[57] Wada,K.,Takata,S.&Tsubaki,H.(2019)用于插补的广义稳健比率模型估计算法。在JSM会议记录中,政府统计会议(第3120-3128页)。丹佛:美国统计协会。
[58] Wada,K.和Tsubaki,H.(2013年)。多元异常值检测中改进Stahel-Donoho估计的并行计算。《2013年IEEE云计算和大数据国际会议论文集》(CloudCom-Asia),2013年12月16日至19日,中国福州。https://ieeexplore.ieee.org/document/6821008。2020年10月19日访问。
[59] Wada,K.,&Tsubaki,H.(2018)通过outlienness进行模型辅助设计重量校准(日语)。日本计算统计公报,31(2),101-119。https://www.jstage.jst.go.jp/article/jscswabun/31/2/31_101/_pdf/char/ja。2020年10月19日访问。
[60] Wilcox,R.,稳健估计和假设检验简介(2005),纽约:Elsevier,纽约·Zbl 1113.62036号
[61] Yohai,V.,回归的高分解点和高效估计,《统计年鉴》,15642-665(1987)·Zbl 0624.62037号 ·doi:10.1214/aos/1176350366
[62] Zhang,Z.,参数估计技术:圆锥拟合应用教程,图像和视觉计算,15,1,59-76(1997)·doi:10.1016/S0262-8856(96)01112-2
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。