×

高维回归空间中的多影响点检测。 (英语) Zbl 1420.62301号

总结:影响诊断是数据分析的一个组成部分,但在高维回归环境中研究严重不足。即使在固定维度的环境中,关键挑战之一就是如何处理多个产生掩蔽和淹没效果的影响点。通过研究基于边缘相关影响测度的两个极值统计量,提出了一种新的群删除过程,称为多影响点检测。命名为最小和最大统计,它们具有互补性,因为最大统计对于克服掩蔽效应是有效的,而最小统计对于克服淹没效应是有用的。结合它们的优势,我们进一步提出了一种有效的算法,该算法可以检测具有预先指定的错误发现率的影响点。提出的影响点检测方法实现简单,运行效率高,具有诱人的理论特性。通过广泛的仿真研究和数据分析,实证验证了其有效性。实现该程序的R包是免费提供的。

MSC公司:

62J05型 线性回归;混合模型
62G35型 非参数稳健性
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aggarwal,C.C.和Yu,P.S.(2001)高维数据的异常检测。ACM Sigmod记录。, 30, 37- 46.
[2] Belsley,D.A.、Kuh,E.和Welsch,R.E.(1980)回归诊断:识别影响数据和共线性来源。纽约:Wiley·Zbl 0479.62056号
[3] Benjamini,Y.和Hochberg,Y.(1995)控制错误发现率:一种实用且强大的多重测试方法。J.R.统计。Soc公司。B、 第57、289和300页·兹比尔0809.62014
[4] Billor,N.、Hadi,A.S.和Velleman,P.F.(2000)Bacon:阻塞自适应计算高效异常值提名器。计算统计。数据分析。, 34, 279- 298. ·兹比尔1145.62314
[5] Brownlee,K.A.(1965)《科学与工程中的统计理论与方法》,纽约:Wiley出版社·Zbl 0136.39203号
[6] Chatterjee,S.和Hadi,A.S.(1986)影响性观察、高杠杆点和线性回归中的异常值。统计师。科学。, 1, 415- 416. ·Zbl 0633.62059号
[7] Chiang,A.P.,Beck,J.S.,Yen,H.J.,Tayeh,M.K.,Scheetz,T.E.,Swiderski,R.E.,Nishimura,D.Y.,Braun,T.A.,Kim,K.Y.,Huang,J.,Elbedour,K.,Carmi,R.,Slusarski,D.C.,Casavant,T.L.,Stone,E.M.和Sheffield,V.C.(2006)使用SNP阵列的纯合度映射识别trim32,一种e3泛素连接酶,作为Bardet‐Biedl综合征基因(bbs11)。程序。国家。阿卡德。科学。美国, 103, 6287- 6292.
[8] Cook,R.D.(1977)线性回归中影响观察的检测。技术计量学, 19, 15- 18. ·Zbl 0371.62096号
[9] Draper,N.R.和Smith,H.(2014)应用回归分析,第3版。纽约:Wiley·Zbl 0158.17101号
[10] Fan,J.、Fan,Y.和Barut,E.(2014)自适应稳健变量选择。安。统计师。, 42, 324- 351. ·Zbl 1296.62144号
[11] Fan,J.和Lv,J.(2008)超高维特征空间的确定独立筛选(含讨论)。J.R.统计。Soc公司。B、 70849-911·Zbl 1411.62187号
[12] Filzmoser,P.、Maronna,R.A.和Werner,M.(2008)《高维异常识别》。计算统计。数据分析。, 52, 1694- 1711. ·Zbl 1452.62370号
[13] Friedman,J.、Hastie,T.和Tibshirani,R.(2010)通过坐标下降法对广义线性模型进行正则化。J.统计。软件。, 33, 1- 22.
[14] Hadi,A.S.和Simonoff,J.S.(1993)线性模型中多个离群值的识别程序。《美国统计杂志》。助理。, 88, 1264- 1272.
[15] Hawkins,D.M.、Dan,B.和Kass,G.V.(1984)使用元素集在多元回归数据中定位几个异常值。技术计量学, 26, 197- 208.
[16] Huang,J.,Ma,S.和Zhang,C.H.(2006)稀疏高维回归的自适应套索。统计师。罪。, 18, 1603- 1618. ·兹比尔1255.62198
[17] Huber,P.J.和Ronchetti,E.M.(2009)《稳健统计》,第2版。纽约:斯普林格·Zbl 1276.62022号
[18] Imon,A.H.M.R.(2005)确定线性回归中的多个有影响力的观察结果。J.应用。统计师。, 32, 929- 946. ·Zbl 1121.62404号
[19] Lawrance,A.J.(1995)回归中的删除影响和掩蔽。J.R.统计。Soc公司。B、 第57181至189页·Zbl 0825.62578号
[20] Maronna,R.A.(2011)高维数据的稳健岭回归。技术计量学, 53, 44- 53.
[21] Maronna,R.A.、Martin,R.D.和Yohai,V.J.(2006)《稳健统计:理论和方法》。纽约:Wiley·邮编1094.62040
[22] Nurunabi,A.A.M.(2011)线性回归中影响观察的诊断措施。Communs Statist公司。理论方法。, 40, 1169- 1183. ·Zbl 1220.62094号
[23] Nurunabi,A.A.M.、Hadi,A.S.和Imon,A.H.M.R.(2014)《线性回归中多重影响观测值的识别程序》。J.应用。统计师。, 41, 1315- 1331. ·Zbl 1352.62111号
[24] Pan,J.,Fung,W.和Fang,K.(2000)使用投影追踪技术检测多元数据中的多个离群值。J.统计。计划信息。, 83, 153- 167. ·Zbl 0970.62041号
[25] Ro,K.,Zou,C.,Wang,Z.和Yin,G.(2015)高维数据的离群点检测。生物特征, 102, 589- 599. ·Zbl 1452.62378号
[26] Roberts,S.、Martin,M.A.和Zheng,L.(2015)一种用于检测回归影响的自适应自动多案例删除技术。技术计量学, 57, 408- 417.
[27] Rousseeuw,P.和Hubert,M.(2011)异常值检测的稳健统计。数据挖掘知识。发现。, 1, 73- 79.
[28] Rousseeuw,P.J.和Leroy,A.M.(1987)稳健回归和异常检测。纽约:Wiley·Zbl 0711.62030号
[29] Rousseeuw,P.J.和van Zomeren,B.C.(1990)揭示多元异常值和杠杆点。《美国统计杂志》。助理。, 85, 633- 639.
[30] Satopaa,V.、Albrecht,J.R.、Irwin,D.E.和Raghavan,B.(2011)《在干草堆中发现膝盖:检测系统行为中的膝盖点》。程序中。《分布式计算系统国际会议》,明尼阿波利斯,第166-171页。纽约:电气和电子工程师协会。
[31] She,Y.和Owen,A.B.(2011)使用非凸惩罚回归进行异常值检测。《美国统计杂志》。助理。, 106, 626- 639. ·兹比尔1232.62068
[32] Shieh,A.D.和Hung,Y.S.(2009)检测微阵列数据中的异常样本。统计师。申请。遗传学。摩尔。生物。, 8, 1- 24. ·兹比尔1276.62092
[33] Smucler,E.和Yohai,V.J.(2017)线性回归模型的稳健和稀疏估计。计算统计。数据分析。, 111, 116- 130. ·Zbl 1464.62164号
[34] Tibshirani,R.(1996)通过套索进行回归收缩和选择。J.R.统计。Soc公司。B、 第58、267和288页·Zbl 0850.62538号
[35] Velleman,P.F.和Welsch,R.E.(1981)回归诊断的有效计算。美国统计局, 35, 234- 242. ·Zbl 0475.65099号
[36] Wang,H.,Li,G.和Jiang,G..(2007)通过LAD‐Lasso稳健回归收缩和一致变量选择。J.总线。经济。统计师。, 25, 347- 355.
[37] Welsch,R.E.(1982)影响函数和回归诊断。现代数据分析。纽约:学术出版社。
[38] Welsch,R.E.和Kuh,E.(1977)线性回归诊断。技术报告923‐77剑桥麻省理工学院斯隆管理学院。
[39] Zhao,J.、Leng,C.、Li,L.和Wang,H.(2013)高维影响测量。安。统计师。, 41, 2639- 2667. ·兹比尔1360.62411
[40] Zhu,H.、Ibrahim,J.G.和Cho,H.(2012)扰动和缩放库克距离。安。统计师。, 40, 785- 811. ·Zbl 1273.62180号
[41] Zhu,H.、Ibrahim,J.G.、Lee,S.和Zhang,H.(2007)局部影响分析中的扰动选择和影响措施。安。统计师。, 35, 2565- 2588. ·Zbl 1129.62068号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。