赵俊龙;刘超;牛、鲁;冷、陈雷 高维回归空间中的多影响点检测。 (英语) Zbl 1420.62301号 J.R.Stat.Soc.,塞尔维亚。B、 统计方法。 81,第2号,385-408(2019). 总结:影响诊断是数据分析的一个组成部分,但在高维回归环境中研究严重不足。即使在固定维度的环境中,关键挑战之一就是如何处理多个产生掩蔽和淹没效果的影响点。通过研究基于边缘相关影响测度的两个极值统计量,提出了一种新的群删除过程,称为多影响点检测。命名为最小和最大统计,它们具有互补性,因为最大统计对于克服掩蔽效应是有效的,而最小统计对于克服淹没效应是有用的。结合它们的优势,我们进一步提出了一种有效的算法,该算法可以检测具有预先指定的错误发现率的影响点。提出的影响点检测方法实现简单,运行效率高,具有诱人的理论特性。通过广泛的仿真研究和数据分析,实证验证了其有效性。实现该程序的R包是免费提供的。 引用于4文件 MSC公司: 62J05型 线性回归;混合模型 62G35型 非参数稳健性 62页第10页 统计学在生物学和医学中的应用;元分析 关键词:错误发现率;组删除;高维线性回归;影响点检测;掩蔽和淹没;稳健统计;诊断 软件:mvBACON公司;格尔姆奈特;鲁棒基地;R(右) PDF格式BibTeX公司 XML格式引用 \textit{J.Zhao}等人,J.R.Stat.Soc.,Ser。B、 统计方法。81,No.2,385--408(2019;Zbl 1420.62301) 全文: 内政部 arXiv公司 OA许可证 参考文献: [1] Aggarwal,C.C.和Yu,P.S.(2001)高维数据的异常检测。ACM Sigmod记录。, 30, 37- 46. [2] Belsley,D.A.、Kuh,E.和Welsch,R.E.(1980)回归诊断:识别影响数据和共线性来源。纽约:Wiley·Zbl 0479.62056号 [3] Benjamini,Y.和Hochberg,Y.(1995)控制错误发现率:一种实用且强大的多重测试方法。J.R.统计。Soc公司。B、 第57、289和300页·兹比尔0809.62014 [4] Billor,N.、Hadi,A.S.和Velleman,P.F.(2000)Bacon:阻塞自适应计算高效异常值提名器。计算统计。数据分析。, 34, 279- 298. ·兹比尔1145.62314 [5] Brownlee,K.A.(1965)《科学与工程中的统计理论与方法》,纽约:Wiley出版社·Zbl 0136.39203号 [6] Chatterjee,S.和Hadi,A.S.(1986)影响性观察、高杠杆点和线性回归中的异常值。统计师。科学。, 1, 415- 416. ·Zbl 0633.62059号 [7] Chiang,A.P.,Beck,J.S.,Yen,H.J.,Tayeh,M.K.,Scheetz,T.E.,Swiderski,R.E.,Nishimura,D.Y.,Braun,T.A.,Kim,K.Y.,Huang,J.,Elbedour,K.,Carmi,R.,Slusarski,D.C.,Casavant,T.L.,Stone,E.M.和Sheffield,V.C.(2006)使用SNP阵列的纯合度映射识别trim32,一种e3泛素连接酶,作为Bardet‐Biedl综合征基因(bbs11)。程序。国家。阿卡德。科学。美国, 103, 6287- 6292. [8] Cook,R.D.(1977)线性回归中影响观察的检测。技术计量学, 19, 15- 18. ·Zbl 0371.62096号 [9] Draper,N.R.和Smith,H.(2014)应用回归分析,第3版。纽约:Wiley·Zbl 0158.17101号 [10] Fan,J.、Fan,Y.和Barut,E.(2014)自适应稳健变量选择。安。统计师。, 42, 324- 351. ·Zbl 1296.62144号 [11] Fan,J.和Lv,J.(2008)超高维特征空间的确定独立筛选(含讨论)。J.R.统计。Soc公司。B、 70849-911·Zbl 1411.62187号 [12] Filzmoser,P.、Maronna,R.A.和Werner,M.(2008)《高维异常识别》。计算统计。数据分析。, 52, 1694- 1711. ·Zbl 1452.62370号 [13] Friedman,J.、Hastie,T.和Tibshirani,R.(2010)通过坐标下降法对广义线性模型进行正则化。J.统计。软件。, 33, 1- 22. [14] Hadi,A.S.和Simonoff,J.S.(1993)线性模型中多个离群值的识别程序。《美国统计杂志》。助理。, 88, 1264- 1272. [15] Hawkins,D.M.、Dan,B.和Kass,G.V.(1984)使用元素集在多元回归数据中定位几个异常值。技术计量学, 26, 197- 208. [16] Huang,J.,Ma,S.和Zhang,C.H.(2006)稀疏高维回归的自适应套索。统计师。罪。, 18, 1603- 1618. ·兹比尔1255.62198 [17] Huber,P.J.和Ronchetti,E.M.(2009)《稳健统计》,第2版。纽约:斯普林格·Zbl 1276.62022号 [18] Imon,A.H.M.R.(2005)确定线性回归中的多个有影响力的观察结果。J.应用。统计师。, 32, 929- 946. ·Zbl 1121.62404号 [19] Lawrance,A.J.(1995)回归中的删除影响和掩蔽。J.R.统计。Soc公司。B、 第57181至189页·Zbl 0825.62578号 [20] Maronna,R.A.(2011)高维数据的稳健岭回归。技术计量学, 53, 44- 53. [21] Maronna,R.A.、Martin,R.D.和Yohai,V.J.(2006)《稳健统计:理论和方法》。纽约:Wiley·邮编1094.62040 [22] Nurunabi,A.A.M.(2011)线性回归中影响观察的诊断措施。Communs Statist公司。理论方法。, 40, 1169- 1183. ·Zbl 1220.62094号 [23] Nurunabi,A.A.M.、Hadi,A.S.和Imon,A.H.M.R.(2014)《线性回归中多重影响观测值的识别程序》。J.应用。统计师。, 41, 1315- 1331. ·Zbl 1352.62111号 [24] Pan,J.,Fung,W.和Fang,K.(2000)使用投影追踪技术检测多元数据中的多个离群值。J.统计。计划信息。, 83, 153- 167. ·Zbl 0970.62041号 [25] Ro,K.,Zou,C.,Wang,Z.和Yin,G.(2015)高维数据的离群点检测。生物特征, 102, 589- 599. ·Zbl 1452.62378号 [26] Roberts,S.、Martin,M.A.和Zheng,L.(2015)一种用于检测回归影响的自适应自动多案例删除技术。技术计量学, 57, 408- 417. [27] Rousseeuw,P.和Hubert,M.(2011)异常值检测的稳健统计。数据挖掘知识。发现。, 1, 73- 79. [28] Rousseeuw,P.J.和Leroy,A.M.(1987)稳健回归和异常检测。纽约:Wiley·Zbl 0711.62030号 [29] Rousseeuw,P.J.和van Zomeren,B.C.(1990)揭示多元异常值和杠杆点。《美国统计杂志》。助理。, 85, 633- 639. [30] Satopaa,V.、Albrecht,J.R.、Irwin,D.E.和Raghavan,B.(2011)《在干草堆中发现膝盖:检测系统行为中的膝盖点》。程序中。《分布式计算系统国际会议》,明尼阿波利斯,第166-171页。纽约:电气和电子工程师协会。 [31] She,Y.和Owen,A.B.(2011)使用非凸惩罚回归进行异常值检测。《美国统计杂志》。助理。, 106, 626- 639. ·兹比尔1232.62068 [32] Shieh,A.D.和Hung,Y.S.(2009)检测微阵列数据中的异常样本。统计师。申请。遗传学。摩尔。生物。, 8, 1- 24. ·兹比尔1276.62092 [33] Smucler,E.和Yohai,V.J.(2017)线性回归模型的稳健和稀疏估计。计算统计。数据分析。, 111, 116- 130. ·Zbl 1464.62164号 [34] Tibshirani,R.(1996)通过套索进行回归收缩和选择。J.R.统计。Soc公司。B、 第58、267和288页·Zbl 0850.62538号 [35] Velleman,P.F.和Welsch,R.E.(1981)回归诊断的有效计算。美国统计局, 35, 234- 242. ·Zbl 0475.65099号 [36] Wang,H.,Li,G.和Jiang,G..(2007)通过LAD‐Lasso稳健回归收缩和一致变量选择。J.总线。经济。统计师。, 25, 347- 355. [37] Welsch,R.E.(1982)影响函数和回归诊断。现代数据分析。纽约:学术出版社。 [38] Welsch,R.E.和Kuh,E.(1977)线性回归诊断。技术报告923‐77剑桥麻省理工学院斯隆管理学院。 [39] Zhao,J.、Leng,C.、Li,L.和Wang,H.(2013)高维影响测量。安。统计师。, 41, 2639- 2667. ·兹比尔1360.62411 [40] Zhu,H.、Ibrahim,J.G.和Cho,H.(2012)扰动和缩放库克距离。安。统计师。, 40, 785- 811. ·Zbl 1273.62180号 [41] Zhu,H.、Ibrahim,J.G.、Lee,S.和Zhang,H.(2007)局部影响分析中的扰动选择和影响措施。安。统计师。, 35, 2565- 2588. ·Zbl 1129.62068号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。