×

存在单元格和案例离群值时的稳健回归估计和变量选择。 (英语) 兹比尔1488.62113

小结:回归分析的两个主要问题是存在异常值时的估计和变量选择。将流行的稳健回归估计方法与变量选择方法相结合,同时实现稳健估计和变量选择。然而,最近的研究表明,在这些估计和变量选择过程中使用的稳健估计方法仅能抵抗数据中的案例(行)异常值。因此,由于这些稳健的变量选择方法可能无法处理数据中的单元格异常值,因此当单元格异常值与案例异常值同时存在时,应格外小心。在本研究中,我们提出了一种稳健的估计和变量选择方法来处理数据中的单元格和案例离群值。该方法分为三个步骤。在第一步中,识别、删除每个解释变量中的单元格异常值并用NA符号标记。在第二步中,使用稳健的插补方法对具有NA标志的细胞进行插补。最后,将稳健回归估计方法与变量选择方法LASSO(最小角度解和选择算子)相结合,估计回归参数并选择显著的解释变量。仿真结果和实际数据示例表明,所提出的估计和变量选择方法在单元和案例离群值存在的情况下表现良好。

MSC公司:

62J07型 岭回归;收缩估计器(拉索)
62层35 鲁棒性和自适应程序(参数推理)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] [1] C.Agostinelli,A.Leung,V.J.Yohai和R.H.Zamar,《细胞和病例污染下多变量位置和散布的稳健估计》,Test,24(3),441-4612015年·Zbl 1326.62111号
[2] [2] F.Alqallaf、S.Van Aelst、V.J.Yohai和R.H.Zamar,《多元数据中异常值的传播》,《统计年鉴》。37 (1), 311-331, 2009. ·Zbl 1155.62043号
[3] [3] O.Arslan,回归中稳健参数估计和变量选择的加权LAD-LASSO方法,计算。统计师。数据分析。56 (6), 1952-1965, 2012. ·Zbl 1243.62029号
[4] [4] O.Arslan,带Lγ惩罚的惩罚MM回归估计:桥式回归的稳健版本,统计学50(6),1236-1260,2016·Zbl 1357.62233号
[5] [5] K.V.Branden和S.Verboven,稳健数据插补,计算。生物化学。33 (1), 7-13, 2009. ·Zbl 1158.62074号
[6] [6] M.Danilov,非仿射等变场景中多元分散的稳健估计,不列颠哥伦比亚大学,2010年。
[7] [7] M.Debruyne、S.Höppner、S.Serneels和T.Verdonck,《离群度:哪些变量贡献最大?》?,统计计算。29 (4), 707-723, 2019. ·兹比尔1430.62095
[8] [8] J.Fan、Y.Fan和E.Barut,自适应稳健变量选择,Ann.Statist。42 (1), 324-351, 2014. ·Zbl 1296.62144号
[9] [9] A.Farcomeni,分量污染下稳健k-means聚类的Snipping,Stat.Compute。24 (6), 907-919, 2014. ·Zbl 1332.62203号
[10] [10] P.A.Ferrari、P.Annoni、A.Barbiero和G.Manzi,应用于非线性主成分分析的类别变量插补方法,计算。统计师。数据分析。55 (7), 2410-2420, 2011. ·Zbl 1328.65028号
[11] [11] A.E.Hoerl和R.W.Kennard,非正交问题的岭回归有偏估计,技术计量学12(1),55-671970·Zbl 0202.17205号
[12] [12] A.Leung,H.Zhang和R.Zamar,存在细胞和案例污染时的稳健回归估计和推断,计算。统计师。数据分析。99, 1-11, 2016. ·Zbl 1468.62118号
[13] [13] A.Leung,V.Yohai和R.Zamar,细胞和案例污染下的多元位置和散布矩阵估计,计算。统计师。数据分析。111, 59-76, 2017. ·Zbl 1464.62119号
[14] [14] J.Machkour、B.Alt、M.Muma和A.M.Zoubir,《离群校正数据自适应拉索:独立污染模型的新稳健估计量》,第25届欧洲信号处理会议(EUSIPCO),IEEE,1649-16532017年。
[15] [15] R.A.Maronna,高维数据的稳健岭回归,Technometrics 53(1),44-532011。
[16] [16] R.A.Maronna、R.D.Martin、V.J.Yohai和S.B.Matías,《稳健统计:理论和方法(与R)》,John Wiley&Sons出版社,2019年·Zbl 1409.62009号
[17] [17] V.Ollerer,A.Andreas和C.Croux,稳健回归的射门S-估计,计算。统计师。31 (3), 829-844, 2016. ·Zbl 1347.65027号
[18] [18] J.Raymaekers和P.J.Rousseeuw,通过协方差矩阵的稳健估计标记和处理细胞级异常值,arXiv预印本arXiv:1912.124462019·Zbl 1460.62083号
[19] [19] J.Raymaekers、P.J.Rousseeuw、W.Van den Bossche和M.Hubert,cellWise:使用cellWise异常值分析数据,CRAN,R包版本:2.0.92019。
[20] [20] P.J.Rousseeuw和W.Van den Bossche,《检测偏差数据单元》,《技术计量学》60(2),135-1452018年。
[21] [21]P.J.Rousseeuw和A.M.Leroy,稳健回归和离群值检测,John Wiley&Sons,2005年·兹比尔0711.62030
[22] [22]N.Simon,J.Friedman,T.Hastie和R.Tibshirani,通过坐标下降实现Coxs比例风险模型的正则化路径,J.Stat.Softw。39 (5), 1-13, 2011.
[23] [23]T.A.Stamey、J.N.Kabalin、J.E.McNeal、I.Johnstone、M.Iain、F.Freiha、E.A.Redwine和N.Yang,前列腺癌诊断和治疗中的前列腺特异性抗原。二、。经根治性前列腺切除术治疗的患者,J.Urol。141 (5), 1076-1083, 1989.
[24] [24]R.Tibshirani,通过套索进行回归收缩和选择,J.R.Stat.Soc.Ser。B.统计方法。58 (1), 267-288, 1996. ·兹比尔0850.62538
[25] [25]A.Unwin,《多元异常值和O3图》,J.Compute。图表。统计师。28 (3), 635-643, 2019. ·兹比尔07499082
[26] [26]S.Verboven、K.V.Branden和P.Goos,缺失值的顺序插补,计算。生物化学。33 (5-6), 320-327, 2007. ·Zbl 1142.62103号
[27] [27]H.Xu,C.Caramanis和S.Mannor,稳健回归和LASSO,高级神经信息处理系统,1801-18082009·Zbl 1366.62147号
[28] [28]C.Yi和J.Huang,弹性网惩罚huber损失回归和分位数回归的半光滑牛顿坐标下降算法,J.Compute。图表。统计师。26 (3), 547-557, 2017.
[29] [29]J.V.Yohai,回归的高分解点和高效稳健估计,Ann.Statist。15 (2), 642-656, 1987. ·Zbl 0624.62037号
[30] [30]L.Zeng和J.Xie,具有相互依赖结构的数据的正则化和变量选择,2008。
[31] [31]H.Zou和T.Hastie,通过弹性网进行正则化和变量选择,J.R.Stat.Soc.Ser。B.统计方法。67 (2), 301-320, 2005. ·Zbl 1069.62054号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。