×

具有离群值的大型数据集的稀疏回归。 (英语) Zbl 1487.62085号

摘要:线性回归模型仍然是数据科学家的重要工具。然而,许多数据集包含的预测因子比观测值更多。此外,异常值或异常现象也经常出现。本文提出了一种回归分析算法,解决了大数据集的这些典型特征,我们称之为“稀疏打靶S”。由此产生的回归系数是稀疏的,这意味着其中许多系数被设置为零,从而选择最相关的预测因子。该方法的一个显著特点是对数据矩阵单元中的离群值具有鲁棒性。仿真研究表明,该鲁棒变量选择和预测方法具有良好的性能。一个关于汽车油耗的实际数据应用程序证明了它的有用性。

MSC公司:

62J07型 岭回归;收缩估计器(拉索)
62层35 鲁棒性和自适应程序(参数推断)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abolhassani,A。;哈纳,E.J。;Jaridi,M.,《北美汽车行业生产率提高战略的实证分析》,《国际生产经济学杂志》,208,140-159(2019)
[2] Alfons,A.(2016)。robustHD:高维数据的稳健方法。https://CRAN.R-project.org/package=robustHDR包版本0.6.1。
[3] Alfons,A。;克罗克斯,C。;Gelper,S.,用于分析高维大数据集的稀疏最小二乘回归,应用统计年鉴,7,1,226-248(2013)·Zbl 1454.62123号
[4] 阿里,O.G。;Yaman,K.,《使用大型零售数据集训练支持向量回归模型选择行和列》,《欧洲运筹学杂志》,226,3,471-480(2013)·Zbl 1292.62096号
[5] Alqallaf,F。;Van Aelst,S.公司。;尤海,V.J。;Zamar,R.H.,多元数据中异常值的传播,《统计年鉴》,37,1,311-331(2009)·Zbl 1155.62043号
[6] Ang,E。;夸斯尼克,S。;巴亚提,M。;Plambeck,E.L。;Aratow,M.,《准确的急救部门等待时间预测》,《制造和服务运营管理》,18,1,141-156(2016)
[7] Ballings,M。;Van den Poel,D.,《社交媒体中的CRM:预测Facebook使用频率的增长》,《欧洲运筹学杂志》,244,1,248-260(2015)·Zbl 1346.90412号
[8] 贝洛尼,A。;Chernozhukov,V.,《高维稀疏经济计量模型:简介,逆问题和高维估计》,121-156(2011),Springer
[9] Bertsimas,D。;Copenhaver,M.S.,线性回归和矩阵回归中稳健化和正则化等价性的表征,《欧洲运筹学杂志》,270,3,931-942(2018)·Zbl 1403.62040号
[10] Cetin,M.,稳健Liu估计的稳健模型选择标准,《欧洲运筹学杂志》,199,1,21-24(2009)·Zbl 1176.62065号
[11] Chang,L。;罗伯茨,S。;Welsh,A.,使用Tukey的双权重标准进行稳健套索回归,技术计量学,60,1,36-47(2018)
[12] 切尔诺朱科夫,V。;Hansen,C。;Spindler,M.,具有许多控制和工具的线性模型中的后选择和后正则化推理,《美国经济评论》,105,5,486-490(2015)
[13] 克罗克斯,C。;Dehon,C.,Spearman和Kendall相关度量的影响函数,统计方法与应用,19,4,497-515(2010)·Zbl 1332.62186号
[14] 崔,H。;拉贾戈帕兰,S。;Ward,A.R.,使用机器学习方法预测产品退货量,《欧洲运筹学杂志》,281,3,612-627(2020)
[15] Flores,S.,应用于稳健线性回归的最优子集选择问题的SOCP松弛界,《欧洲运筹学杂志》,246,1,44-50(2015)·Zbl 1346.90612号
[16] 弗里德曼,J。;哈斯蒂,T。;Höfling,H。;Tibshirani,R.,路径坐标优化,应用统计年鉴,1,2,302-332(2007)·Zbl 1378.90064号
[17] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《统计学习的要素》(2001),纽约统计史普林格系列·Zbl 0973.62007号
[18] Gerthiss,J。;Tutz,G.,分类解释变量的稀疏建模,应用统计学年鉴,4,4,2150-2180(2010)·兹比尔1220.62092
[19] B.加达。;Naoum-Sawaya,J.,使用支持向量机进行高维数据分类和特征选择,《欧洲运筹学杂志》,265,3,993-1004(2018)·Zbl 1381.62170号
[20] Grznar,J。;普拉萨德,S。;Tata,J.,《神经网络和组织系统:非线性关系建模》,《欧洲运筹学杂志》,181,2939-955(2007)·Zbl 1131.90026号
[21] 黄,T。;费尔德斯,R。;Soopramanien,D.,《竞争信息在预测快速消费品零售产品销售额中的价值和变量选择问题》,《欧洲运筹学杂志》,237,2738-748(2014)
[22] 哈克,N.,《大数据集和机器学习:统计套利的应用》,《欧洲运筹学杂志》,278,1,330-342(2019)·Zbl 1414.91435号
[23] Joki,K。;Bagirov,A.M。;北卡罗来纳州卡米萨。;Mäkelä,M.M。;Taheri,S.,《集群支持向量线性回归》,《欧洲运筹学杂志》,287,1,19-35(2020)·Zbl 1443.90281号
[24] Khan,J.A。;Van Aelst,S.公司。;Zamar,R.H.,基于最小角回归的稳健线性模型选择,美国统计协会杂志,1024801289-1299(2007)·Zbl 1332.62240号
[25] Kurnaz,F.S。;霍夫曼,I。;Filzmoser,P.,高维线性和逻辑回归的鲁棒和稀疏估计方法,化学计学和智能实验室系统,172211-222(2018)
[26] Landajo,M。;de Andres,J。;Lorca,P.,《会计信息横截面分析的稳健神经模型》,《欧洲运筹学杂志》,177,2,1232-1252(2007)·Zbl 1109.62082号
[27] 李,I.G。;张,Q。;Yoon,S.W。;Won,D.,用于经济高效的特征选择的混合整数线性规划支持向量机,基于知识的系统,203106145(2020)
[28] 梁,A。;张,H。;Zamar,R.,《存在细胞和案例污染时的稳健回归估计和推断》,计算统计和数据分析,99,1-11(2016)·Zbl 1468.62118号
[29] 马,S。;费尔德斯,R。;Huang,T.,用高维数据进行需求预测:用类别内和类别间促销信息进行SKU零售额预测的案例,《欧洲运筹学杂志》,249,1,245-257(2016)·Zbl 1346.62165号
[30] Machkour,J。;Alt,B。;Muma,M。;Zoubir,A.M.,异常值校正数据自适应套索:独立污染模型的一种新的鲁棒估计器,2017年第25届欧洲信号处理会议(EUSIPCO),1649-1653(2017),IEEE
[31] Machkour,J。;Muma,M。;Alt,B。;Zoubir,A.M.,独立污染模型的鲁棒自适应套索估计器,《信号处理》,174107608(2020)
[32] Maronna,R.A。;马丁·R·D。;尤海,V.J。;Salibián-Barrera,M.,《稳健统计:理论和方法(与R)》(2018年),威利
[33] Martin-Barragan,B。;里洛,R。;Romo,J.,功能数据的可解释支持向量机,《欧洲运筹学杂志》,232,1,146-155(2014)
[34] 马丁内斯。;施穆克,C。;小Pereverzyev,S。;Pirker,C。;Haltmeier,M.,《非接触环境下客户购买预测的机器学习框架》,《欧洲运筹学杂志》,281,3588-596(2020)
[35] 马西,C。;Johnes,G。;Agasisti,T.,《各国学生和学校表现:机器学习方法》,《欧洲运筹学杂志》,269,3,1072-1085(2018)·Zbl 1388.62378号
[36] 纳泽米,A。;Heidenreich,K。;Fabozzi,F.J.,《使用多因素支持向量回归改进公司债券回收率预测》,《欧洲运筹学杂志》,271,2664-675(2018)·Zbl 1403.91369号
[37] 奥尔克,M.-R。;Tutz,G.,《广义结构模型中惩罚组合的统一框架》,《数据分析和分类进展》,11,1,97-120(2017)·Zbl 1414.62321号
[38] 奥勒勒,V。;Alfons,A。;Croux,C.,稳健回归的射击S-估计器,计算统计学,31,32829-844(2016)·Zbl 1347.65027号
[39] 潘,C.S。;Wong,H.Y.,选择稀疏高维多期投资组合的线性规划模型,《欧洲运筹学杂志》,273,2754-771(2019)·Zbl 1403.90506号
[40] R核心团队(2017)。R: 用于统计计算的语言和环境。奥地利维也纳R统计计算基金会。网址:https://www.R-project.org/
[41] 卢梭,P。;Van Den Bossche,W.,《检测偏差数据单元》,技术计量学,60,2,135-145(2018)
[42] 卢梭,P。;Yohai,V.J.,《利用S-估计量进行稳健回归》(Franke,J.;Härdle,W.;Martin,D.,《稳健和非线性时间序列分析》,统计学讲义,第26卷(1984年),Springer:Springer New York,NY),256-272·Zbl 0567.62027号
[43] Rousseeuw,P.J。;Leroy,A.M.,《稳健回归和异常值检测》,第589卷(2005),John Wiley&Sons
[44] 萨加特,Y.R。;阿赫扎夫,E.-H。;北卡罗来纳州库伦茨。;Desmet,B.,《使用大量宏观经济指标进行战术销售预测》,《欧洲运筹学杂志》,264,2558-569(2018)·Zbl 1376.62116号
[45] Salibian-Barrera,M。;Yohai,V.J.,S回归估计的快速算法,《计算与图形统计杂志》,15,2,414-427(2006)
[46] Smucler,E。;Yohai,V.J.,线性回归模型的稳健和稀疏估计,计算统计和数据分析,111,116-130(2017)·Zbl 1464.62164号
[47] Tibshirani,R.,《通过套索进行回归收缩和选择》,《皇家统计学会期刊:B辑(方法学)》,58,1,267-288(1996)·Zbl 0850.62538号
[48] Tseng,P.,不可微极小化的块坐标下降法的收敛性,优化理论与应用杂志,109,3,475-494(2001)·Zbl 1006.65062号
[49] 威尔姆斯,I。;Gelper,S。;Croux,C.,《企业商业和银行情绪的预测力:高维格兰杰因果关系方法》,《欧洲运筹学杂志》,254,1,138-147(2016)·Zbl 1347.62206号
[50] Yoon,G。;卡罗尔·R·J。;Gaynanova,I.,混合类型数据的稀疏半参数典型相关分析,Biometrika,107,3,609-625(2020)·Zbl 1451.62051号
[51] Zhang,Y。;李,R。;Tsai,C.-L.,通过广义信息准则选择正则化参数,美国统计协会杂志,105,489,312-323(2010)·Zbl 1397.62262号
[52] 邹,H。;哈斯蒂,T。;Tibshirani,R.,《论套索的自由度》,《统计年鉴》,35,52173-2192(2007)·Zbl 1126.62061号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。