×

杠杆最小修剪绝对偏差。 (英语) Zbl 1473.62244号

摘要:设计不受离群值影响的回归模型是一项重要任务,在过去几十年中,这是统计界众多论文的主题。稳健回归模型的突出例子是最小修剪平方(LTS),其中忽略了最大平方偏差,最小修剪绝对偏差(LTA)忽略了最大绝对偏差。两种模型的数值复杂性都是由二进制变量的数量和被忽略偏差的值(k)决定的。我们引入了杠杆最小修剪绝对偏差(LLTA),它利用了LTA已经对离群值免疫的特性。因此,LLTA只需防范(x)中的离群值,即所谓的杠杆点,与(y)离群值相比,杠杆点可以提前计算。因此,虽然LTS和LTA的混合整数公式具有与数据点一样多的二进制变量,但LLTA每个杠杆点只需要一个二进制变量,从而显著减少了二进制变量。基于文献中的11个数据集,我们证明:(1)LLTA的预测质量比LTS提高得快,并且随着\(k\)值的增加,与LTA一样快;(2)LLTA解决基准问题的速度比LTS快约80倍,比LTA快约5倍。

MSC公司:

62J05型 线性回归;混合模型
62-04 统计相关问题的软件、源代码等
90立方厘米 混合整数编程
90立方 非线性规划
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 阿加瓦尔,CC;Hinneburg,A。;Keim,DA;Van den Bussche,J。;维亚努,V.,《关于高维空间中距离度量的惊人行为》,数据库理论-ICDT 2001,420-434(2001),柏林:施普林格出版社,柏林·Zbl 1047.68038号 ·doi:10.1007/3-540-44503-X_27
[2] 巴塞特,GW Jr,等变,单调,50
[3] Bernholt T(2006)稳健估计很难计算。技术代表
[4] Bertsimas D,Dunn J(2019)现代优化视角下的机器学习。Dynamic Ideas有限责任公司。https://books.google.de/books?id=g3ZWygEACAAJ
[5] Bertsimas,D。;金·A。;Mazumder,R.,《通过现代优化透镜选择最佳子集》,Ann Stat,44,813-852(2016)·Zbl 1335.62115号 ·doi:10.1214/15-AOS1388
[6] Bishop,CM,模式识别和机器学习(2006),柏林:Springer,柏林·兹比尔1107.68072
[7] Bixby,RE,线性和混合整数编程计算简史,Doc Math,Extra vol.:Optimization Stories,107-121(2012)·1270.90003赞比亚比索
[8] Breiman,L.,《统计建模:两种文化》(附有作者的评论和反驳),《统计科学》,16,3,199-231(2001)·Zbl 1059.62505号 ·doi:10.1214/ss/1009213726
[9] Chatzinakos,C。;Pitsoulis,L。;Ziotas,G.,稳健多元位置和散射估计的优化技术,J Comb Optim,31,4,1443-1460(2016)·Zbl 1338.90334号 ·doi:10.1007/s10878-015-9833-6
[10] Clark LA,Pregibon D(2017),基于树的模型。收录:S.Routledge的统计模型,第377-419页
[11] Diaconis,P。;Efron,B.,《统计中的计算机密集型方法》,《科学与Am》,第248、5、116-131页(1983年)·doi:10.1038/科学美国人0583-116
[12] Dodge,Y.,用于检测响应和解释变量中异常值的Lad回归,J Multivar Anal,61,144-158(1997)·兹比尔0877.62067 ·doi:10.1006/jmva.1997.1666
[13] 以西结,M。;Fox,KA,《相关和回归分析方法:线性和曲线》(1959年),霍博肯:威利·Zbl 0086.35504号
[14] Flores S(2011)稳健统计中的全局优化问题。博士论文
[15] Goldberg N,Rebennack S,Kim Y,Krasko V,Leyffer S(2021)连续分段线性函数拟合的MINLP公式。计算优化应用程序·Zbl 1469.90093号
[16] Hastie T、Tibshirani R、Tibschirani RJ(2017)最佳子集选择、正向逐步选择和套索的扩展比较。ArXiv预打印ArXiv:1707.08692·Zbl 07307193号
[17] 霍金斯,DM;Olive,D.,《最小修剪绝对偏差和回归的应用和算法》,《计算统计数据分析》,32,2,119-134(1999)·doi:10.1016/S0167-9473(99)00029-8
[18] 霍金斯,DM;Bradu,D。;Kass,GV,使用元素集在多元回归数据中定位几个离群值,技术计量学,26,3,197-208(1984)·doi:10.1080/00401706.1984.10487956
[19] 霍奇,V。;Austin,J.,《离群值检测方法的调查》,Artif Intell Rev,22,2,85-126(2004)·Zbl 1101.68023号 ·doi:10.1023/B:AIRE.000045502.10941.a9
[20] Jünger,M。;Liebling,TM;Naddef,D。;德国劳埃德船级社奈姆豪泽;滑轮组,WR;Reinelt,G。;Rinaldi,G。;洛杉矶沃尔西,1958-2008年整数编程50年:从早期到最先进(2009),柏林:施普林格,柏林
[21] Koenker,R。;Bassett,G.,《关于Boscovich估计量》,《Ann Stat》,第13、4、1625-1628页(1985年)·Zbl 0612.62041号 ·doi:10.1214/aos/1176349759
[22] Koenker,R。;Hallock,KF,分位数回归,《经济展望杂志》,15,4,143-156(2001)·doi:10.1257/jep.15.4.143
[23] 克拉斯科,V。;Rebennack,S.,《野火后泥石流灾害管理的两阶段随机混合整数非线性规划模型:缓解和紧急疏散》,《Eur J Oper Res》,263,1,265-282(2017)·Zbl 1380.90202号 ·doi:10.1016/j.ejor.2017.05.004
[24] Lasserre,JB,多项式全局优化与矩问题,SIAM J Optim,11,3,796-817(2001)·Zbl 1010.90061号 ·doi:10.137/S1052623400366802
[25] Liu,C.,不完全数据的贝叶斯鲁棒多变量线性回归,美国统计协会,91435129-1227(1996)·Zbl 0880.62028号 ·doi:10.1080/01621459.1996.10476991
[26] 施密特,M。;Le Roux,N。;Bach,F.,用随机平均梯度最小化有限和,数学程序,162,83-112(2017)·Zbl 1358.90073号 ·doi:10.1007/s10107-016-1030-6
[27] Marsland,S.,《机器学习:算法视角》(2015),博卡拉顿:CRC出版社,博卡拉通
[28] 米库拉,G。;Micula,S.,《样条线手册》(2012),柏林:施普林格出版社,柏林·Zbl 0914.65003号
[29] 哥伦比亚特区蒙哥马利;Peck,EA,线性回归分析导论(1982),霍博肯:威利,霍博克·Zbl 0587.62134号
[30] 诺曼,R。;德雷珀,HS,应用回归分析(1981),霍博肯:威利,霍博克·Zbl 0548.62046号
[31] Pardalos,总理;Migdalas,A.,《优化和数据分析中的开放问题》(2018),柏林:施普林格出版社,柏林·Zbl 1408.90003号 ·doi:10.1007/978-3-319-99142-9
[32] Pelikan M、Goldberg DE、Cantú-Paz E等人(1999)Boa:贝叶斯优化算法。摘自:遗传和进化计算会议论文集GECCO-99,第1卷。Citeser,第525-532页
[33] Rebennack,S。;Kallrath,J.,《单变量函数的连续分段线性增量逼近:计算最小断点系统》,《最优化理论应用杂志》,167,2617-643(2015)·Zbl 1327.90245号 ·doi:10.1007/s10957-014-0687-3
[34] Rebennack,S。;Krasko,V.,通过混合整数线性规划进行分段线性函数拟合,INFORMS J Compute,32,2,507-530(2020)·Zbl 07290859号 ·doi:10.1287/ijoc.2019.0890
[35] 罗宾斯,H。;Monro,S.,《随机近似法》,《数学统计年鉴》,22,3,400-407(1951)·兹比尔0054.05901 ·doi:10.1214/aoms/1177729586
[36] Rousseeuw,PJ,最小二乘回归,J Am Stat Assoc,79,388,871-880(1984)·Zbl 0547.62046号 ·doi:10.1080/01621459.1984.10477105
[37] 罗素,PJ;Leroy,AM,稳健回归和离群值检测(1987),霍博肯:威利,霍博克·Zbl 0711.62030号 ·doi:10.1002/0471725382
[38] Ruppert,D。;Carroll,RJ,线性模型中的修剪最小二乘估计,J Am Stat Assoc,75,372,828-838(1980)·兹比尔0459.62055 ·doi:10.1080/016214591980.10477560
[39] Snoek J,Larochelle H,Adams RP(2012)机器学习算法的实用贝叶斯优化。主题:神经信息处理系统的进展,第2951-2959页
[40] Specht,DF,一般回归神经网络,IEEE Trans neural Netw,2,6,568-576(1991)·数字对象标识代码:10.1109/72.97934
[41] 斯蒂格勒、SM、高斯和最小二乘法的发明,《Ann Stat》,第9、3、465-474页(1981年)·Zbl 0477.62001 ·doi:10.1214/aos/1176345451
[42] Tableman,M.,最小修剪绝对偏差(LTAD)估计量的渐近性,Stat Probab Lett,19,5,387-398(1994)·Zbl 0797.62029号 ·doi:10.1016/0167-7152(94)90007-8
[43] Thebelt,A。;Kronqvist,J。;李,RM;苏德曼·梅克斯,N。;米塞纳,R。;Pierucci,S。;Manenti,F。;波扎诺,德国劳埃德船级社;Manca,D.,集成机器学习模型的全局优化,第30届欧洲计算机辅助过程工程研讨会,计算机辅助化学工程,1981-1986(2020),阿姆斯特丹:爱思唯尔·doi:10.1016/B978-0-12-823377-1.50331-1
[44] Thebelt A、Kronqvist J、Mistry M、Lee RM、Sudermann-Merx N、Misener R(2020b)ENTMOOT:集成树模型优化框架。arXiv:2003.04774号
[45] Tukey,JW,探索性数据分析(1977),阅读:Addison-Wesley,阅读·Zbl 0409.62003号
[46] van Handel R(2014)高维概率。新泽西州普林斯顿大学技术代表
[47] Vanhatalo J,Jylánki P,Vehtari A(2009),高斯过程回归与学生t似然。收录:Bengio Y、Schuurmans D、Lafferty JD、Williams CKI、Culotta A(编辑)《神经信息处理系统进展》22,第1910-1918页。Curran Associates公司。http://papers.nips.cc/paper/3806-gaussian-process-regression-with-student-t-likelihood.pdf ·Zbl 1280.60025号
[48] Weisberg,S.,《应用线性回归》(1985),霍博肯:威利·Zbl 0646.62058号
[49] 洛杉矶沃尔西;Nemhauser,GL,《整数与组合优化》(1999),霍博肯:威利,霍博恩·Zbl 0944.90001号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。