×

通过优化选择多元线性回归的子集。 (英语) Zbl 1445.62173号

摘要:多元线性回归中的子集选择旨在选择候选解释变量的子集,以权衡拟合误差(解释力)和模型复杂性(所选变量的数量)。我们基于均方误差和绝对误差以及最小冗余-最大相关准则建立了回归子集选择的数学规划模型。使用基于线性规划的分枝定界算法对提出的模型进行了测试,该算法具有定制的有效不等式和大M值,并与文献中的算法进行了比较。对于高维情况,基于数学规划模型和核心集概念,提出了一种迭代启发式算法,并导出了该算法的随机版本,以确保收敛到全局最优。从计算实验中,我们发现我们的模型很快找到了一个高质量的解决方案,而剩下的时间则用于证明最优性;迭代算法在相对较短的时间内找到解决方案,与最先进的算法相比具有竞争力;不建议使用特别的大M值。

MSC公司:

62J05型 线性回归;混合模型
62F07型 统计排名和选择程序
62-08 统计学相关问题的计算方法
62J15型 配对和多重比较;多次测试
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bertsimas博士。;Weismantel,R.,《整数优化》,Dyn。想法,13471(2005)
[2] Bertsimas博士。;Shioda,R.,基数约束二次优化算法,计算。最佳方案。申请。,43, 1-22 (2009) ·Zbl 1178.90262号 ·doi:10.1007/s10589-007-9126-9
[3] Bertsimas博士。;金·A。;Mazumder,R.,《通过现代优化透镜选择最佳子集》,《Ann.Stat.》,44,813-852(2016)·Zbl 1335.62115号 ·doi:10.1214/15-AOS1388
[4] Bertsimas博士。;King,A.,OR论坛线性回归算法方法,Oper。第64、1、2-16号决议(2016年)·Zbl 1338.90272号 ·doi:10.1287/opre.2015.1436
[5] Bienstock,D.,混合整数二次规划问题族的计算研究,数学。程序。,74, 121-140 (1996) ·Zbl 0855.90090号
[6] 布莱德利,PS;Mangasarian,OL;威斯康星州街道,通过数学编程进行特征选择,INFORMS J.Compute。,10:2, 209-217 (1998) ·Zbl 1034.90529号 ·doi:10.1287/ijoc.10.2.209
[7] 坎迪斯,E。;Tao,T.,《Danzig选择器:当p远大于n时的统计估计》,《统计年鉴》,35,2313-2351(2007)·Zbl 1139.62019号 ·doi:10.1214/00905360000001523
[8] Chai,T。;Draxler、RR、均方根误差(RMSE)或平均绝对误差(MAE)?反对在Geosci文献中避免RMSE的论点。模型开发,7:31247-1250(2004)
[9] Charnes,A。;库珀,WW;Ferguson,RO,通过线性规划对高管薪酬进行最优估计,Manag。科学。,1, 138-151 (1955) ·Zbl 0995.90590号 ·doi:10.1287/mnsc.1.238
[10] 小IR de Farias;Nemhauser,GL,基数约束背包问题的多面体研究,数学。程序。,96:3, 439-467 (2003) ·Zbl 1023.90085号 ·doi:10.1007/s10107-003-0420-8
[11] Dielman,Terry E.,《最小绝对值回归:近期贡献》,J.Stat.Compute。模拟。,75:4, 263-286 (2005) ·Zbl 1059.62070号 ·doi:10.1080/094965042000223680
[12] 丁,C。;Peng,H.,从微阵列基因表达数据中选择最小冗余特征,J.Bioninform。计算。《生物学》,3:2185-205(2005)·doi:10.1142/S0219720005001004
[13] 冯,GN;Mangasarian,OL,支持向量机分类的特征选择牛顿方法,计算。最佳方案。申请。,28:2185-202(2004年)·Zbl 1056.90103号 ·doi:10.1023/B:COAP.000026884.66338.df
[14] Furnival,GM;Wilson,RW,《跨越式回归》,《技术计量学》,第16期,第499-511页(1974年)·Zbl 0294.62079号 ·doi:10.1080/00401706.1974.10489231
[15] Glover,F.,非线性整数问题的改进线性整数规划公式,Manag。科学。,22, 4, 455-460 (1975) ·Zbl 0318.90044号 ·doi:10.1287/mnsc.22.455
[16] Har-Peled,S.,《几何近似算法》(2011),普罗维登斯:美国数学学会,普罗维登斯·Zbl 1230.68215号
[17] 哈雷尔,FE,《回归建模策略:线性模型的应用》,Logistic和Ordinal回归,生存分析(2001),柏林:施普林格出版社,柏林·Zbl 0982.62063号
[18] Hastie,T.、Tibshirani,R.和Tibshilani,R.:Bestsubset:回归中最佳子集选择的工具。R软件包版本1.0.4(2017)。https://github.com/ryantibs/best-subset/。2018年8月22日访问·Zbl 1154.62393号
[19] 霍尔,AE;Kennard,RW,Ridge回归:非正交问题的有偏估计,技术计量学,12,55-67(1970)·Zbl 0202.17205号 ·网址:10.1080/00401706.1970.10488634
[20] Hwang,K。;Kim,D。;Lee,K。;Lee,C。;Park,S.,使用符号分类的嵌入式变量选择方法,Ann.Oper。决议,254,89-109(2017)·Zbl 1419.62151号 ·doi:10.1007/s10479-017-2445-z
[21] Johnson,RW,将体脂百分比拟合到简单的身体测量,J.Stat.Educ。,4, 1 (1996) ·doi:10.1080/10691898.1996.1190505
[22] 科诺,H。;Yamamoto,R.,《使用整数规划在回归分析中选择最佳变量集》,J.Global Optim。,44, 273-282 (2009) ·Zbl 1178.62069号 ·doi:10.1007/s10898-008-9323-9
[23] Lichman,M.:UCI机器学习库(2013)。http://archive.ics.uci.edu/ml。2018年8月21日访问
[24] Lumley,T.:跳跃:回归子集选择。R包版本2.9(2009)http://CRAN.R-project.org/package=jumps。2016年10月18日访问
[25] Miller,AJ,回归变量子集的选择,J.R.Stat.Soc.Ser。A、 147389-425(1984)·Zbl 0584.62106号 ·doi:10.2307/2981576
[26] Miller,AJ,回归中的子集选择(2002),伦敦:Chapman和Hall,伦敦·Zbl 1051.62060号
[27] Miyashiro,R。;Takano,Y.,《线性回归变量选择的混合整数二阶锥规划公式》,欧洲期刊Oper。研究,247,721-731(2015)·Zbl 1346.90616号 ·doi:10.1016/j.jor.2015.06.081
[28] 南卡罗来纳州纳鲁拉;威灵顿,JF,《绝对误差回归的最小和:最新调查》,《国际统计评论》,50,317-326(1982)·Zbl 0495.62072号 ·doi:10.2307/1402501
[29] 彭,H。;长,F。;Ding,C.,基于最大相关性、最大相关性和最小冗余的互信息准则的特征选择,IEEE Trans。模式分析。机器。智力。,27, 8, 1226-1238 (2005) ·doi:10.1109/TPAMI.2005.159
[30] Rafiei,MH;Adeli,H.,房地产单位销售价格估算的新型机器学习模型,J.Constr。工程管理。,142, 2, 04015066 (2015) ·doi:10.1061/(ASCE)CO.1943-7862.0001047
[31] Rinaldi,F。;Sciandone,M.,结合线性支持向量机和凹优化的特征选择,Optim。方法软件。,25, 1, 117-128 (2010) ·Zbl 1190.90145号 ·doi:10.1080/10556780903139388
[32] Schaible,S。;Shi,J.,分式规划的最新发展:单比率和极大极小情况,非线性分析。凸面分析。,5, 493-506 (2004) ·Zbl 1149.90412号
[33] Stancu-Minasian,IM,《分数编程:理论、方法和应用》(2012),柏林:施普林格出版社,柏林
[34] Schlossmacher,EJ,《绝对偏差曲线拟合的迭代技术》,美国统计协会,68,857-859(1973)·Zbl 0287.62038号 ·网址:10.1080/01621459.1973.10481436
[35] Schrijver,A.,《线性和整数规划理论》(1998),霍博肯:威利·Zbl 0970.90052号
[36] Stodden,V.:当变量数超过观察数时的模型选择。博士论文。斯坦福大学(2006)
[37] AC塔马内;Dunlop,DD,《统计与数据分析:从初级到中级》(1999),伦敦:皮尔逊,伦敦
[38] Tibshirani,R.,通过套索进行回归收缩和选择,J.R.Stat.Soc.Ser。B、 58、267-288(1996)·Zbl 0850.62538号
[39] Wagner,HM,回归分析的线性规划技术,美国统计协会,54,206-212(1959)·Zbl 0088.35702号 ·doi:10.1080/01621459.1959.10501506
[40] Western,J。;Elisseeff,A。;Schölkopf,B。;Tipping,M.,零范数与线性模型和核方法的使用,J.马赫。学习。第3号决议,1439-1461(2003)·Zbl 1102.68605号
[41] 司法部长Willmott;Matsuura,K.,在评估平均模型性能时,平均绝对误差(MAE)优于均方根误差(RMSE)的优点,Clim。研究,30,1,79-82(2005)·doi:10.3354/cr030079
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。