Park,Young Woong公园;迭戈·克拉布扬 通过优化选择多元线性回归的子集。 (英语) Zbl 1445.62173号 J.全球。最佳方案。 77,第3期,543-574(2020年). 摘要:多元线性回归中的子集选择旨在选择候选解释变量的子集,以权衡拟合误差(解释力)和模型复杂性(所选变量的数量)。我们基于均方误差和绝对误差以及最小冗余-最大相关准则建立了回归子集选择的数学规划模型。使用基于线性规划的分枝定界算法对提出的模型进行了测试,该算法具有定制的有效不等式和大M值,并与文献中的算法进行了比较。对于高维情况,基于数学规划模型和核心集概念,提出了一种迭代启发式算法,并导出了该算法的随机版本,以确保收敛到全局最优。从计算实验中,我们发现我们的模型很快找到了一个高质量的解决方案,而剩下的时间则用于证明最优性;迭代算法在相对较短的时间内找到解决方案,与最先进的算法相比具有竞争力;不建议使用特别的大M值。 引用于2文件 MSC公司: 62J05型 线性回归;混合模型 62F07型 统计排名和选择程序 62-08 统计学相关问题的计算方法 62J15型 配对和多重比较;多次测试 关键词:多元线性回归;子集选择;高维数据;数学规划;线性化 软件:跳跃;github;UCI-毫升;rms(有效值);Bestsubset系列 PDF格式BibTeX公司 XML格式引用 \textit{Y.W.Park}和\textit{D.Klabjan},J.Glob。最佳方案。77,第3543-574号(2020年;兹bl 1445.62173) 全文: 内政部 arXiv公司 参考文献: [1] Bertsimas博士。;Weismantel,R.,《整数优化》,Dyn。想法,13471(2005) [2] Bertsimas博士。;Shioda,R.,基数约束二次优化算法,计算。最佳方案。申请。,43, 1-22 (2009) ·Zbl 1178.90262号 ·doi:10.1007/s10589-007-9126-9 [3] Bertsimas博士。;金·A。;Mazumder,R.,《通过现代优化透镜选择最佳子集》,《Ann.Stat.》,44,813-852(2016)·Zbl 1335.62115号 ·doi:10.1214/15-AOS1388 [4] Bertsimas博士。;King,A.,OR论坛线性回归算法方法,Oper。第64、1、2-16号决议(2016年)·Zbl 1338.90272号 ·doi:10.1287/opre.2015.1436 [5] Bienstock,D.,混合整数二次规划问题族的计算研究,数学。程序。,74, 121-140 (1996) ·Zbl 0855.90090号 [6] 布莱德利,PS;Mangasarian,OL;威斯康星州街道,通过数学编程进行特征选择,INFORMS J.Compute。,10:2, 209-217 (1998) ·Zbl 1034.90529号 ·doi:10.1287/ijoc.10.2.209 [7] 坎迪斯,E。;Tao,T.,《Danzig选择器:当p远大于n时的统计估计》,《统计年鉴》,35,2313-2351(2007)·Zbl 1139.62019号 ·doi:10.1214/00905360000001523 [8] Chai,T。;Draxler、RR、均方根误差(RMSE)或平均绝对误差(MAE)?反对在Geosci文献中避免RMSE的论点。模型开发,7:31247-1250(2004) [9] Charnes,A。;库珀,WW;Ferguson,RO,通过线性规划对高管薪酬进行最优估计,Manag。科学。,1, 138-151 (1955) ·Zbl 0995.90590号 ·doi:10.1287/mnsc.1.238 [10] 小IR de Farias;Nemhauser,GL,基数约束背包问题的多面体研究,数学。程序。,96:3, 439-467 (2003) ·Zbl 1023.90085号 ·doi:10.1007/s10107-003-0420-8 [11] Dielman,Terry E.,《最小绝对值回归:近期贡献》,J.Stat.Compute。模拟。,75:4, 263-286 (2005) ·Zbl 1059.62070号 ·doi:10.1080/094965042000223680 [12] 丁,C。;Peng,H.,从微阵列基因表达数据中选择最小冗余特征,J.Bioninform。计算。《生物学》,3:2185-205(2005)·doi:10.1142/S0219720005001004 [13] 冯,GN;Mangasarian,OL,支持向量机分类的特征选择牛顿方法,计算。最佳方案。申请。,28:2185-202(2004年)·Zbl 1056.90103号 ·doi:10.1023/B:COAP.000026884.66338.df [14] Furnival,GM;Wilson,RW,《跨越式回归》,《技术计量学》,第16期,第499-511页(1974年)·Zbl 0294.62079号 ·doi:10.1080/00401706.1974.10489231 [15] Glover,F.,非线性整数问题的改进线性整数规划公式,Manag。科学。,22, 4, 455-460 (1975) ·Zbl 0318.90044号 ·doi:10.1287/mnsc.22.455 [16] Har-Peled,S.,《几何近似算法》(2011),普罗维登斯:美国数学学会,普罗维登斯·Zbl 1230.68215号 [17] 哈雷尔,FE,《回归建模策略:线性模型的应用》,Logistic和Ordinal回归,生存分析(2001),柏林:施普林格出版社,柏林·Zbl 0982.62063号 [18] Hastie,T.、Tibshirani,R.和Tibshilani,R.:Bestsubset:回归中最佳子集选择的工具。R软件包版本1.0.4(2017)。https://github.com/ryantibs/best-subset/。2018年8月22日访问·Zbl 1154.62393号 [19] 霍尔,AE;Kennard,RW,Ridge回归:非正交问题的有偏估计,技术计量学,12,55-67(1970)·Zbl 0202.17205号 ·网址:10.1080/00401706.1970.10488634 [20] Hwang,K。;Kim,D。;Lee,K。;Lee,C。;Park,S.,使用符号分类的嵌入式变量选择方法,Ann.Oper。决议,254,89-109(2017)·Zbl 1419.62151号 ·doi:10.1007/s10479-017-2445-z [21] Johnson,RW,将体脂百分比拟合到简单的身体测量,J.Stat.Educ。,4, 1 (1996) ·doi:10.1080/10691898.1996.1190505 [22] 科诺,H。;Yamamoto,R.,《使用整数规划在回归分析中选择最佳变量集》,J.Global Optim。,44, 273-282 (2009) ·Zbl 1178.62069号 ·doi:10.1007/s10898-008-9323-9 [23] Lichman,M.:UCI机器学习库(2013)。http://archive.ics.uci.edu/ml。2018年8月21日访问 [24] Lumley,T.:跳跃:回归子集选择。R包版本2.9(2009)http://CRAN.R-project.org/package=jumps。2016年10月18日访问 [25] Miller,AJ,回归变量子集的选择,J.R.Stat.Soc.Ser。A、 147389-425(1984)·Zbl 0584.62106号 ·doi:10.2307/2981576 [26] Miller,AJ,回归中的子集选择(2002),伦敦:Chapman和Hall,伦敦·Zbl 1051.62060号 [27] Miyashiro,R。;Takano,Y.,《线性回归变量选择的混合整数二阶锥规划公式》,欧洲期刊Oper。研究,247,721-731(2015)·Zbl 1346.90616号 ·doi:10.1016/j.jor.2015.06.081 [28] 南卡罗来纳州纳鲁拉;威灵顿,JF,《绝对误差回归的最小和:最新调查》,《国际统计评论》,50,317-326(1982)·Zbl 0495.62072号 ·doi:10.2307/1402501 [29] 彭,H。;长,F。;Ding,C.,基于最大相关性、最大相关性和最小冗余的互信息准则的特征选择,IEEE Trans。模式分析。机器。智力。,27, 8, 1226-1238 (2005) ·doi:10.1109/TPAMI.2005.159 [30] Rafiei,MH;Adeli,H.,房地产单位销售价格估算的新型机器学习模型,J.Constr。工程管理。,142, 2, 04015066 (2015) ·doi:10.1061/(ASCE)CO.1943-7862.0001047 [31] Rinaldi,F。;Sciandone,M.,结合线性支持向量机和凹优化的特征选择,Optim。方法软件。,25, 1, 117-128 (2010) ·Zbl 1190.90145号 ·doi:10.1080/10556780903139388 [32] Schaible,S。;Shi,J.,分式规划的最新发展:单比率和极大极小情况,非线性分析。凸面分析。,5, 493-506 (2004) ·Zbl 1149.90412号 [33] Stancu-Minasian,IM,《分数编程:理论、方法和应用》(2012),柏林:施普林格出版社,柏林 [34] Schlossmacher,EJ,《绝对偏差曲线拟合的迭代技术》,美国统计协会,68,857-859(1973)·Zbl 0287.62038号 ·网址:10.1080/01621459.1973.10481436 [35] Schrijver,A.,《线性和整数规划理论》(1998),霍博肯:威利·Zbl 0970.90052号 [36] Stodden,V.:当变量数超过观察数时的模型选择。博士论文。斯坦福大学(2006) [37] AC塔马内;Dunlop,DD,《统计与数据分析:从初级到中级》(1999),伦敦:皮尔逊,伦敦 [38] Tibshirani,R.,通过套索进行回归收缩和选择,J.R.Stat.Soc.Ser。B、 58、267-288(1996)·Zbl 0850.62538号 [39] Wagner,HM,回归分析的线性规划技术,美国统计协会,54,206-212(1959)·Zbl 0088.35702号 ·doi:10.1080/01621459.1959.10501506 [40] Western,J。;Elisseeff,A。;Schölkopf,B。;Tipping,M.,零范数与线性模型和核方法的使用,J.马赫。学习。第3号决议,1439-1461(2003)·Zbl 1102.68605号 [41] 司法部长Willmott;Matsuura,K.,在评估平均模型性能时,平均绝对误差(MAE)优于均方根误差(RMSE)的优点,Clim。研究,30,1,79-82(2005)·doi:10.3354/cr030079 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。