×

通过交叉验证标准选择最佳子集。 (英语) Zbl 1442.62044号

摘要:本文研究线性回归模型中选择最佳解释变量子集的交叉验证准则。与使用统计标准(例如,Mallows’(C_p)、Akaike信息标准和Bayesian信息标准)相比,交叉验证只需要温和的假设,即样本分布相同,训练和验证样本独立。因此,交叉验证标准预计在涉及预测方法的大多数情况下都能很好地工作。本文的目的是建立一种混合整数优化方法,通过交叉验证标准来选择解释变量的最佳子集。这个子选择问题可以表示为一个双层MIO问题。然后,我们将其简化为一个单层混合整数二次优化问题,可以使用优化软件精确求解。通过与基于统计标准的穷举搜索算法和(L_1)正则回归算法进行比较,通过仿真实验评估了该方法的有效性。我们的仿真结果表明,当信噪比较低时,我们的方法在子集选择和预测方面都具有良好的准确性。

MSC公司:

62F07型 统计排名和选择程序
62J07型 岭回归;收缩估计量
62J05型 线性回归;混合模型
90立方厘米 混合整数编程
90 C90 数学规划的应用
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Akaike,H.,统计模型识别的新视角,IEEE Trans-Autom Control,19,6,716-723(1974)·Zbl 0314.62039号 ·doi:10.1109/TAC.1974.1100705
[2] Allen,DM,变量选择和数据增强之间的关系以及预测方法,技术计量学,16,1,125-127(1974)·Zbl 0286.62044号 ·doi:10.1080/0401706.1974.10489157
[3] Arthanari,TS;Dodge,Y.,《统计学中的数学规划》(1981),纽约:威利出版社,纽约·Zbl 0549.6202号
[4] Arlot,S。;Celisse,A.,《模型选择交叉验证程序调查》,Stat Surv,4,40-79(2010)·Zbl 1190.62080号 ·doi:10.1214/09-SS054
[5] 贝纳蒂,S。;García,S.,带变量选择的混合整数线性聚类模型,Comput Oper Res,43,280-285(2014)·Zbl 1349.62258号 ·doi:10.1016/j.cor.2013.10.005
[6] Bennett KP,Hu J,Ji X,Kunapuli G,Pang JS(2006)通过双层优化进行模型选择。摘自:2006年IEEE国际神经网络联合会议论文集,第1922-1929页
[7] Bertsimas,D。;King,A.,OR forum-an algorithmic approach to linear regression,Oper Res,64,1,2-16(2016)·Zbl 1338.90272号 ·doi:10.1287/opre.2015.1436
[8] Bertsimas,D。;金·A。;Mazumder,R.,《通过现代优化透镜选择最佳子集》,Ann Stat,44,2813-852(2016)·Zbl 1335.62115号 ·doi:10.1214/15-AOS1388
[9] Bertsimas,D。;Dunn,J.,最优分类树,马赫学习,106,71039-1082(2017)·Zbl 1455.68159号 ·doi:10.1007/s10994-017-5633-9
[10] Bertsimas,D。;King,A.,《逻辑回归:从艺术到科学》,《统计科学》,32,3,367-384(2017)·Zbl 1442.62166号 ·doi:10.1214/16-STS602
[11] 博伊德,S。;Vandenberghe,L.,凸优化(2004),剑桥:剑桥大学出版社,剑桥·Zbl 1058.90049号
[12] Chung S,Park YW,Cheong T(2017)综合多元线性回归子集选择和验证的数学规划方法。arXiv预打印arXiv:1712.04543
[13] 科尔森,B。;马科特,P。;Savard,G.,《双层优化概述》,《Ann Oper Res》,153,1,235-256(2007)·Zbl 1159.90483号 ·文件编号:10.1007/s10479-007-0176-2
[14] Cozad,A。;内华达州萨希尼迪斯;Miller,DC,《基于仿真的优化学习代理模型》,AIChE J,60,6,2211-2227(2014)·doi:10.1002/aic.14418
[15] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降广义线性模型的正则化路径,J Stat Softw,33,1,1-22(2010)·doi:10.18637/jss.v033.i01
[16] Geisser,S.,《预测样本重复使用方法及其应用》,美国统计协会杂志,70,350,320-328(1975)·Zbl 0321.62077号 ·doi:10.1080/01621459.1975.10479865
[17] Hastie T、Tibshirani R、Tibschirani RJ(2017)最佳子集选择、正向逐步选择和套索的扩展比较。arXiv预打印arXiv:1707.08692
[18] 霍尔,AE;Kennard,RW,Ridge回归:非正交问题的有偏估计,技术计量学,12,1,55-67(1970)·Zbl 0202.17205号 ·网址:10.1080/00401706.1970.10488634
[19] 胡克,JN;Osorio,MA,混合逻辑线性编程,离散应用数学,96-97395-442(1999)·Zbl 0945.90031号 ·doi:10.1016/S0166-218X(99)00100-6
[20] Kimura,K。;Waki,H.,通过混合整数非线性程序实现线性回归分析中Akaike信息准则最小化,Optim Methods Softw,33,3,633-649(2018)·Zbl 1398.90111号 ·doi:10.1080/10556788.2017.1333611
[21] 科诺,H。;Yamamoto,R.,《使用整数规划选择回归分析中的最佳变量集》,J Glob Optim,44,2,273-282(2009)·Zbl 1178.62069号 ·doi:10.1007/s10898-008-9323-9
[22] Kunapuli,G。;贝内特,KP;胡,J。;Pang,JS,通过双层编程进行分类模型选择,Optim Methods Softw,23,4,475-489(2008)·Zbl 1151.90541号 ·doi:10.1080/1055678080202586
[23] 马尔多纳多,S。;佩雷斯,J。;韦伯,R。;Labbé,M.,《通过混合整数线性规划选择支持向量机的特征》,《信息科学》,279163-175(2014)·Zbl 1354.68226号 ·doi:10.1016/j.ins.2014.03.110
[24] Mallows,CL,关于(C_p)的一些评论,技术计量学,15,4,661-675(1973)·Zbl 0269.62061号
[25] Miller,A.,回归中的子集选择(2002),博卡拉顿:查普曼和霍尔,博卡拉顿·Zbl 1051.62060号
[26] Miyashiro,R。;Takano,Y.,Mallows的子集选择(C_p\):一种混合整数编程方法,Expert Syst Appl,42,1,325-331(2015)·doi:10.1016/j.eswa.2014.07.056
[27] Miyashiro,R。;Takano,Y.,线性回归中变量选择的混合整数二阶锥规划公式,《欧洲运营研究杂志》,247,3,721-731(2015)·Zbl 1346.90616号 ·doi:10.1016/j.ejor.2015.06.081
[28] Mosier,CI,I.交叉验证的问题和设计,《教育心理测量》,第11、1、5-11页(1951年)·doi:10.11177/001316445101100101
[29] Naganuma M、Takano Y、Miyashiro R(2019)通过基于切线的近似法选择有序logit模型的特征子集。IEICE传输信息系统E102-D(5),1046-1053
[30] Okuno T,Takeda A,Kawana A(2018)双层非光滑优化的超参数学习。arXiv预打印arXiv:1806.01520
[31] Park YW,Klabjan D(2017)通过优化进行多元线性回归的子集选择。arXiv预打印arXiv:1701.07920·Zbl 1445.62173号
[32] Pedregosa F(2016)具有近似梯度的超参数优化。摘自:第33届机器学习国际会议论文集,第737-746页
[33] 佐藤,T。;Y.Takano。;Miyashiro,R。;Yoshise,A.,通过混合整数优化进行逻辑回归的特征子集选择,计算优化应用,64,3,865-880(2016)·Zbl 1352.90068号 ·doi:10.1007/s10589-016-9832-2
[34] 佐藤,T。;Y.Takano。;Miyashiro,R.,序贯logit模型中特征子集选择的分段线性近似,J Oper Res Soc Jpn,60,1,1-14(2017)·Zbl 1371.90068号 ·doi:10.15807/jorsj.60.1
[35] Schwarz,G.,《估计模型的维数》,Ann Stat,6,2461-464(1978)·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[36] Shao,J.,通过交叉验证选择线性模型,美国统计协会杂志,88,422,486-494(1993)·Zbl 0773.62051号 ·doi:10.1080/01621459.1993.10476299
[37] 辛哈,A。;马洛,P。;Deb,K.,《双层优化综述:从经典到进化方法和应用》,IEEE Trans Evolut Compute,22,2,276-295(2018)·doi:10.1109/TEVC.2017.2712906
[38] Stone,M.,统计预测的交叉验证选择和评估,J R Stat Soc Ser B Methodol,36,2,111-147(1974)·Zbl 0308.62063号
[39] Tamura,R。;Kobayashi,K。;Y.Takano。;宫城郎,R。;Nakata,K。;松井,T.,消除多重共线性的最佳子集选择,J Oper Res Soc Jpn,60,3,321-336(2017)·Zbl 1382.90068号 ·doi:10.15807/jorsj.60.321
[40] Tamura,R。;Kobayashi,K。;Y.Takano。;Miyashiro,R。;Nakata,K。;Matsui,T.,基于方差膨胀因子消除多重共线性的混合整数二次优化公式,J Glob Optim,73,2431-446(2019)·Zbl 1421.90093号 ·doi:10.1007/s10898-018-0713-3
[41] Tibshirani,R.,通过套索进行回归收缩和选择,J R Stat Soc Ser B Methodol,58,267-288(1996)·Zbl 0850.62538号
[42] Ustun,B。;Rudin,C.,优化医疗评分系统的超解析线性整数模型,Mach Learn,102,3,349-391(2016)·Zbl 1406.62144号 ·doi:10.1007/s10994-015-5528-6
[43] van Rijsbergen,CJ,信息检索(1979),牛津:Butterworth-Heinemann,牛津
[44] Wherry,R.,《预测多重相关系数收缩的新公式》,《Ann Math Stat》,第2、4、440-457页(1931年)·doi:10.1214/aoms/1177732951
[45] 邹,H。;Hastie,T.,《通过弹性网进行正则化和变量选择》,J R Stat Soc Ser B(Stat Methodol),67,2,301-320(2005)·Zbl 1069.62054号 ·数字对象标识代码:10.1111/j.1467-9868.2005.0050.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。