文件Zbl 1442.62044-zbMATH Open

通过交叉验证标准选择最佳子集。（英语） Zbl 1442.62044号

顶部 28，编号2，475-488（2020）.

摘要：本文研究线性回归模型中选择最佳解释变量子集的交叉验证准则。与使用统计标准（例如，Mallows’（C_p）、Akaike信息标准和Bayesian信息标准）相比，交叉验证只需要温和的假设，即样本分布相同，训练和验证样本独立。因此，交叉验证标准预计在涉及预测方法的大多数情况下都能很好地工作。本文的目的是建立一种混合整数优化方法，通过交叉验证标准来选择解释变量的最佳子集。这个子选择问题可以表示为一个双层MIO问题。然后，我们将其简化为一个单层混合整数二次优化问题，可以使用优化软件精确求解。通过与基于统计标准的穷举搜索算法和（L_1）正则回归算法进行比较，通过仿真实验评估了该方法的有效性。我们的仿真结果表明，当信噪比较低时，我们的方法在子集选择和预测方面都具有良好的准确性。

引用于4文件

MSC公司：

62F07型	统计排名和选择程序
62J07型	岭回归；收缩估计量
62J05型	线性回归；混合模型
90立方厘米	混合整数编程
90 C90	数学规划的应用

关键词：

整数规划;子集选择;交叉验证;岭回归;统计学

软件：

MAIC公司;格尔姆奈特

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序

参考文献：

[1]	Akaike，H.，统计模型识别的新视角，IEEE Trans-Autom Control，19，6，716-723（1974）·Zbl 0314.62039号 ·doi:10.1109/TAC.1974.1100705
[2]	Allen，DM，变量选择和数据增强之间的关系以及预测方法，技术计量学，16，1，125-127（1974）·Zbl 0286.62044号 ·doi:10.1080/0401706.1974.10489157
[3]	Arthanari，TS；Dodge，Y.，《统计学中的数学规划》（1981），纽约：威利出版社，纽约·Zbl 0549.6202号
[4]	Arlot，S。；Celisse，A.，《模型选择交叉验证程序调查》，Stat Surv，4，40-79（2010）·Zbl 1190.62080号 ·doi:10.1214/09-SS054
[5]	贝纳蒂，S。；García，S.，带变量选择的混合整数线性聚类模型，Comput Oper Res，43，280-285（2014）·Zbl 1349.62258号 ·doi:10.1016/j.cor.2013.10.005
[6]	Bennett KP，Hu J，Ji X，Kunapuli G，Pang JS（2006）通过双层优化进行模型选择。摘自：2006年IEEE国际神经网络联合会议论文集，第1922-1929页
[7]	Bertsimas，D。；King，A.，OR forum-an algorithmic approach to linear regression，Oper Res，64，1，2-16（2016）·Zbl 1338.90272号 ·doi:10.1287/opre.2015.1436
[8]	Bertsimas，D。；金·A。；Mazumder，R.，《通过现代优化透镜选择最佳子集》，Ann Stat，44，2813-852（2016）·Zbl 1335.62115号 ·doi:10.1214/15-AOS1388
[9]	Bertsimas，D。；Dunn，J.，最优分类树，马赫学习，106，71039-1082（2017）·Zbl 1455.68159号 ·doi:10.1007/s10994-017-5633-9
[10]	Bertsimas，D。；King，A.，《逻辑回归：从艺术到科学》，《统计科学》，32，3，367-384（2017）·Zbl 1442.62166号 ·doi:10.1214/16-STS602
[11]	博伊德，S。；Vandenberghe，L.，凸优化（2004），剑桥：剑桥大学出版社，剑桥·Zbl 1058.90049号
[12]	Chung S，Park YW，Cheong T（2017）综合多元线性回归子集选择和验证的数学规划方法。arXiv预打印arXiv:1712.04543
[13]	科尔森，B。；马科特，P。；Savard，G.，《双层优化概述》，《Ann Oper Res》，153，1，235-256（2007）·Zbl 1159.90483号 ·文件编号：10.1007/s10479-007-0176-2
[14]	Cozad，A。；内华达州萨希尼迪斯；Miller，DC，《基于仿真的优化学习代理模型》，AIChE J，60，6，2211-2227（2014）·doi:10.1002/aic.14418
[15]	弗里德曼，J。；哈斯蒂，T。；Tibshirani，R.，通过坐标下降广义线性模型的正则化路径，J Stat Softw，33，1，1-22（2010）·doi:10.18637/jss.v033.i01
[16]	Geisser，S.，《预测样本重复使用方法及其应用》，美国统计协会杂志，70，350，320-328（1975）·Zbl 0321.62077号 ·doi:10.1080/01621459.1975.10479865
[17]	Hastie T、Tibshirani R、Tibschirani RJ（2017）最佳子集选择、正向逐步选择和套索的扩展比较。arXiv预打印arXiv:1707.08692
[18]	霍尔，AE；Kennard，RW，Ridge回归：非正交问题的有偏估计，技术计量学，12，1，55-67（1970）·Zbl 0202.17205号 ·网址：10.1080/00401706.1970.10488634
[19]	胡克，JN；Osorio，MA，混合逻辑线性编程，离散应用数学，96-97395-442（1999）·Zbl 0945.90031号 ·doi:10.1016/S0166-218X（99）00100-6
[20]	Kimura，K。；Waki，H.，通过混合整数非线性程序实现线性回归分析中Akaike信息准则最小化，Optim Methods Softw，33，3，633-649（2018）·Zbl 1398.90111号 ·doi:10.1080/10556788.2017.1333611
[21]	科诺，H。；Yamamoto，R.，《使用整数规划选择回归分析中的最佳变量集》，J Glob Optim，44，2，273-282（2009）·Zbl 1178.62069号 ·doi:10.1007/s10898-008-9323-9
[22]	Kunapuli，G。；贝内特，KP；胡，J。；Pang，JS，通过双层编程进行分类模型选择，Optim Methods Softw，23，4，475-489（2008）·Zbl 1151.90541号 ·doi:10.1080/1055678080202586
[23]	马尔多纳多，S。；佩雷斯，J。；韦伯，R。；Labbé，M.，《通过混合整数线性规划选择支持向量机的特征》，《信息科学》，279163-175（2014）·Zbl 1354.68226号 ·doi:10.1016/j.ins.2014.03.110
[24]	Mallows，CL，关于（C_p）的一些评论，技术计量学，15，4，661-675（1973）·Zbl 0269.62061号
[25]	Miller，A.，回归中的子集选择（2002），博卡拉顿：查普曼和霍尔，博卡拉顿·Zbl 1051.62060号
[26]	Miyashiro，R。；Takano，Y.，Mallows的子集选择（C_p\）：一种混合整数编程方法，Expert Syst Appl，42，1，325-331（2015）·doi:10.1016/j.eswa.2014.07.056
[27]	Miyashiro，R。；Takano，Y.，线性回归中变量选择的混合整数二阶锥规划公式，《欧洲运营研究杂志》，247，3，721-731（2015）·Zbl 1346.90616号 ·doi:10.1016/j.ejor.2015.06.081
[28]	Mosier，CI，I.交叉验证的问题和设计，《教育心理测量》，第11、1、5-11页（1951年）·doi:10.11177/001316445101100101
[29]	Naganuma M、Takano Y、Miyashiro R（2019）通过基于切线的近似法选择有序logit模型的特征子集。IEICE传输信息系统E102-D（5），1046-1053
[30]	Okuno T，Takeda A，Kawana A（2018）双层非光滑优化的超参数学习。arXiv预打印arXiv:1806.01520
[31]	Park YW，Klabjan D（2017）通过优化进行多元线性回归的子集选择。arXiv预打印arXiv:1701.07920·Zbl 1445.62173号
[32]	Pedregosa F（2016）具有近似梯度的超参数优化。摘自：第33届机器学习国际会议论文集，第737-746页
[33]	佐藤，T。；Y.Takano。；Miyashiro，R。；Yoshise，A.，通过混合整数优化进行逻辑回归的特征子集选择，计算优化应用，64，3，865-880（2016）·Zbl 1352.90068号 ·doi:10.1007/s10589-016-9832-2
[34]	佐藤，T。；Y.Takano。；Miyashiro，R.，序贯logit模型中特征子集选择的分段线性近似，J Oper Res Soc Jpn，60，1，1-14（2017）·Zbl 1371.90068号 ·doi:10.15807/jorsj.60.1
[35]	Schwarz，G.，《估计模型的维数》，Ann Stat，6,2461-464（1978）·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[36]	Shao，J.，通过交叉验证选择线性模型，美国统计协会杂志，88，422，486-494（1993）·Zbl 0773.62051号 ·doi:10.1080/01621459.1993.10476299
[37]	辛哈，A。；马洛，P。；Deb，K.，《双层优化综述：从经典到进化方法和应用》，IEEE Trans Evolut Compute，22，2，276-295（2018）·doi:10.1109/TEVC.2017.2712906
[38]	Stone，M.，统计预测的交叉验证选择和评估，J R Stat Soc Ser B Methodol，36，2，111-147（1974）·Zbl 0308.62063号
[39]	Tamura，R。；Kobayashi，K。；Y.Takano。；宫城郎，R。；Nakata，K。；松井，T.，消除多重共线性的最佳子集选择，J Oper Res Soc Jpn，60，3，321-336（2017）·Zbl 1382.90068号 ·doi:10.15807/jorsj.60.321
[40]	Tamura，R。；Kobayashi，K。；Y.Takano。；Miyashiro，R。；Nakata，K。；Matsui，T.，基于方差膨胀因子消除多重共线性的混合整数二次优化公式，J Glob Optim，73，2431-446（2019）·Zbl 1421.90093号 ·doi:10.1007/s10898-018-0713-3
[41]	Tibshirani，R.，通过套索进行回归收缩和选择，J R Stat Soc Ser B Methodol，58，267-288（1996）·Zbl 0850.62538号
[42]	Ustun，B。；Rudin，C.，优化医疗评分系统的超解析线性整数模型，Mach Learn，102，3，349-391（2016）·Zbl 1406.62144号 ·doi:10.1007/s10994-015-5528-6
[43]	van Rijsbergen，CJ，信息检索（1979），牛津：Butterworth-Heinemann，牛津
[44]	Wherry，R.，《预测多重相关系数收缩的新公式》，《Ann Math Stat》，第2、4、440-457页（1931年）·doi:10.1214/aoms/1177732951
[45]	邹，H。；Hastie，T.，《通过弹性网进行正则化和变量选择》，J R Stat Soc Ser B（Stat Methodol），67，2，301-320（2005）·Zbl 1069.62054号 ·数字对象标识代码：10.1111/j.1467-9868.2005.0050.x

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
数据传输时间	文档类型(j：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

通过交叉验证标准选择最佳子集。（英语） Zbl 1442.62044号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

通过交叉验证标准选择最佳子集。 （英语） Zbl 1442.62044号

MSC公司：

关键词：

软件：

参考文献：

通过交叉验证标准选择最佳子集。（英语） Zbl 1442.62044号