×

通过低维自适应学习进行高维变量选择。 (英语) Zbl 1471.62557号

摘要:提出了一种随机搜索方法,即所谓的自适应子空间(AdaSub)方法,用于高维线性回归模型中的变量选择。该方法基于自适应求解低维子问题的思想,旨在根据一定的模型选择准则找到最佳模型,从而为原高维问题提供解决方案。可以使用任何常见的(ell_0)型模型选择标准,例如Akaike的信息标准(AIC)、贝叶斯信息标准(BIC)或扩展BIC(EBIC),最后一种标准特别适用于高维情况。分析了新算法的极限性质,表明在一定条件下,AdaSub根据所考虑的准则收敛到最佳模型。在模拟研究中,对比其他方法,研究了AdaSub的性能。通过各种模拟数据集和一个高维实际数据示例说明了该方法的有效性。

MSC公司:

62兰特 大数据和数据科学的统计方面
62B10型 信息理论主题的统计方面
62F07型 统计排名和选择程序
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Akaike,H.(1974年)。统计模型识别的新视角。,IEEE传输。自动化。控制19 716-723. ·Zbl 0314.62039号 ·doi:10.1109/TAC.1974.1100705
[2] Ambroise,C.和McLachlan,G.J.(2002)。基于微阵列基因表达数据的基因提取中的选择偏差。,程序。国家。阿卡德。科学。99 6562-6566. ·Zbl 1034.92013年 ·doi:10.1073/pnas.102102699
[3] Beinrucker,A.,Dogan,U。和Blanchard,G.(2016)。使用观测值和协变量的子样本扩展稳定性选择。,统计计算。26 1059-1077. ·Zbl 1505.62061号
[4] Belloni,A.和Chernozhukov,V.(2013年)。高维稀疏模型中模型选择后的最小二乘。,伯努利19 521-547. ·Zbl 1456.62066号 ·doi:10.3150/11-BEJ410
[5] Bertsimas,D.、King,A.和Mazumder,R.(2016)。通过现代优化透镜选择最佳子集。,安。统计师。44 813-852. ·Zbl 1335.62115号 ·doi:10.1214/15-AOS1388
[6] Breheny,P.和Huang,J.(2011)。非凸惩罚回归的坐标下降算法及其在生物特征选择中的应用。,附录申请。统计师。5 232-253. ·Zbl 1220.62095号 ·doi:10.1214/10-AOAS388
[7] Breiman,L.(1996)。模型选择中不稳定性和稳定性的启发式。,安。统计师。24 2350-2383. ·Zbl 0867.62055号 ·doi:10.1214/aos/1032181158
[8] Bühlmann,P.、Kalisch,M.和Maathuis,M.H.(2010年)。高维线性模型中的变量选择:部分忠实分布和PC-simple算法。,生物特征97 261-278. ·Zbl 1233.62135号 ·doi:10.1093/biomet/asq008
[9] Cai,A.、Tsay,R.S.和Chen,R.(2009)。具有多个预测因子的线性回归中的变量选择。,J.计算。图表。统计师。18 573-591.
[10] Chen,J.和Chen,Z.(2008)。用于具有大模型空间的模型选择的扩展贝叶斯信息准则。,生物特征95 759-771. ·Zbl 1437.62415号 ·doi:10.1093/biomet/asn034
[11] Chen,Z.和Chen,J.(2009)。锦标赛筛选和EBIC用于高维特征空间的特征选择。,科学。中国系列A:数学。52 1327-1341. ·Zbl 1176.62014年 ·doi:10.1007/s11425-009-0089-4
[12] Chen,J.和Chen,Z.(2012)。小n大P稀疏GLM的扩展BIC。,统计师。西尼卡22 555-574. ·Zbl 1238.62080号
[13] Cho,H.和Fryzlewicz,P.(2012)。通过倾斜进行高维变量选择。,J.R.统计社会服务。B.(统计方法)74 593-622. ·Zbl 1411.62183号 ·doi:10.1111/j.1467-9868.2011.01023.x
[14] Cho,H.和Fryzlewicz,P.(2016)。倾斜:通过倾斜相关筛选算法R包版本1.1.1进行变量选择。
[15] Dezeure,R.、Bühlmann,P.、Meier,L.和Meinshausen,N.(2015)。高维推断:置信区间、p值和R软件hdi。,统计科学。30 533-558. ·Zbl 1426.62183号 ·doi:10.1214/15-STS527
[16] Dubins,L.E.和Freedman,D.A.(1965年)。Borel-Cantelli引理和强定律的一种更尖锐的形式。,安。数学。统计师。36 800-807. ·Zbl 0168.16901号 ·doi:10.1214/aoms/1177700054
[17] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)。最小角度回归。,安。统计师。32 407-499. ·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[18] 艾森伯格,B.(2008)。关于IID几何随机变量的最大值的期望。,Stat.Probabil.Lett.《法律总汇》。78 135-143. ·Zbl 1133.60326号 ·doi:10.1016/j.spl.2007.05.011
[19] Fan,J.和Li,R.(2001)。基于非冲突惩罚似然及其oracle属性的变量选择。,J.艾默。统计师。协会。96 1348-1360. ·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[20] Fan,J.和Lv,J.(2008)。超高维特征空间的确定独立筛选。,J.R.统计社会服务。B.(统计方法)70 849-911. ·Zbl 1411.62187号 ·doi:10.1111/j.1467-9868.2008.00674.x
[21] Fan,Y.和Tang,C.Y.(2013)。在高维惩罚可能性中调整参数选择。,J.R.统计社会服务。B.(统计方法)75 531-552. ·Zbl 1411.62216号 ·doi:10.1111/rssb.12001
[22] Feng,Y.和Yu,Y.(2019)。高维变量选择中遗漏交叉验证的受限一致性。,统计正弦。29 1607-1630. ·Zbl 1422.62255号
[23] Foygel,R.和Drton,M.(2010年)。高斯图形模型的扩展贝叶斯信息准则。在中,高级神经。信息处理。系统。604-612.
[24] Friedman,J.、Hastie,T.和Tibshirani,R.(2010)。广义线性模型的坐标下降正则化路径。,J.统计软件。33 1-22.
[25] Friedman,J.、Hastie,T.、Höfling,H.和Tibshirani,R.(2007)。路径坐标优化。,附录申请。斯达。1 302-332. ·Zbl 1378.90064号 ·doi:10.1214/07-AOAS131
[26] Furnival,G.M.和Wilson,R.W.(1974年)。跨越式的衰退。,技术计量学16 499-511. ·兹比尔0294.62079 ·doi:10.1080/0401706.1974.10489231
[27] Hans,C.、Dobra,A.和West,M.(2007年)。“大p”回归的枪式随机搜索。,J.艾默。统计师。协会。102 507-516. ·Zbl 1134.62398号 ·doi:10.1198/0162145000000121
[28] Ho,T.K.(1998)。构造决策森林的随机子空间方法。,IEEE传输。模式分析。机器。智力。20 832-844.
[29] Hofner,B.和Hothorn,T.(2017)。stabs:稳定性选择,错误控制R包版本,0.6-3。
[30] 霍克思和倪克思(2007)。逐步算法何时满足子集选择标准?,安。统计师。35 870-887. ·Zbl 1125.62079号 ·doi:10.1214/00905360000001334
[31] Lai,C.、Reinders,M.J.和Wessels,L.(2006)。多元特征选择的随机子空间方法。,模式识别。莱特。27 1067-1076.
[32] Lan,H.,Chen,M.,Flowers,J.B.,Yandell,B.S.,Stapleton,D.S.,Mata,C.M.,Mui,E.T.-K.,Flower,M.T.,Schueler,K.L.和Manly,K.F.(2006)。组合表达-性状相关性和表达-数量性状位点定位。,公共科学图书馆-遗传学。2 e6。
[33] Loughrey,J.和Cunningham,P.(2005年)。基于包装器的特征子集选择中的过度拟合:尝试得越难,效果越差。在中,智能系统的研究与开发二十一33-43. 斯普林格。
[34] Lumley,T.和Miller,A.(2017年)。跳跃:回归子集选择R包版本,3.0。
[35] Luo,S.和Chen,Z.(2013)。具有发散相关特征数和高或超高特征空间的线性回归模型的扩展BIC。,J.统计。计划。推断143 494-504. ·Zbl 1428.62321号 ·doi:10.1016/j.jspi.2012.08.015
[36] Lv,J.和Liu,J.S.(2014)。错误指定模型中的模型选择原则。,J.R.统计社会服务。B.(统计方法)76 141-167. ·兹比尔1411.62218 ·doi:10.1111/rssb.12023
[37] Meinshausen,N.和Bühlmann,P.(2006)。高维图和用套索选择变量。,安。统计师。34 1436-1462. ·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[38] Meinshausen,N.和Bühlmann,P.(2010年)。稳定性选择。,J.R.统计社会服务。B.(统计方法)72 417-473. ·Zbl 1411.62142号
[39] Narendra,P.M.和Fukunaga,K.(1977年)。一种用于特征子集选择的分枝定界算法。,IEEE传输。计算。26 917-922. ·Zbl 0363.68059号 ·doi:10.1109/TC.1977.1674939
[40] Nikolova,M.(2013)。用\(\ell_0\)-范数正则化的最小二乘极小元的描述。全局极小的唯一性。,SIAM J.成像科学。6 904-937. ·Zbl 1281.65092号 ·数字对象标识码:10.1137/1085476X
[41] Nishii,R.(1988)。未指定真实模型时的最大似然原理和模型选择。,多元分析杂志27 392-403. ·Zbl 0684.62026号 ·doi:10.1016/0047-259X(88)90137-6
[42] Schwarz,G.(1978年)。估算模型的维数。,安。统计师。6 461-464. ·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[43] Scott,J.G.和Berger,J.O.(2010年)。变量选择问题中的贝叶斯和经验贝叶斯多重性调整。,安。统计师。38 2587-2619. ·Zbl 1200.62020年 ·doi:10.1214/10-AOS792
[44] Shah,R.D.和Samworth,R.J.(2013)。带误差控制的变量选择:稳定性选择的另一种观点。,J.R.统计社会服务。B.(统计方法)75 55-80. ·兹伯利07555438
[45] Shao,J.(1993)。通过交叉验证选择线性模型。,J.艾默。统计师。协会。88 486-494. ·Zbl 0773.62051号 ·doi:10.1080/01621459.1993.10476299
[46] Song,Q.和Liang,F.(2015)。超高维回归的分裂合并贝叶斯变量选择方法。,J.R.统计社会服务。B.(统计方法)77 947-972. ·Zbl 1414.62322号 ·doi:10.1111/rssb.12095
[47] Staerk,C.(2018)。用于高维变量选择的自适应子空间方法,博士论文,亚琛工业大学。
[48] Staerk,C.、Kateri,M.和Ntzoufras,I.(2016)。一种用于高维变量选择的自适应子空间方法。在中,程序。第31届统计建模国际研讨会295-300.
[49] Tibshirani,R.(1996)。通过套索进行回归收缩和选择。,J.R.统计社会服务。B.(统计方法)58 267-288. ·兹比尔0850.62538 ·doi:10.1111/j.2517-6161.1996.tb02080.x
[50] Tibshirani,R.(2011)。回归收缩和套索选择:回顾。,J.R.统计社会服务。B.(统计方法)73 273-282. ·Zbl 1411.62212号 ·doi:10.1111/j.1467-9868.2011.00771.x
[51] van de Geer,S.、Bühlmann,P.和Zhou,S.(2011)。潜在错误模型的自适应和阈值拉索(以及拉索的下限)。,电子。J.统计。5 688-749. ·Zbl 1274.62471号 ·doi:10.1214/11-EJS624
[52] Van de Geer,S.、Bühlmann,P.、Ritov,Y.和Dezeure,R.(2014)。关于高维模型的渐近最优置信域和检验。,安。统计师。42 1166-1202. ·Zbl 1305.62259号 ·doi:10.1214/14-AOS1221
[53] Wang,X.、Dunson,D.B.和Leng,C.(2016)。分布式稀疏回归的DECO相关特征空间划分。在中,高级神经。信息处理。系统。802-810.
[54] Yang,J.和Honavar,V.(1998年)。使用遗传算法进行特征子集选择。,IEEE智能。系统。13 44-49.
[55] Yuan,M.和Lin,Y.(2006)。分组变量回归中的模型选择和估计。,J.R.统计社会服务。B.(统计方法)68 49-67. ·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005302.x
[56] Zhang,C.-H.和Zhang、S.S.(2014)。高维线性模型中低维参数的置信区间。,J.R.统计社会服务。B.(统计方法)76 217-242. ·Zbl 1411.62196号 ·doi:10.1111/rssb.12026文件
[57] Zhao,P.和Yu,B.(2006)。关于拉索模型选择的一致性。,J.马赫。学习。物件。7 2541-2563. ·Zbl 1222.62008年
[58] 邹华(2006)。自适应套索及其oracle属性。,J.艾默。统计师。协会。101 1418-1429. ·Zbl 1171.62326号 ·doi:10.19198/016214506000000735
[59] Zou,H.和Hastie,T.(2005)。通过弹性网进行正则化和变量选择。,J.R.统计社会服务。B.(统计方法)67 301-320. ·Zbl 1069.62054号 ·文件编号:10.1111/j.1467-9868.2005.005.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。