×

一种通过混合重要性度量进行变量排序和选择的新打包方法。 (英语) Zbl 1516.62697号

摘要:目前,集成学习在稳定和提高一些传统变量选择方法(如套索和遗传算法)的性能方面发挥了巨大的作用。本文提出了一种新的打包集成方法BSSW,用于实现线性回归模型中变量的排序和选择。其主要思想是对多个引导样本执行逐步搜索算法。在每次试验中,根据每个变量被选入最终模型的顺序以及因其包含而导致的模型拟合改进,为每个变量分配一个混合重要性度量。根据自举试验中平均的重要性度量,对所有候选变量进行排序,然后决定是否重要。为了扩大应用范围,将BSSW扩展到广义线性模型的情况。用一些模拟和实际数据进行的实验表明,与其他几种现有方法相比,BSSW在大多数研究情况下都取得了更好的性能。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] F.R.巴赫,Bolasso:通过bootsrap进行模型一致套索估计《第25届机器学习国际会议论文集》,芬兰赫尔辛基,ACM出版社,2008年,第33-40页。
[2] L Breiman,模型选择中不稳定性和稳定性的启发式方法Ann.统计师。24(1996),第2350-2383页·Zbl 0867.62055号 ·doi:10.1214/aos/1032181158
[3] L.Breiman,装袋预测,马赫。学习。24(1996),第123-140页·Zbl 0858.68080号 ·doi:10.1007/BF00058655
[4] J.X.Che和Y.L.Yang,用于变量选择的随机相关系数系综,J.应用。《美国联邦法律大全》第44卷(2017年),第1721-1742页·Zbl 1516.62197号
[5] A.J.Dobson和A.Barnett,广义线性模型简介第三版,查普曼和霍尔/CRC,博卡拉顿,2008年·Zbl 1165.62049号
[6] B.Efron、T.Hastie、I.Johnstone和R.Tibshirani,最小角度回归Ann.统计师。32(2004年),第407-499页·兹比尔1091.62054 ·doi:10.1214/09053604000000067
[7] L.Fahrmeir和G.Tutz,基于广义线性模型的多元统计建模纽约施普林格出版社,1994年·Zbl 0809.62064号 ·doi:10.1007/978-1-4899-0010-4
[8] 范建清和李荣中,基于非冲突惩罚似然的变量选择及其oracle性质,J.Amer。统计师。协会96(2001),第1348-1360页·Zbl 1073.62547号
[9] 范建清、吕建中,超高维特征空间的确定独立筛选(含讨论),J.R.Stat.Soc.Ser.,《美国国家统计年鉴》。B 70(2008),第849-911页·Zbl 1411.62187号 ·doi:10.1111/j.1467-9868.2008.00674.x
[10] 范建清、吕建中,高维特征空间中变量选择的选择性综述,统计。Sinica 20(2010),第101-148页·Zbl 1180.62080号
[11] T.福塞特,ROC分析简介,模式识别。莱特。27(2006),第861-874页·doi:10.1016/j.patrec.2005.10.010
[12] Y.Freund和R.Schapire,在线学习的决策理论推广及其在boosting中的应用,J.计算。系统。科学。55(1997),第119-139页·兹伯利0880.68103 ·doi:10.1006/jcss.1997.1504
[13] L.I.Kuncheva,组合模式分类器:方法和算法第二版,威利出版社,新泽西州霍博肯,2014年·Zbl 1300.68001号 ·doi:10.1002/9781118914564
[14] M.Lichman,UCI机器学习库,加利福尼亚大学信息与计算机科学学院,欧文,2013年。可在http://archive.ics.uci.edu/ml。
[15] B.Q.Lin和Z.Pang,高维数据分析中的倾斜相关学习,J.计算。图表。统计师。23(2014年),第478-496页。
[16] N.Meinshausen和P.Bühlmann,稳定性选择(讨论),J.R.Stat.Soc.Ser.,《美国国家统计年鉴》。B 72(2010),第417-473页·Zbl 1411.62142号 ·文件编号:10.1111/j.1467-9868.2010.00740.x
[17] J.Mendes-Moreira、C.Soares、A.M.Jorge和J.F.deSousa,回归的集合方法:综述,ACM计算。调查。45(2012),第10条,40页·Zbl 1293.68234号 ·doi:10.1145/2379776.2379786
[18] 米勒,回归中的子集选择第二版,查普曼和霍尔/CRC出版社,新作品,2002年·Zbl 1051.62060号 ·doi:10.1201/9781420035933
[19] Y.Nan和Y.H.Yang,高维回归的变量选择诊断方法,J.计算。图表。统计师。23(2014年),第636-656页。
[20] L.Rokach,决策森林:二十年的研究《Inf.Fusion》27(2016),第111-125页·文件编号:10.1016/j.infus.2015.06.005
[21] W.Sauerbrei、A.Buchholz、A.Boulesteix和H.Binder,多元回归模型推导中的稳定性问题,生物。J.57(2015),第531-555页·Zbl 1329.62035号 ·doi:10.1002/bimj.201300222
[22] R.D.Shah和R.J.Samworth,带误差控制的变量选择:稳定性选择的另一个视角,J.R.Stat.Soc.Ser.,《美国国家统计年鉴》。B 75(2013),第55-80页·Zbl 07555438号 ·文件编号:10.1111/j.1467-9868.2011.01034.x
[23] G.Shmueli,解释或预测统计师。科学。25(2010年),第289-310页·Zbl 1329.62045号 ·doi:10.1214/10-STS330
[24] R.Tibshirani,通过套索回归收缩和选择,J.R.Stat.Soc.Ser.,《美国国家统计年鉴》。B 58(1996),第267-288页·Zbl 0850.62538号 ·doi:10.1111/j.2517-6161.1996.tb02080.x
[25] R.Tibshirani、G.Walther和T.Hastie,通过间隙统计估计数据集中的簇数,J.R.Stat.Soc.Ser.,《美国国家统计年鉴》。B 63(2001),第411-423页·Zbl 0979.62046号 ·数字对象标识代码:10.1111/1467-9868.00293
[26] B.王,通过求解路径算法对变量进行排名滑铁卢大学硕士论文,滑铁卢,2011年。
[27] S.J.Wang、B.Nan、S.Rosset和J.Zhu,随机套索,Ann.应用。《统计》第5卷(2011年),第468-485页·Zbl 1220.62091号 ·doi:10.1214/10-AOAS377
[28] S.Wu、H.Q.Xue、Y.C.Wu和H.L.Wu,结合非负garrote和确定独立筛选的稀疏高维非线性回归模型变量选择,统计。Sinica 24(2014),第1365-1387页·Zbl 06431835号
[29] L.Xin和M.Zhu,变量选择的随机逐步集成,J.计算。图表。统计师。21(2012),第275-294页。
[30] C.X.Zhang、N.N.Ji和G.W.Wang,随机输出以提高变量选择准确性《神经计算》218(2016),第91-102页·doi:10.1016/j.neucom.2016.08.067
[31] C.X.Zhang、G.W.Wang和J.M.Liu,RandGA:将随机性注入并行遗传算法中进行变量选择,J.应用。《统计》第42卷(2015年),第630-647页·Zbl 1514.62967号
[32] C.X.Zhang、J.S.Zhang和G.W.Wang,一种新的线性回归模型变量排序和选择的bagging集成方法《第十二届多分类器系统国际研讨会论文集》,德国格林斯堡,施普林格出版社,2015年,第3-14页。
[33] C.X.Zhang、J.S.Zhang和S.W.Kim,PBoostGA:用于变量排序和选择的伪boosting遗传算法,计算。统计师。31(2016),第1237-1262页·Zbl 1348.65044号 ·doi:10.1007/s00180-016-0652-8
[34] 周振华,集成方法:基础和算法,Taylor&Francis,Boca Raton,2012年·数字对象标识代码:10.1201/b12207
[35] 朱先生和奇普曼先生,并行宇宙中的达尔文进化:一种用于变量选择的并行遗传算法《技术计量学》第48卷(2006年),第491-502页。
[36] 朱先生和范先生,Cox模型的集合变量选择,J.Stat.计算。模拟。81(2011),第1983-1992页·Zbl 1431.62179号
[37] H.邹,自适应套索及其oracle性质,J.Amer。统计师。《协会》第101卷(2006年),第1418-429页·Zbl 1171.62326号
[38] H.Zou和T.Hastie,通过弹性网进行规则化和变量选择,J.R.Stat.Soc.系列。B 67(2005),第301-320页·Zbl 1069.62054号 ·文件编号:10.1111/j.1467-9868.2005.005.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。