×

修剪变量选择集合。 (英语) Zbl 07260628号

摘要:在变量选择的背景下,集成学习因其在提高选择准确性和降低错误发现率方面的巨大潜力而受到越来越多的关注。本文设计了一种新的基于排序的选择性集成学习策略,以获得更小但更准确的集成。特别地,提出了一种贪婪排序策略,以重新安排成员加入集成过程的顺序。通过尽早停止融合过程,可以获得具有较高选择精度的较小子集合。更重要的是,序列包含准则揭示了集成成员之间的基本强度-多样性权衡。以基本学习套索(简称SSLasso)的稳定性选择为例,进行了一些实验来检验新算法的性能。实验结果表明,与SSLasso和其他几种基准方法相比,剪枝SSLasso通常可以获得更高的选择精度和更低的错误发现率。

理学硕士:

62至XX 统计
68倍 计算机科学
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] A.Beinrucker,Ü。Dogan和G.Blanchard,《稳定性特征选择的简单扩展》,摘自《模式识别:第34届DAGM和第36届OAGM联合研讨会》,A.Pinz等人,Eds.,Springer,Berlin,2012,256-265。
[2] 美国犹他州A.Beinrucker。Dogan和G.Blanchard,使用观测值和协变量子样本的稳定性选择扩展,统计计算。26(5) (2016), 1059-1077. ·Zbl 1505.62061号
[3] P.Breheny和J.Huang,非凸惩罚回归的坐标下降算法,及其在生物特征选择中的应用,Ann.Appl。Stati公司。5(1) (2011), 232-253. ·Zbl 1220.62095号
[4] L.Breiman,《模型选择中的不稳定性和稳定性启发式》,《Ann.Stat.24(6)》(1996),2350-2383·Zbl 0867.62055号
[5] L.Breiman,《随机森林》,马赫。学习。45(1) (2001), 5-32. ·Zbl 1007.68152号
[6] P.Bühlmann和J.Mandozzi,高维变量筛选和后续推理中的偏差,以及经验比较,Comput。Stat.29(3)(2014),407-430·Zbl 1306.65035号
[7] P.Bühlmann、M.Kalisch和L.Meier,《着眼于生物学应用的高维统计》,年。修订状态申请。1(1) (2014), 255-278.
[8] D.Chung和H.Kim,使用PL-bagging进行精确集成修剪,计算。统计数据分析。83 (2015), 1-13. ·Zbl 1507.62037号
[9] R.De Bin等人,基于重采样的多变量回归模型选择中的子采样与自举,《生物统计学》72(1)(2016),272-280·Zbl 1393.62059号
[10] Dheeru,D.和E.Karra Taniskidou,UCI机器学习库。2017年,在线阅读http://archive.ics.uci.edu/ml
[11] J.Fan和R.Li,《基于非一致惩罚似然的变量选择及其预言属性》,《美国统计协会期刊》96(456)(2001),1348-1360·Zbl 1073.62547号
[12] J.Fan和J.Lv,超高维特征空间的确定独立性筛选,J.R.Stat.Soc.Series B Stat.Methodology 70(5)(2008),849-911·Zbl 1411.62187号
[13] J.Fan和J.Lv,高维特征空间中变量选择的选择性概述,Stat.Sin。20(1) (2010), 101-148. ·Zbl 1180.62080号
[14] J.H.Friedman和B.E.Popescu,重要性抽样学习群,斯坦福:斯坦福大学,2003年。
[15] L.Guo和S.Boukir,基于Margin的集合修剪有序聚合,模式识别。莱特。34(6) (2013), 603-609.
[16] K.He等人,《高维协变量生存分析中的成分梯度增强和错误发现控制》,生物信息学32(1)(2016),50-57。
[17] D.Hernández-Lobato、G.Martínez-Muñoz和A.Suárez,修剪回归套袋集合的近似技术的实证分析和评估,神经计算74(12)(2011),2250-2264。
[18] B.Hofner、L.Boccuto和M.Göker,《在高维情况下控制错误发现:通过稳定性选择提升》,BMC生物信息学16(1)(2015),144。
[19] L.I.Kuncheva,组合模式分类器:方法和算法,John Wiley&Sons,新泽西州霍博肯,2014·Zbl 1300.68001号
[20] B.LinandZ公司。彭,高维数据分析中的倾斜相关性筛选学习,J.Compute。图表。《美国联邦法律大全》第23(2)卷(2014年),第478-496页。
[21] B.Lin等人,高维线性模型中的稳定预测,统计计算。27(5) (2017), 1401-1412. ·兹比尔1505.62249
[22] C.Liu、T.Shi和Y.Lee,《高维回归变量选择的两个故事:筛选和模型构建》,《统计分析》。数据最低7(2)(2014),140-159·Zbl 07260388号
[23] Q.Long和B.A.Johnson,《缺失数据中的变量选择:重新采样和插补》,《生物统计学》16(3)(2015),596-610。
[24] G.Martínez-Muñoz、D.Hernández-Lobato和A.Suárez,基于有序聚合的集成修剪技术分析,IEEE Trans。模式分析。机器。智力。31(2)(2009),245-259。
[25] A.Mayr、B.Hofner和M.Schmid,通过优化一致性指数和稳定性选择提高稀疏生存模型的区分能力,BMC生物信息学17(1)(2016),288。
[26] N.Meinshausen和P.Bühlmann,稳定性选择,J.R.Stat.Soc.B系列统计方法72(4)(2010),417-473·Zbl 1411.62142号
[27] J.Mendes-Moreira等人,回归的集合方法:调查,ACM计算。Surv公司。45(1) (2012), 10:1-10:40. ·Zbl 1293.68234号
[28] A.J.Miller,回归中的子集选择,第二版,查普曼和霍尔/CRC出版社,纽约,2002年·Zbl 1051.62060号
[29] Y.Nan和Y.Yang,高维回归的变量选择诊断措施,J.Compute。图表。Stat.23(3)(2014),636-656。
[30] Nan,Y.,Y.Yu,Y.Yang和Y.Yaang,glmvsd:高维广义线性模型的变量选择偏差度量和不稳定性测试。2016年,在线阅读https://github.com/emeryyi/glmvsd
[31] N.N.Narisetty和X.He,具有收缩和扩散先验的贝叶斯变量选择,《Ann.Stat.42(2)》(2014),789-817·Zbl 1302.62158号
[32] Qian,J.,T.Hastie,J.Friedman,R.Tibshirani,and N.Simon,Glmnet for matlab。2013年,在线阅读https://web.stanford.edu/&LWhtilde;阿斯蒂/glmnetmatlab/
[33] S.Roberts和G.Nowak,针对交叉验证变异性稳定套索,计算。统计数据分析。70 (2014), 198-211. ·Zbl 1471.62171号
[34] W.Sauerbrei等人,关于推导多变量回归模型的稳定性问题,Biom。J.57(4)(2015),531-555·Zbl 1329.62035号
[35] R.E.Schapire和Y.Freund,《助推:基础与算法》,麻省理工学院出版社,剑桥,2012年·Zbl 1278.68021号
[36] R.D.Shah和R.J.Samworth,《误差控制变量选择:稳定性选择的另一种观点》,J.R.Stat.Soc.B系列Stat.Methodol。75(1) (2013), 55-80. ·Zbl 07555438号
[37] J.Thomas等人,《分布回归的梯度增强:通过非周期更新实现更快的调整和改进的变量选择》,《统计计算》。28(3) (2018), 673-687. ·兹比尔1384.62139
[38] R.Tibshirani,通过套索进行回归收缩和选择,J.R.Stat.Soc.B.Methodol。58(1) (1996), 267-288. ·Zbl 0850.62538号
[39] S.Wang等人,Random lasso,Ann.Appl。《统计》第5(1)卷(2011年),第468-485页·Zbl 1220.62091号
[40] L.Xin和M.Zhu,变量选择的随机逐步集成,计算机。图表。《美国联邦法律大全》第21(2)卷(2012年),第275-294页。
[41] W.Yang和Y.Yang,《通过变量选择偏差实现客观和可重复的模型选择》,《生物统计学》73(1)(2017),20-30·Zbl 1366.62247号
[42] C.-X.Zhang,J.-S.Zhang和S.-W.Kim,PBoostGA:变量排序和选择的伪增强遗传算法,计算。Stat.31(4)(2016),1237-1262·Zbl 1348.65044号
[43] C.-X.Zhang、J.-S.Zhang和Q.-Y.Y.Yin,修剪变量选择集合的基于等级的策略,Knowl。基于系统。125 (2017), 13-25.
[44] Z.-H.Zhou,《集成方法:基础和算法》,Taylor&Francis,Boca Raton,FL,2012年。
[45] Z.-H.Zhou、J.Wu和W.Tang,集成神经网络:许多可能比所有更好,Artif。智力。137(1) (2002), 239-263. ·Zbl 0995.68077号
[46] M.Zhu和H.A.Chipman,平行宇宙中的达尔文进化:用于变量选择的并行遗传算法,《技术计量学》48(4)(2006),491-502。
[47] M.Zhu和G.Fan,Cox模型的系综变量选择,J.Stat.Compute。模拟。81(12) (2011), 1983-1992. ·Zbl 1431.62179号
[48] H。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不声称其完整性或完全匹配。