×

PBoostGA:用于变量排序和选择的伪提升遗传算法。 (英语) Zbl 1348.65044号

摘要:变量选择一直是线性回归模型中的一个热门话题,尤其是在面对高维数据时。变量排序是一种高级的选择形式,实际上更为基本,因为一旦对变量进行了适当的排序,就可以通过阈值来实现选择。近年来,集成学习因其在提高选择准确性和减少错误包含一些不重要变量的风险方面的巨大潜力,在变量选择的背景下获得了极大的兴趣。受boosting算法广泛成功的启发,本文开发了一种新的集成方法PBoostGA,用于实现线性回归模型中的变量排序和选择。在PBoostGA中,训练集上保持一个权重分布,并采用遗传算法作为其基础学习器。最初,为每个实例分配相等的权重。根据AdaBoost等权重更新和集成成员生成机制。RT,为每个变量依次生成一系列略有不同的重要性度量。最后,根据平均重要性度量对候选变量进行排序,然后通过阈值规则选择一些重要变量。仿真结果和实际数据表明,与现有的一些同类算法相比,PBoostGA的有效性。特别是,PBoostGA具有更强的排除冗余变量的能力。

MSC公司:

62-08 统计学相关问题的计算方法
62年5月 线性回归;混合模型
62-04 统计相关问题的软件、源代码等
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Breiman L(1996a)模型选择中不稳定性和稳定性的启发式。Ann Stat 24(6):2350-2383·Zbl 0867.62055号
[2] Breiman L(1996b)装袋预测值。马赫数学习24(2):123-140·Zbl 0858.68080号
[3] Breiman L(2001)《随机森林》。马赫数学习45(1):5-32·Zbl 1007.68152号
[4] Bühlmann P,Hothorn T(2007)Boosting algorithms:正则化、预测和模型拟合。《统计科学》22(4):477-505·Zbl 1246.62163号
[5] Bühlmann P,Hothorn T(2010)双增强:改进的特征选择和预测。统计计算20(2):119-138
[6] Bühlmann P,Mandozzi J(2014)高维变量筛选和后续推断中的偏差,以及实证比较。计算统计29(3-4):407-430·兹比尔1306.65035
[7] Bühlmann P,van de Geer S(2010)高维数据统计:方法、理论和应用。纽约州施普林格·Zbl 1273.62015年
[8] Chatterjee S、Lauadto M、Lynch LA(1996)《遗传算法及其统计应用:简介》。计算统计数据分析22(6):633-651·Zbl 0900.62336号
[9] Drucker H(1997)使用提升技术改进回归变量。摘自:第14届机器学习国际会议论文集。Morgan Kaufmann,旧金山,第107-115页·Zbl 0850.62538号
[10] Efron B,Hastie T,Hohnstone I,Tibshirani R(2004)最小角度回归。安统计32(2):407-499·Zbl 1091.62054号
[11] Fan JQ,Li RZ(2001)基于非冲突惩罚似然的变量选择及其预言性质。美国统计协会J Am Stat Assoc 96(456):1348-1360·Zbl 1073.62547号
[12] Fan JQ,Lv JC(2008)超高维特征空间的确定独立性筛选(带讨论)。J R Stat Soc B 70(5):849-911·Zbl 1411.62187号
[13] Fan JQ,Lv JC(2010)高维特征空间中变量选择的选择性概述。统计Sin 20(1):101-148·Zbl 1180.62080号
[14] Freund Y,Schapire R(1997)在线学习的决策理论推广及其在助推中的应用。计算机系统科学杂志55(1):119-139·兹伯利0880.68103
[15] Friedman JH(2001)贪婪函数近似:梯度提升机。《统计年鉴》29(5):1189-1232·Zbl 1043.62034号
[16] Guo L,Boukir S(2013)基于Margin的集合修剪有序聚合。图案识别信34:603-609
[17] He HB,Garcia EA(2009)《从不平衡数据中学习》。IEEE Transl Knowl Data Eng 21(9):1263-1284
[18] Jadhav NH,Kashid DN,Kulkarni SR(2014),存在离群值和多重共线性的多元线性回归中的子集选择。统计方法19:44-59·Zbl 1486.62203号
[19] Liu C,Shi T,Lee Y(2014)高维回归变量选择的两个故事:筛选和模型构建。统计分析数据最小值7(2):140-159·Zbl 07260388号
[20] Meinshausen N,Bühlmann P(2010)稳定性选择(讨论)。J R Stat Soc B 72(4):417-473·Zbl 1411.62142号
[21] Mendes-Moreira J、Soares C、Jorge AM、de Sousa JF(2012),回归的集合方法:一项调查。ACM Comput Surv 45(1):1-40(第10条)·Zbl 1293.68234号
[22] Miller A(2002),回归中的子集选择,第2版。查普曼和霍尔,新作品·兹比尔1051.62060
[23] Rokach L(2009)《分类任务中表征集成方法的分类学:综述和注释书目》。计算统计数据分析53(12):4046-4072·Zbl 1453.62185号
[24] Sauerbrei W,Buchholz A,Boulesteix A,Binder H(2015),关于推导多变量回归模型的稳定性问题。生物杂志57(4):531-555·Zbl 1329.62035号
[25] Shah RD,Samworth RJ(2013)《误差控制变量选择:稳定性选择的另一种观点》。J R Stat Soc B 75(1):55-80·Zbl 07555438号
[26] Shrestha DL,Solomatine DP(2006)AdaBoost实验。RT是一种改进的回归增强方案。神经计算18(7):1678-1710·兹比尔1115.68488
[27] Shmueli G(2010)解释还是预测?统计科学25(3):289-310·Zbl 1329.62045号
[28] Tibshirani R(1996)通过套索回归收缩和选择。J R统计Soc B 58(1):267-288·Zbl 0850.62538号
[29] Tibshirani R,Walther G,Hastie T(2001)通过间隙统计估计数据集中的簇数。J R统计Soc B 63(2):411-423·Zbl 0979.62046号
[30] 王四江,南B,罗塞特S,朱J(2011)随机套索。Ann Appl Stat 5(1):468-485·Zbl 1220.62091号
[31] Xin L,Zhu M(2012)变量选择的随机逐步集成。J计算图形统计21(2):275-294
[32] Zhang C,Ma YQ(2012)集成机器学习:方法和应用。纽约州施普林格·Zbl 1303.68022号
[33] Zhang CX,Wang GW(2014)线性回归模型的Boosting变量选择算法。摘自:第十届自然计算国际会议论文集。IEEE出版社,中国,第769-774页·Zbl 1246.62163号
[34] 张CX,王吉伟,刘金明(2015a)RandGA:将随机性注入并行遗传算法中进行变量选择。J应用统计42(3):630-647·Zbl 1514.62967号
[35] Zhang CX,Zhang JS,Wang GW(2015b)线性回归模型变量排序和选择的新套袋集成方法。年:第12届多分类器系统国际研讨会,德国根斯堡。LNCS,第9132卷,第3-14页·Zbl 0867.62055号
[36] 周志华(2012)集成方法:基础与算法。Taylor&Francis,Boca Raton公司
[37] Zhu M,Chipman HA(2006)《平行宇宙中的达尔文进化:一种用于变量选择的平行遗传算法》。技术计量学48(4):491-502
[38] Zhu M,Fan GZ(2011)Cox模型的系综变量选择。统计与计算模拟杂志81(12):1983-1992·Zbl 1431.62179号
[39] 朱雪英,杨玉华(2015)筛选后变量选择:有无数据分割?计算统计30(1):191-203·Zbl 1342.65079号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。