×

探索基于模型的boosting稀疏快速变量选择。 (英文) Zbl 1397.92020号

计算。数学。方法医学。 2017年,文章ID 1421409,8 p.(2017); 更正同上,2018年,文章ID 2430438,1 p.(2018)。
小结:我们提出了一种基于模型梯度提升和随机排列变量的新变量选择方法。基于模型的boosting是一种在进行变量选择的同时拟合统计模型的工具。拟合的缺点在于需要对稍微改变的数据进行多个模型拟合(例如交叉验证或引导),以找到最佳的推进迭代次数并防止过度拟合。在我们提出的方法中,我们用真实变量(即所谓的阴影变量)的随机排列版本来扩充数据集,并在将这样的变量添加到模型中后立即停止逐步拟合。这允许在模型的单一拟合中进行变量选择,而不需要进一步的参数调整。我们表明,我们的探测方法可以与高维分类基准中的稳定性选择等最先进的选择方法竞争,并将其应用于三个基因表达数据集。

MSC公司:

92B15号机组 普通生物统计学
62页第10页 统计学在生物学和医学科学中的应用;元分析
92C40型 生物化学、分子生物学
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 罗梅罗,R。;埃斯皮诺扎,J。;Gotsch,F。;Kusanovic,J.P。;弗里尔,洛杉矶。;O.埃雷斯。;Mazaki-Tovi,S。;Than,N.G。;哈桑,S。;Tromp,G.,《利用高维生物学(基因组学、转录组学、蛋白质组学和代谢组学)了解早产综合征》,BJOG:国际妇产科杂志,113,s3,118-135,(2006)·doi:10.1111/j.1471-0528.2006.01150.x
[2] 克拉克,R。;Ressom,H.W。;王,A。;Xuan,J。;刘,M.C。;Gehan,E.A。;Wang,Y.,高维数据空间的特性:探索基因和蛋白质表达数据的意义,《自然评论癌症》,8,1,37-49,(2008)·doi:10.1038/nrc2294
[3] Mallick,P。;Kuster,B.,《蛋白质组学:实用观点》,《自然生物技术》,第28、7、695-709页,(2010年)·doi:10.1038/nbt.1658
[4] 伯明翰,M.L。;Pong-Wong,R。;Spiliopoulou,A。;海沃德,C。;鲁丹,I。;坎贝尔,H。;Wright,A.F。;Wilson,J.F。;阿加科夫,F。;纳瓦罗,P。;Haley,C.S.,高维特征选择的应用:人类基因组预测的评估,科学报告,5,(2015)·doi:10.1038/srep10312
[5] Tibshirani,R.,《通过套索进行回归收缩和选择》,英国皇家统计学会期刊B,58,1,267-288,(1996)·Zbl 0850.62538号
[6] 埃夫隆,B。;哈斯蒂,T。;约翰斯通,I。;Tibshirani,R.,最小角回归,《统计年鉴》,32,2,407-499,(2004)·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[7] 邹,H。;Hastie,T.,《通过弹性网的正则化和变量选择》,《皇家统计学会杂志》。B系列:统计方法,67,2,301-320,(2005)·兹比尔1069.62054 ·数字对象标识代码:10.1111/j.1467-9868.2005.0050.x
[8] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《加性逻辑回归:助推的统计学观点》,《统计年鉴》,28,2337-407,(2000)·Zbl 1106.62323号 ·doi:10.1214操作系统/1016218223
[9] Bühlmann,P。;Hothorn,T.,Boosting algorithms:正则化、预测和模型拟合,《统计科学》,22,4,477-505,(2007)·Zbl 1246.62163号 ·doi:10.1214/07-sts242
[10] 明绍森,N。;Bühlmann,P.,用套索选择高维图和变量,《统计年鉴》,34,3,1436-1462,(2006)·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[11] 冷,C。;Lin,Y。;Wahba,G.,《关于套索和模型选择相关程序的说明》,《中国统计》,16,4,1273-1284,(2006)·Zbl 1109.62056号
[12] 明绍森,N。;Bühlmann,P.,稳定性选择,皇家统计学会杂志。B系列:统计方法,72,4,417-473,(2010)·Zbl 1411.62142号 ·文件编号:10.1111/j.1467-9868.2010.00740.x
[13] 沙阿·R·D。;Samworth,R.J.,《带误差控制的变量选择:稳定性选择的另一种观点》,《皇家统计学会杂志》。B系列统计方法,75,1,55-80,(2013)·Zbl 07555438号 ·文件编号:10.1111/j.1467-9868.2011.01034.x
[14] 霍夫纳,B。;Boccuto,L。;Göker,M.,《在高维情况下控制错误发现:通过稳定性选择增强》,BMC生物信息学,16,1,第144条,(2015)·doi:10.1186/s12859-015-0575-3
[15] 盖恩,I。;Elisseeff,A.,《变量和特征选择简介》,《机器学习研究杂志》,31157-1182,(2003)·Zbl 1102.68556号
[16] Bi,J。;Bennett,K.P。;Embrachts,M。;布伦曼,C.M。;Song,M.,通过稀疏支持向量机降低维数,机器学习研究杂志,31229-1243,(2003)·Zbl 1102.68531号
[17] Wu,Y。;Boos,D.D。;Stefanski,L.A.,通过添加伪变量控制变量选择,美国统计协会杂志,102,477,235-243,(2007)·Zbl 1284.62242号 ·doi:10.1198/016214500000843
[18] Tusher,V.G。;Tibshirani,R。;Chu,G.,应用于电离辐射反应的微阵列显著性分析,美国国家科学院学报,98,9,5116-5121,(2001)·2014年12月10日 ·doi:10.1073/pnas.091062498
[19] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素》。《统计学习的要素》,《统计学中的斯普林格系列》(2001),美国纽约州纽约市:斯普林格纽约公司,美国纽约市·Zbl 0973.62007号 ·doi:10.1007/978-0-387-21606-5
[20] Ridgeway,G.,《助推状态》,《计算科学与统计》,3172-181,(1999)
[21] Mayr,A。;霍夫纳,B。;Schmid,M.,《知道何时停止的重要性:组件式梯度提升的顺序停止规则》,《医学中的信息方法》,51,2,178-186,(2012)·文件编号:10.3414/ME11-02-0030
[22] 赫普,T。;施密德,M。;O.盖菲勒。;Waldmann,E。;Mayr,A.,正则化回归方法——梯度增强和套索之间的比较,医学信息方法,55,5422-430,(2016)·文件编号:10.3414/ME16-01-0033
[23] 运输,A.-C。;莫德利特,F。;维拉·利科纳,P。;Vert,J.-P.,TIGRESS:使用稳定性选择对基因调控进行可信推断,BMC系统生物学,6,第145条,(2012)·doi:10.1186/1752-0509-6-145
[24] Ryali,S。;Chen,T。;苏佩卡,K。;Menon,V.,使用基于稳定性选择的稀疏部分相关和弹性净惩罚估计fMRI数据中的功能连通性,NeuroImage,59,4,3852-3861,(2012)·doi:10.1016/j.neuroimage.2011.11.054
[25] 托马斯,J。;Mayr,A。;Bischl,B。;施密德,M。;A.史密斯。;B.霍夫纳。
[26] Mayr,A。;霍夫纳,B。;Schmid,M.,通过优化一致性指数和稳定性选择提高稀疏生存模型的区分能力,BMC生物信息学,17,1,第288条,(2016)·doi:10.1186/s12859-016-1149-8
[27] Strasser,H。;韦伯,C.,置换统计的渐近理论,统计学的数学方法,8,2,220-250,(1999)·Zbl 1103.62346号
[28] Kursa,M.B。;Jankowski,A。;鲁德尼基,W。,Boruta——特征选择系统,《基础信息》,101,4,271-285,(2010)·doi:10.3233/FI-2010-288
[29] 朗,M。;Bischl,B。;Surmann,D.,《批处理工具:R在批处理系统上工作的工具》,《开源软件杂志》,2017年第2期,第10期·doi:10.21105/joss.00135
[30] 阿龙,美国。;北卡罗来纳州巴尔卡。;诺特曼,D.A。;Gish,K。;伊巴拉,S。;麦克,D。;Levine,A.J.,通过寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示的广泛基因表达模式,美国国家科学院学报,96,12,6745-6750,(1999)·doi:10.1073/pnas.96.12.6745
[31] 格雷维尔,E。;Pierron,G。;文森特·萨洛蒙,A。;Gruel,北。;雷纳尔,V。;Savignoni,A。;De Rycke,Y。;皮尔加,J.-Y。;卢切西,C。;Reyal,F。;Fourquet,A。;罗曼·罗曼,S。;拉德瓦尼,F。;萨斯特·加劳,X。;阿塞林,B。;Delattre,O.,T1T2淋巴结阴性乳腺癌患者的预后DNA特征,基因染色体和癌症,49,121125-1134,(2010)·doi:10.1002/gcc.20820
[32] Bühlmann,P。;Kalisch,M。;Meier,L.,《着眼于生物学应用的高维统计》,《统计及其应用年度回顾》,1,1,255-278,(2014)
[33] Hothorn,T。;Buehlmann,P。;Kneib,T。;施密德,M。;B.霍夫纳。
[34] 霍夫纳,B。;霍霍恩,T。
[35] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降广义线性模型的正则化路径,统计软件杂志,33,1,1-22,(2010)
[36] Tutz,G。;Binder,H.,通过基于likelihood的boosting进行隐式变量选择的广义加性建模,生物统计学,62,4,961-971,(2006)·Zbl 1116.62075号 ·doi:10.1111/j.1541-0420.2006.00578.x
[37] Mayr,A。;粘合剂H。;O.盖菲勒。;Schmid,M.,《推进算法的演变:从机器学习到统计建模》,《医学信息方法》,53,6,419-427,(2014)·文件编号:10.3414/ME13-01-0122
[38] Mayr,A。;北芬斯克。;霍夫纳,B。;Kneib,T。;Schmid,M.,《高维数据位置、规模和形状的广义加性模型——基于增强的灵活方法》,《皇家统计学会杂志》。C辑应用统计,61,3,403-427,(2012)·文件编号:10.1111/j.1467-9876.2011.01033.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。