×

一种多准则方法,用于为高维数据找到具有稳定特征选择的预测模型和稀疏模型。 (英语) Zbl 1397.92016号

摘要:为高维数据集找到一个好的预测模型是很有挑战性的。对于遗传数据,不仅重要的是找到一个具有高预测精度的模型,而且重要的是该模型只使用很少的特征,并且这些特征的选择是稳定的。这是因为,在生物信息学中,模型不仅用于预测,还用于得出生物结论,这使得模型的可解释性和可靠性至关重要。我们建议在将预测模型拟合到高维数据集时使用三个目标标准:分类精度、特征选择的稳定性和所选特征的数量。由于不清楚哪种方法最适合评估稳定性,我们首先比较了各种稳定性方法。我们得出结论,皮尔逊相关性具有最佳的理论和经验性质。此外,我们发现,对于稳定性评估行为,最重要的是,一个度量包含一个偶然或大量选定特征的修正。然后,我们分析了Pareto前沿,并得出结论:在不损失太多预测准确性的情况下,可以找到稳定选择少数特征的模型。

MSC公司:

92B15号机组 普通生物统计学
62页第10页 统计学在生物学和医学科学中的应用;元分析
92D10型 遗传学和表观遗传学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 朗,M。;科特豪斯,H。;马韦德尔,P。;Weihs,C。;Rahnenführer,J。;Bischl,B.,《高维生存分析的自动模型选择》,《统计计算与模拟杂志》,85,1,62-76,(2015)·Zbl 1457.62350号 ·doi:10.1080/00949655.2014.929131
[2] Kalousis,A。;Prados,J。;Hilario,M.,《特征选择算法的稳定性:高维空间的研究》,知识与信息系统,12,1,95-116,(2007)·doi:10.1007/s10115-006-0040-8
[3] 何,Z。;Yu,W.,生物标志物发现的稳定特征选择,计算生物学与化学,34,4,215-225,(2010)·兹比尔1403.92068 ·doi:10.1016/j.compbiochem.2010.07.002
[4] Lausser,L。;穆塞尔,C。;毛彻,M。;Kestler,H.A.,《测量和可视化生物标记物选择技术的稳定性》,计算统计学,28,1,51-65,(2013)·Zbl 1305.65052号 ·doi:10.1007/s00180-011-0284-y
[5] Nogueira,S。;Brown,G.,《测量数据库中特征选择、机器学习和知识发现的稳定性》。数据库中的机器学习和知识发现,计算机科学课堂讲稿,9852,442-457,(2016),Cham:Springer International Publishing,Cham·数字对象标识代码:10.1007/978-3-319-46227-1_28
[6] Alelyani,S。;赵,Z。;Liu,H.,评估特征选择算法稳定性的困境,2011年IEEE高性能计算与通信国际会议论文集·doi:10.1109/HPCC.2011.99
[7] Wang,H。;Khoshgoftaar,T.M。;瓦尔德,R。;Napolitano,A.,《评估软件度量选择技术稳定性的新型数据集相似性感知方法》,《2012年IEEE第13届信息重用和集成国际会议论文集》,IRI 2012·doi:10.1109/IRI.2012.6302983
[8] 明绍森,N。;Bühlmann,P.,稳定性选择,皇家统计学会杂志。B系列:统计方法,72,4,417-473,(2010)·Zbl 1411.62142号 ·文件编号:10.1111/j.1467-9868.2010.00740.x
[9] 布列斯特,A.-L。;Slawski,M.,排名基因列表的稳定性和聚合,生物信息学简报,10,5,556-568,(2009)·doi:10.1093/bib/bbp034
[10] Lee,S。;Rahnenführer,J。;Lang,M.,使用双重子抽样从高通量基因组数据中稳健选择癌症生存特征,PLoS ONE,9,10,(2014)·doi:10.1371/journal.pone.0108818
[11] 西阿瓦达。;Khoshgoftaar,T.M。;迪特曼博士。;瓦尔德,R。;Napolitano,A.,《生物信息学数据特征选择技术稳定性综述》,2012年IEEE信息重用和集成国际会议论文集·doi:10.1109/IRI.2012.6303031
[12] 阿贝尔,T。;Helleputte,T。;Van de Peer,Y。;杜邦,P。;Saeys,Y.,利用集成特征选择方法进行癌症诊断的稳健生物标记识别,生物信息学,26,3,392-398,(2009)·doi:10.1093/bioinformatics/btp630
[13] Davis,C.A。;Gerick,F。;Hintermair,V。;弗里德尔,C.C。;芬德尔,K。;Küffner,R。;Zimmer,R.,微阵列分类的可靠基因签名:稳定性和性能评估,生物信息学,22,19,2356-2363,(2006)·doi:10.1093/bioinformatics/btl400
[14] 北德西。;Pascariello,E。;Pes,B.,生物标志物选择技术的比较分析,国际生物医学研究,2013,(2013)·数字对象标识代码:10.1155/2013/387673
[15] 迪特曼,D。;Khoshgoftaar,T.M.(坦桑尼亚联合共和国)。;瓦尔德,R。;Wang,H.,生物数据集特征排序技术的稳定性分析,2011年IEEE生物信息学和生物医学国际会议论文集·doi:10.1109/BIBM.2011.84
[16] Haury,A。;Gestraud,P。;Vert,J.,《特征选择方法对分子签名准确性、稳定性和可解释性的影响》,《公共科学图书馆·综合》,6,12,(2011)·doi:10.1371/journal.pone.0028210
[17] Lee,H.W。;劳顿,C。;Na,Y.J。;Yoon,S.,基于化学计量学的特征选择方法在早期癌症检测和生物标记物发现中的稳健性,遗传学和分子生物学中的统计应用,12,2,207-223,(2013)·doi:10.1515/sagmb-2012-0067
[18] Saeys,Y。;阿贝尔,T。;Van De Peer,Y.,《使用集成特征选择技术进行稳健特征选择》,《计算机科学讲义》(包括人工智能子系列讲义和生物信息学讲义),5212,2,313-325,(2008)·doi:10.1007/978-3-540-87481-221
[19] 希拉,L.-R。;Lausser,L。;Kestler,H.A.,《大型复杂数据分析》(2016),施普林格出版社·doi:10.1007/978-3-319-25226-17
[20] P.Jaccard,《阿尔卑斯山和侏罗纪植物区系分布比较》,《自然科学协会公报》,第37期,第547-579页,(1901年)
[21] Dice,L.R.,物种间生态关联量的测量,生态学,26,3,297-302,(1945)·doi:10.2307/1932409
[22] Ochiai,A.,《日本及其邻近地区比目鱼的动物地理学研究》,《日本鱼类科学学会公报》,22,9526-530,(1957)·doi:10.2331/水.22.526
[23] Zucknick,M。;理查森,S。;Stronach,E.,比较单变量和多变量分类方法得出的基因表达谱特征,《遗传学和分子生物学的统计应用》,7,1,1-34,(2008)·Zbl 1276.92033号 ·数字标识代码:10.2202/1544-6115.1307
[24] Lustgarten,J.L。;Gopalakrishnan,V。;Visweswaran,S.,《测量生物医学数据集中特征选择的稳定性》,AMIA。。。年度研讨会记录/AMIA研讨会。AMIA研讨会,2009年,406-410,(2009)
[25] Novovicová,J。;索莫尔,P。;Pudil,P.,《特征选择算法稳定性的新度量》,2009年IEEE国际数据挖掘研讨会论文集,ICDMW 2009·doi:10.1109/ICDMW.2009.32
[26] 索莫尔,P。;Novovicová,J.,评估优化特征子集基数的特征选择器的稳定性并比较其输出,IEEE模式分析和机器智能汇刊,32,11,1921-1939,(2010)·doi:10.1109/TPAMI.2010.34
[27] Kuncheva,L.I.,特征选择的稳定性指数,第25届IASTED国际人工智能与应用会议论文集(AIA’07)
[28] 桑穆特,C。;Webb,G.I.,《机器学习百科全书》,(2011),纽约州纽约市,美国:斯普林格,纽约州,美国·Zbl 1211.68001号
[29] 彭,H。;长,F。;Ding,C.,基于互信息的特征选择:最大依赖性、最大相关性和最小冗余的标准,IEEE模式分析和机器智能汇刊,27,8,1226-1238,(2005)·doi:10.1109/TPAMI.2005.159
[30] 霍夫纳,B。;Mayr,A。;罗宾佐诺夫,N。;Schmid,M.,《R中基于模型的提升:使用R包mbost的实践教程》,计算统计,29,1-2,3-35,(2014)·Zbl 1306.65069号 ·doi:10.1007/s00180-012-0382-5
[31] Bühlmann,P。;Yu,B.,《L2损失加剧》,《美国统计协会杂志》,98,462,324-339,(2003)·Zbl 1041.62029号 ·doi:10.1198/0162145003000125
[32] 元,G.-X。;Ho,C.-H。;Lin,C.-J.,Am improved GLMNET for L1-regularized logistic regression regression Research,Journal of Machine Learning Research(JMLR),1999-2010,(2012)·Zbl 1432.68404号
[33] Izenman,A.J.,《现代多元统计技术:回归、分类和流形学习》,(2013),美国纽约州纽约市:斯普林格,纽约州纽约州纽约
[34] Miettinen,K.,《非线性多目标优化》,(2004),美国马萨诸塞州诺威尔:美国马萨诸塞州诺威尔市Kluwer学术出版社
[35] Stiglic,G。;Kokol,P.,大型微阵列分析研究中排名基因列表的稳定性,生物医学和生物技术杂志,2010,(2010)·doi:10.1155/2010/616358
[36] Vanschoren,J。;van Rijn,J.N。;Bischl,B。;Torgo,L.,OpenML:机器学习中的网络科学,ACM SIGKDD Explorations Newsletter,15,2,49-60,(2013)
[37] 癌症基因组图谱研究网络,胃腺癌的综合分子特征,《自然》,513202-209,(2014)
[38] 核心,R。;R Core Team,R.,Team,A Language和(2016),维也纳:统计计算环境。R统计计算基金会,维也纳
[39] Bischl,B。;朗,M。;Kotthoff,L.,mlr:R中的机器学习,机器学习研究杂志(JMLR),17,170,1-5,(2016)·Zbl 1392.68007号
[40] Bischl,B。;朗,M。;O·默斯曼。;Rahnenführer,J。;Weihs,C.,《批处理作业和批处理实验:在批处理环境中使用R的抽象机制》,《统计软件杂志》,64,11,1-25,(2015)
[41] Lang,M.,fmrmr:Fast mRMR,R包版本0.1,(2015)
[42] 卡拉佐格鲁,A。;霍尼克,K。;Smola,A。;Zeileis,A.,kernlab——R中内核方法的S4包,《统计软件杂志》,11,9,1-20,(2004)
[43] Helleputte,T。;Gramme,P.,LiblineaR:基于LiblineaR C/C++库的线性预测模型,R包版本1.94-2,(2015)
[44] Hothorn,T。;Bühlmann,P。;Kneib,T。;施密德,M。;霍夫纳,B。;Bühlmann,P.,mbost:基于模型的增压,R包版本2.6-0,2,(2015),mbost:基于模型的升压
[45] Wright,M.N。;Ziegler,A.,《Ranger:C++和R中高维数据随机森林的快速实现》,《统计软件杂志》,77,1,(2017)·doi:10.18637/jss.v077.i01
[46] 辛格,T。;O·桑德。;北卡罗来纳州比伦文克尔。;Lengauer,T.,ROCR:R中分类器性能的可视化,生物信息学,21,20,3940-3941,(2005)·doi:10.1093/bioinformatics/bti623
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。