×

兹马思-数学第一资源

从高维数据中寻找致病基因:统计和机器学习方法的评估。(英语) Zbl 1344.92016
摘要:现代生物学实验通常涉及到高维数据,其中包含数千个或更多变量。一个具有挑战性的问题是确定与特定疾病相关的关键变量。混淆这项任务的是大量可用于变量选择的统计方法。基于这个原因,我们开始开发一个框架来研究通常用于分析高维生物数据集的统计方法的变量选择能力。具体地说,我们设计了六种模拟癌症(基于基准结肠癌和前列腺癌数据),我们精确地知道哪些基因导致数据集被归类为癌症或正常——我们称之为这些致病基因。我们发现,没有一种统计方法可以识别所有模拟癌症的致病基因,尽管在大多数情况下,增加样本量确实可以提高变量选择能力。此外,某些统计工具可以以较低的错误率对模拟数据进行分类,但用于分类的变量不一定是致病基因。
理学硕士:
92B15号 一般生物统计学
第62页 统计学在生物学和医学科学中的应用;元分析
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] Alon,U.,N.Barkai,D.A.Notterman,K.Gish,S.Ybarra,D.Mack和A.J.Levine(1999):“通过寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示的基因表达的广泛模式”,Proc。纳特。阿卡德。《科学》,966745-6750。
[2] Anonymous(2006):“充分利用微阵列,”Nat。生物技术,241039。
[3] 匿名者(2010):“MAQC-II:分析一下!,“纳特。生物技术,28761。
[四] Anonymous(2014):“测序质量控制联盟对RNA序列准确性、再现性和信息含量的综合评估”,Nat。生物技术公司,32903-914。
[5] 阿西姆斯,T.L.,J.W.Knowles,A.Basu,C.Iribaren,A.Southwick,H.Tang,D.Absher,J.Li,J.M.Fair,G.D.Rubin,S.Sidney,S.P.Fortmann,A.S.Go,M.A.Hlatky,R.M.Myers,N、 Risch和T.Quertermous(2008):“多民族进展研究中染色体9p21的临床和亚临床冠状动脉疾病易感性位点”,Hum。遗传学杂志,172320-2328。
[6] Bar,H.,J.Booth,E.Schifano和M.T.Wells(2009):“拉普拉斯近似EM微阵列分析:比较微阵列实验的经验贝叶斯方法”,统计学家。《科学》,25388-407。·Zbl 1329.62114
[7] Becker,N.,W.Werft,G.Toedt,P.Lichter and A.Benner(2009):“惩罚向量机:特征选择支持向量机分类的R-包”,生物信息学,251711-1712。
[8] Benjamini Y.和Y.Hochberg(1995):“控制错误发现率:一种实用且强大的多重测试方法”,J.R.Stat.Soc。B系列统计方法,57,289-300。·Zbl 0809.62014
[9] Bootkrajang,J.和A.Kabán(2013):“使用稳健稀疏逻辑回归对错误标记的微阵列进行分类”,生物信息学,29870-877。
[10] Cordell,H.J.(2009):“检测人类疾病基础上的基因-基因相互作用”,Nat。版次。第404-392页。
[11] Dean,N.和A.E.Raftery(2010):“潜在类分析变量选择”,Ann。Inst.Stat.Math.,第62页,第11-35页。·Zbl 1422.62085
[12] Do,K.A.,P.Müller and F.Tang(2005):“差异基因表达的贝叶斯混合模型”,J.R.Stat.Soc。先生。C应用程序。Stat.,54627-644年。·Zbl 05188702
[13] Dudoit,S.,J.P.Shaffer和J.C.Boldrick(2003):“微阵列实验中的多假设检验”,统计学家。《科学》第18、71-103页。·Zbl 1048.62099
[14] Efron,B.(2008):“微阵列、经验贝叶斯和两组模型”,统计学家。科学,23,1-22。·Zbl 1327.62046
[15] Efron,B.(2010):“间接证据的未来”,统计学家。《科学》第25、145-157页。·Zbl 1328.62043
[16] Efron,B.和N.Zhang(2011):“错误发现率和拷贝数变化”,Biometrika,98251-271。·Zbl 1215.62115
[17] Efron,B.,T.Hastie,I.Johnstone和R.Tibshirani(2004):“最小角度回归”,Ann。统计,32407-499。·Zbl 1091.62054
[18] Fan,J.和R.Li(2001):“基于非Cave惩罚似然及其预言性质的变量选择”,J.Am。统计协会,961438-1360。·Zbl 1073.62547
[十九] Ferreira,J.A.和A.H.Zwinderman(2006):“关于Benjamini-Hochberg方法”,Ann。统计学家,341827-1849年。·Zbl 1246.62170
[20] 弗伦德,Y.(1995):“以多数提升弱学习算法”,《计算机基础》,121256-285。·Zbl 0833.68109
[21] Freund,Y.和R.E.Schapire(1996):“新的提升算法的实验”,机器学习:过程。第十三届国际会议,148-156。
[22] Friedman,J.(2001):“贪婪函数逼近:梯度提升机”,Ann。统计师,29,1189-1232。·Zbl 1043.62034
[23] Friedman,J.(2006):“预测(机器)学习的最新进展”,J.Classif.,23175-197。·Zbl 1336.62178
[24] Friedman,J.,T.Hastie和R.Tibshirani(2000):“加性逻辑回归:升压的统计观点(讨论)”,Ann。统计员,28337-407。·Zbl 1106.62323
[25] Funke,B.,A.K.Malhotra,C.T.Finn,A.M.Plocik,S.L.Lake,T.Lencz,P.DeRosse,J.M.Kane和R.Kucherlapati(2005):“COMT基因变异对精神病性和情感性障碍的风险:病例对照研究”,Behav。大脑功能,1,19。
[26] Guyon,I.和A.Elisseeff(2003):“变量和特征选择简介”,J.Mach。学习。第1157-1182页。·Zbl 1102.68556
[27] Guyon,I.,J.Weston,S.Barnhill和V.Vapnik(2002):“使用支持向量机进行癌症分类的基因选择”,Mach。学习,46,389-422。·Zbl 0998.68111
[28] Hand,D.J.(2006):“分类器技术与进步的幻觉”,统计学家。科学,21,1-14。·Zbl 1426.62188
[29] Hand,D.J.(2008):“从蛋白质组质谱数据诊断乳腺癌:一个比较评估,”Stat.Appl。吉奈特。分子生物学,7,15。·兹布1276.92037
[30] Hand,D.J.(2012):“评估分类方法的性能”,国际统计修订版,80400-414。
[31] Hastie,T.,J.Friedman和R.Tibshirani(2009):“统计学习的要素”,Springer Verlag,纽约,美国。
[32] Hazai,E.,I.Hazai,I.Ragueneau Majlessi,S.P.Chung,Z.Bikadi and Q.C.Mao(2013):“使用支持向量机方法预测人类乳腺癌抵抗蛋白的底物”,BMC生物信息学,14,130。
[33] Hu,Q.,W.Pan,S.An,P.Ma和J.Wei(2010):“一种基于邻域互信息的癌症识别的有效基因选择技术”,Int.J.Mach。学习。赛博,1,63-74。
[34] Huang,J.,P.Breheny和S.Ma(2012):“高维模型中群体选择的选择性回顾”,统计学家。《科学》第27481-499页。·Zbl 1331.62347
[35] ICGC-TCGA梦想基因组突变呼叫挑战(),访问日期:2016年4月22日。
[36] Jamain,A.和D.J.Hand(2008):“采矿监督分类性能研究:元分析调查”,J.Classif.,2587-112。·Zbl 1260.62043
[37] Jeanmougin,M.,A.de Reynes,L.Marisa,C.Paccard,G.Nuel和M.Guedj(2010):“我们是否应该放弃基因表达微阵列数据分析中的t检验:方差建模策略的比较”,PLoS One,5,e12336。
[38] Lee,Y.J.,C.C.Chang和C.H.Chao(2008):“应用于微阵列基因表达数据的增量正向特征选择”,生物制药杂志。Stat.,1827-840。
[39] Leek,J.T.和J.D.Storey(2011):“多重假设检验的联合零标准”,Stat.Appl。吉奈特。分子生物学,10,28。·Zbl 1296.92046
[40] 通过本项目,如:C.D.Palmer,T.Young,K.G.Ejeebe,H.Allaye,E.J.Benjamin,F.Bennett,D.W.Bowden,A.Chakravrti,A.Dresbach,D.N.Farrollow,A.R.Folsom,M.Fornage,T.Fornese,T.Forrester,E.Fox,C.A.Haiman,J.Harttiala,T.B.哈里斯,S.L.L.Hazen,S.L.Hazen,S.R.Heckbert,B.E.Henderson,J.N.Hirshorn,W.Bowden,A.Chakrangn,A.Chakravrti,A.ChaS.B.Kritchevsky,E.Larkin,M、 丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝丝泰勒·西斯科,唐·西斯科。特蕾西,R.S.瓦桑,K.M.沃特斯,R.威尔克斯,J.G.威尔逊,R.R.Fabsitz,S.B.Gabriel,S.Kathiresan和E.Boerwinkle。(2011年):“8090名非裔美国人冠心病及其危险因素的全基因组关联研究:NHLBI护理项目”,PLoS Genet.,7,e1001300。
[41] Li,C.和M.Li(2008):“GWAsimulator:快速全基因组模拟程序”,生物信息学,24140-142。
[42] Ma,S.,X.Song和J.Huang(2007):“监督组套索在微阵列数据分析中的应用”,BMC生物信息学,8,60。
[43] MAQC联合会(2010年):“微阵列质量控制(MAQC)-II基于微阵列预测模型开发和验证的通用实践研究”,Nat。生物科技,28827-838。
[44] Michailidis,G.(2012):“生物网络中的统计挑战”,J.Comput。图表。Stat.,21840-855年。
[45] Mongan,M.A.,R.T.Dunn,S.Vonderfecht,N.Everds,G.Chen,S.Cheng,M.Higgins Garn,Y.Chen,C.A.Afshari,T.L.Williamson,L.Carlock,C.DiPalma,S.Moss和H.K.Hamadeh(2010):“基因表达分析的新统计算法有助于区分孕烷X受体依赖和独立毒性机制,“公共科学图书馆一号,5号,e15595。
[46] Monti,S.,P.Tamayo,J.Mesirov and T.Golu(2003):“共识聚类:基于重采样的基因表达微阵列数据的类发现和可视化方法”,荷兰Kluwer学术出版社。·Zbl 1039.68103
[47] Park,M.Y.和T.Hastie(2008):“检测基因相互作用的惩罚逻辑回归”,生物统计学,9,30-50。·Zbl 1274.62853
[48] Pool,J.E.,I.Hellmann,J.D.Jensen和R.Nielsen(2010):“基因组序列变异的群体遗传推断”,基因组研究,第20期,第291-300页。
[49] S、B.M.M.Neale、A.Corvin、J.T.Walters、K.H.Farh、P.A.Holmans、P.Lee、B.Bulik Sullivan、D.A.Collier、H.黄、T.H.P.H.Pers、I.Agarttz、E.Agerbo、M.Albus、M.Albus、M.亚历山大、F.Amin、S.A.Bacanu、M.Begemann N、N、R.A.Belliveau Jr、J.A.Belliveau Jr、J.Bene、J.Bene、J.Bene、J.E.Bergene、E.BevilacQuaa、T.B.B.B.B.Bigdeli、D.W.布鲁格曼,N.G.比可拉,R、 Buckner,L.Buckner,W.Byerley,W.Cahn,G.Cai,D.Campion,R.M.Cantor,V.J.Carr,N.Carrera,S.V.cats,K.D.Chambert,R.C.Chan,R.Y.陈,陈,E.Y.陈,W.Y.陈,W.陈,W.程,E.F.张祥,S.A.冲,C.R.Clo宁格,D.Cohen,D.Cohen,N.Cohen,N.Cohen,P.Cormican,P.Cormican,N.Craddocck,J.J.Crowley,D.Curtis,M.戴维森,K.L.L.L.L.L.L.D.T,J.德尔法维罗,D、 狄更斯、D.代沟、T.迪南、S.Djurovic、G.Donohoe、E.Drapau、J.Duan、F.Dudbbridge、N.Durdbridge、N.Durdshi、P.Eichhammer、J.Eriksson、V.Escott Price、L.Essioux、A.H.Fanuous、M.S.Farrell L.S.Farrell,J.Frank,L.Franke,R.Freedman,N.B.Freedmar,N.B.Freimer,M.M.弗里德曼,J.I.弗里德曼,M.I.Frieman,M.Frieman,M.Frieman,M.Frieman,M.Frieman,M.Frieman,J.罗德里格斯,S、 戈尔德,J.I.Goldstein,V.Golimbet,S.Gopal,J.Gratten,L.de Haan,C.Hammer,M.L.Hamshere,M.Hansen,T.Hansen,T.Hansen,T.Hansen,V.Haroutunian,A.M.Hartmann,F.A.Henskenss,S.Hermss,J.N.Hirschhorn,P.Hoffmann,P.Hoffmann,A.Hoffmann,A.Hoffman,M.V.Hollegaard,D.M.Hougaard,M.M.Hougaard,M.Ikeda,I.Joa,A.Juliaa.Juliaa,R.Julia A.S.S.卡拉恰纳克·扬科娃,J、 卡凡能、D.卡瓦能、D.卡瓦能、M.C.凯勒、J.L.肯尼迪、A.K.Runin、Y.金、J.K.Klovins、J.A.Knowles、B.Konte、V.Kucinskas、Z.Aurele Kucinskene、H.Kuzelova Ptackova、A.K.K.K.\ä勒勒勒、C.劳伦特、J.L.L.Keong、S.H.李、S.E.Legge、B.LeLeLege、B.勒勒、M.李、T.李、K.李、K.Y.梁、J.Liberman、S.Liborska、C.Li、C.Li、T.Li、K.K.K M.Loughland,J.Lubinski,J.Lönnqvist,M、 K.K.Magnusson、B.S.Maher、W.Maier、J.Mallet、S.Marsal,M.Matthehesen,M.Mattingsdal,R.W.McCarley,C.麦当劳麦当劳,A.M.McIntosh,S.Meier,C.J.Meijer,B.Melegh,I.Mellele,R.I.Meintosh R.I.Meshmolam Gately,A.Metspalu,A.MetSpalulu,P.T.Michhie,L.L.Milani,V.Milani,V.Milanova,Y.Mokrab,D.W.Morris,O.Morris,O.Mors,K.C.墨菲,K.C.墨菲,R.M.默里,I.梅因·杰梅斯,B、 Müller Myhsok,M.Nelis,I.Nenadic,D.A.Nertney,G.Nestadt,K.K.Nicodemus,L.Nikitina Zake,L.Nisenbaum,A.Nordin,E.O’Callaghan,C.O’Dushleaine,F.A.O’Neilll,S.Y.Y.Oh,A.A.Olency,L.Olsen,J.Van Os,C.Pantelis,G.N.Papadimitiou,S.Papiol,E.Parkhomenko,M.T.Pato,T.Pato,T.Paunio,M.P.Peo.P.N.Padimitiou,S.Papadimitol,E乔维奇·米洛万切维奇,D.O.Perkins,O。Pitem、J.Pimm、A.J.Pocklington、J.Powell、A.Price、A.E.Pulver、S.M.Purcell、D.Quested、H.B.Rasmussen、A.Reichenberg、M.A.Reimers、M.A.Reimers、A.L.Richards、J.L.Rofman、P.RoussSoS、D.M.Ruderfer、V.Salomamaa、A.R.Sanders、U.Schall、C.R.R.Schbert、T.G.Schulze、S.G.Schwab、S.G.Schwab、E.M.Richards,J.L.L.Rofman Rofman,P.Rofman,P.Rofman J.斯科特,L.J.塞德曼,J.Shi,E。Siurdussson,T.Silagadze,J.M.Silverman,K.Sim,P.Slominsky,J.W.Smaller,H.C.C.A.Spencer,E.A.Stahl,H.Stefansson,S.Steinberg,E.Stogmanne.Stogmann,R.E.Straub,E.Strengman,E.Strengman,J.Strengman,J.Strohaier,T.S.Strooup,M.Subramaniam,M.Subramaniam,J.Suvisaari,D.M.Suvisaar i,D.M.M.Svrakic,J.P.P.Szatquiwicz,E.S.S.S.S.S.S.S.切瓦,S.托萨托,J.维约拉,J。瓦丁顿,D.沃尔什,D.王,Q.王,B.T.韦伯,M.韦瑟,D.B.B.野化者,N.M.威廉姆斯,S.威廉姆斯,S.H.威特特,A.R.沃伦,E.H.H.黄,B.K.沃姆利利利,H.S.西,C.C.C.扎扎伊,X.郑,F.辛普利希,N.R.Wray,K.斯特凡森,K.斯特凡森,P.M.维舍尔,R.马歇尔,R.马道森,O.A.安德勒森,D.H.黑木,黑木,E.布蒙,用,J.D.D.布布布布布布布布布布施,J.D,D,D Xbaum,A.D.Børglum,S、 Cichon,A.Darvasi,E.Domenici,H.Ehrenreich,T.Esko,P.V.Gejman,M.Gill,H.Gurling,C.M.Hultman,N.Iwata,A.V.Jablenssky,E.G.Jö森森,K.S.Kendler,G.Kirov洛夫,J.J.骑士,T.Lencz,D.F.Levinson,N.S.Levinson,Q.S.李,J.刘刘刘刘,A.K.Malhotratra,S.A.McCarroll,A.McQuilllin林,J.L.L.Moran,P.B.B.B.B.B.B.B.Kirovr.Kirov莫滕森,B.J.Mowry,M.M.Nöthen,R、 A.Ophoff,M.J.Owen,A.Palotie,C.N.Pato,T.L.Petryshen,D.Posthuma,M.Ritschel,B.P.Riley,D.Rujescu,P.C.Sham,P.Sklar,D.St Clair,D.R.Weinberger,J.R.Wendland,T.Werge,M.J.Daly,P.F.Sullivan和M.C.O'Donovan。(2014):“108个精神分裂症相关基因位点的生物学见解”,《自然》,511421-427。
[50] Schapire,R.E.(1990):“弱学习能力的力量”,马赫。学习,5197-227。
[51] Sierra,A.和A.Echeverria(2003):“跳过Fisher准则”,模式识别和图像分析,计算机科学系列讲座讲稿第2652卷,962-969。
[52] Singh,D.,P.G.Febbo,K.Ross,D.G.Jackson,J.Manola,C.Ladd,P.Tamayo,A.A.Renshaw,A.V.D'Amico,J.P.Richie,E.S.Landers,M.Loda,P.W.Kantoff,T.R.Golub和W.R.Sellers(2002):“前列腺癌临床行为的基因表达相关性”,《癌细胞》,1203-209。
[53] Stigler,S.M.(2010):“鲁棒性的变化历史”,Am。统计,64277-281。
[54] Stokes,M.E.和S.Visweswaran(2012年):“空间加权释放算法在疾病遗传预测因子排序中的应用”,BioData Min.,5,20。
[55] 斯托里,J.D.(2002):“错误发现率的直接方法”,J.R.Stat.Soc。B系列统计方法,64479-498。·Zbl 1090.62073
[56] Storey,J.D.,J.E.Taylor和D.Siegmund(2004):“错误发现率的强控制、保守点估计和同时保守一致性:统一方法”,J.R.Stat.Soc。B系列统计方法,66187-205。·Zbl 1061.62110
[57] Su,Y.,T.M.Murali,V.Pavlovic,M.Schaffer和S.Kasif(2003):“RankGene:基于表达数据的诊断基因识别”,生物信息学,191578-1579。
[58] Thomas,R.,L.de la Torre,X.Chang和S.Mehrotra(2010年):“DNA微阵列基因表达数据分布和相关时刻的验证和表征”,BMC生物信息学,11576。
[59] Tibshirani,R.(1996):“通过套索进行回归收缩和选择:回顾”,J.R.Stat.Soc。B系列统计方法,73:273-282。
[60] Van Steen,K.(2012):“基因-基因相互作用的世界旅行”,简报。生物信息,13,1-19。
[61] Wang,C.和B.Liu(2008):“城市发展项目中的数据挖掘和热点检测”,J.Data。《科学》第6389-414页。
[62] Wang,C.和M.Zhuravlev(2009):“消费金融中的利润和客户满意度分析”,案例研究巴士。《印度政府统计》,2147-156。
[63] Wang,C.,W.Howell和C.Wang(2015):“基因搜索和相关风险估计:前列腺癌数据的统计分析”,载:实用预测分析和医学决策系统,学术出版社,伦敦,896-920。
[64] Wang,X.S.和R.Simon(2011):“基于微阵列的单基因癌症预测”,BMC生物信息学,12391。
[65] Weston,J.,A.Elissee,B.Scholkopf和M.Tipping(2003):“线性模型和核方法中零范数的使用”,J.Mach。学习。第31439-1461页。·Zbl 1102.68605
[66] 韦斯顿,J.,S.穆克吉,O.夏佩尔,M.庞蒂尔,T.波吉奥和V.瓦普尼克。(2001):“支持向量机的特征选择”,Adv。神经系统。信息处理。系统,13668-674。
[67] Yang,Z.R.(2010):生物信息学的机器学习方法(科学、工程和生物信息学),第4卷,世界科学出版社,美国新泽西州。
[68] Yuan,M.and Y.Lin(2007):“关于非负garrotte估计”,J.R.Stat.Soc。B系列统计方法,69,143-161。·Zbl 1120.62052
〔69〕 赵,P.和B.Yu(2006):“套索模型选择的一致性”,J.Mach。学习答案,72541-2563。·Zbl 1222.62008号
[70] 邹,H.(2006):“自适应套索及其甲骨文特性”,J.Am。统计协会,1011418-1429。·62ZB6.1171升
[71] Zuber,V.和K.Strimmer(2011年):“使用汽车评分的高维回归和变量选择”,统计应用。吉奈特。分子生物学,10,34。·Zbl 1296.92082
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。