×

通过整合外部通路信息,对具有基因表达水平的复杂表型的Jackknife模型平均预测方法。 (英语) Zbl 1423.92063号

总结:动机在过去几年中,许多预测方法被提出,并广泛应用于高维遗传数据中的疾病风险评估。然而,这些方法通常忽略了遗传数据中自然存在的重要群体结构的模型拟合。方法在本研究中,我们应用了一种新的模型平均方法,称为折刀模型平均预测(JMAP),用于高维遗传风险预测,同时将路径信息纳入模型规范。JMAP以折刀的方式最小化交叉验证标准,从而跨候选模型选择最佳权重。与以前的方法相比,JMAP的主要特征之一是允许模型权重从0到1变化,但不限制权重总和等于1。我们使用广泛的仿真研究评估了JMAP的性能,并将其与现有方法进行了比较。我们最终将JMAP应用于TCGA公开的四个真实癌症数据集。结果模拟结果表明,与其他现有方法(例如gsslasso)相比,JMAP在一系列场景中表现最佳或是最佳方法之一。例如,在16个模拟设置中有14个设置为\(\text{PVE}=0.3\),与gsslasso相比,JMAP的预测精度平均高0.075。我们进一步发现,在模拟中,与空候选模型的权重相比,真实候选模型的模型权重为零的机会要小得多,并且在量级上要大得多。在实际数据应用中,JMAP在连续表型方面的表现也与其他方法相当或更好。例如,对于COAD、CRC和PAAD数据集,与gsslasso相比,JMAP的预测准确度平均增益分别为0.019、0.064和0.052。结论所提出的方法JMAP是一种用于高维遗传风险预测的新型模型平均方法,同时将外部有用的群结构纳入模型规范。

MSC公司:

92C40型 生物化学、分子生物学
62页第10页 统计学在生物学和医学中的应用;元分析
62英尺40英寸 引导、折刀和其他重采样方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abecasis,G.R。;Abecasis,G.R。;Altshuler,D.,《人口规模测序的人类基因组变异图》,《自然》,46773191061-1073(2010)·doi:10.1038/nature09534
[2] Cirulli,E.T。;Goldstein,D.B.,《通过全基因组测序揭示罕见变异在常见疾病中的作用》,《自然评论遗传学》,11,6,415-425(2010)·doi:10.1038/nrg2779
[3] Metzker,M.L.,《测序技术——下一代》,《自然评论遗传学》,11,1,31-46(2010)·doi:10.1038/nrg2626
[4] AC t Hoen,P。;弗里德尔,M.R。;Almlöf,J.,跨实验室高通量mRNA和小RNA测序的再现性,《自然生物技术》,31,11,1015-1022(2013)·doi:10.1038/nbt.2702
[5] Altshuler,D。;Daly,M.J。;Lander,E.S.,《人类疾病的遗传图谱,科学》,3225903881-888(2008)·doi:10.1126/科学.1156409
[6] 麦克阿瑟,J。;Bowler,E。;Cerezo,M.,《NHGRI-EBI新公布的全基因组关联研究目录》(GWAS目录),核酸研究,45,D1,D896-D901(2016)·doi:10.1093/nar/gkw1133
[7] Visscher,P.M。;Wray,N.R。;Zhang,Q.,GWAS发现10年:生物学、功能和翻译,美国人类遗传学杂志,101,1,5-22(2017)·doi:10.1016/j.ajhg.2017.06.005
[8] Wellcome Trust Case Control Consortium,对14000例7种常见疾病和3000种共享控制的全基因组关联研究,Nature,447,7145,661-678(2007)
[9] Fuchsberger,C.公司。;弗兰尼克,J。;Teslovich,T.M.,《2型糖尿病的遗传结构》,《自然》,536,7614,41-47(2016)·doi:10.1038/自然18642
[10] Willer,C.J。;施密特,E.M。;Sengupta,S.,与脂质水平相关的基因座的发现和精炼,《自然遗传学》,45,11,1274-1283(2013)·数字对象标识代码:10.1038/ng.2797
[11] van Rheenen,W。;沙图诺夫,A。;Dekker,A.M.,《全基因组关联分析识别肌萎缩侧索硬化症的新风险变体和遗传结构》,《自然遗传学》,48,9,1043-1048(2016)·数字对象标识代码:10.1038/ng.3622
[12] 古塞夫,A。;Won,H。;Mancuso,N.,《精神分裂症与染色质活性的转录组全关联研究产生机制性疾病见解》,《自然遗传学》,50,4,538-548(2018)·doi:10.1038/s41588-018-0092-1
[13] 古塞夫,A。;Ko,A。;Shi,H.,大规模转录组全关联研究的综合方法,《自然遗传学》,48,3,245-252(2017)·doi:10.1038/ng.3506
[14] Wu,L。;Shi,W。;Long,J.,一项对229000名女性进行的转录组关联研究,确定了乳腺癌的新候选易感基因,《自然遗传学》,50,7,968-978(2018)·数字对象标识代码:10.1038/s41588-018-0132-x
[15] 马科斯基,R。;新墨西哥州帕杰夫斯基。;Klimentidis,Y.C.,《超越缺失遗传力:复杂性状的预测》,《公共科学图书馆遗传学》,第7期,第4期(2011年)·doi:10.1371/journal.pgen.1002051
[16] de los Campos,G。;Gianola博士。;Allison,D.B.,《预测人类的遗传易感性:全基因组标记的前景》,《自然评论遗传学》,11,12,880-886(2010)·doi:10.1038/nrg2898
[17] 查特吉,N。;史J。;García-Closas,M.,开发和评估分层疾病预防的多基因风险预测模型,《自然评论遗传学》,17,7,392-406(2016)·doi:10.1038/nrg.2016.27
[18] 查特吉,N。;惠勒,B。;桑普森,J。;Hartge,P.公司。;Chanock,S.J。;Park,J.-H.,《基于全基因组关联研究的多基因分析预测风险预测的性能》,《自然遗传学》,45,4,400-405(2013)·doi:10.1038/ng.2579标准偏差
[19] 扎格,J.S。;Gastman,B.R。;Leachman,S.,523名皮肤黑色素瘤患者的独立队列中预后31基因表达谱的表现,BMC癌症,18,1130(2018)·doi:10.1186/s12885-018-4016-3
[20] 姜瑜。;梅,W。;Gu,Y.,构建一组预测前列腺癌复发的新型稳健基因表达特征,分子肿瘤学,12,9,1559-1578(2018)·doi:10.1002/1878-0261.12359
[21] 周,X。;Carbonetto,P。;Stephens,M.,《利用贝叶斯稀疏线性混合模型进行多基因建模》,《公共科学图书馆·遗传学》,第9期,第2期(2013年)·doi:10.1371/journal.pgen.1003264
[22] 莫瑟,G。;Lee,S.H。;海耶斯,B.J。;戈达德,M.E。;Wray,N.R。;Visscher,P.M.,使用贝叶斯混合模型对复杂性状进行同步发现、估计和预测分析,《公共科学图书馆·遗传学》,11,4(2015)·doi:10.1371/journal.pgen.1004969
[23] 魏斯布罗德,O。;盖革,D。;Rosset,S.,复杂表型预测的多核线性混合模型,基因组研究,26,7,969-979(2016)·doi:10.1101/gr.201996.115
[24] 曾,P。;Zhou,X.,利用潜在Dirichlet过程回归模型对复杂性状进行非参数遗传预测,自然通信,8,1,456(2017)·doi:10.1038/s41467-017-00470-2
[25] 速度,D。;Balding,D.J.,MultiBLUP:基于SNP的复杂性状预测改进,基因组研究,24,9,1550-1557(2014)·doi:10.1101/gr.169375.113
[26] Okser,S。;Pahikkala,T。;艾罗拉,A。;Salakoski,T。;里帕蒂,S。;Aittokalio,T.,《复杂性状遗传预测中的正则化机器学习》,《公共科学图书馆·遗传学》,第10、11页(2014年)·doi:10.1371/journal.pgen.1004754
[27] Gamazon,E.R。;Shah,K.P。;Wheeler,H.E.,使用参考转录组数据绘制性状的基于基因的关联方法,《自然遗传学》,47,9,1091-1098(2015)·数字对象标识代码:10.1038/ng.3367
[28] Pers,T.H。;Karjalainen,J.M。;Chan,Y.,使用预测基因功能对全基因组关联研究的生物学解释,《自然通讯》,6,1,5890(2015)·doi:10.1038/ncomms6890
[29] 吴,M.C。;Lee,S。;蔡,T。;李毅。;Boehnke,M。;Lin,X.,利用序列核关联测试对测序数据进行Rare-Varian关联测试,美国人类遗传学杂志,89,1,82-93(2011)·doi:10.1016/j.ajhg.2011.05.29
[30] 曾,P。;Zhao,Y。;Liu,J.,连续表型罕见变异检测中的似然比检验,《人类遗传学年鉴》,78,5320-332(2014)·doi:10.1111/ahg.12071
[31] 曾,P。;Wang,T。;Huang,S.,Cis-SNPs集合测试和PrediXcan线性混合模型基因表达数据分析,科学报告,7,1(2017)·doi:10.1038/s41598-017-15055-8
[32] 香港Finucane。;Bulik-Sullivan,B。;Gusev,A.,《利用全基因组关联摘要统计通过功能注释划分遗传率》,《自然遗传学》,47,11,1228-1235(2015)·doi:10.1038/ng.3404
[33] 古塞夫,A。;Lee,S.H。;Trynka,G.,11种常见疾病中调节性和细胞型特异性变体的分区遗传力,《美国人类遗传学杂志》,95,5,535-552(2014)·doi:10.1016/j.ajhg.2014.10.04
[34] 潘·W。;纽约州夸克。;Wei,P.,《一种强大的基于路径的适应性测试,用于与常见或罕见变体的遗传关联》,《美国人类遗传学杂志》,97,1,86-98(2015)·doi:10.1016/j.ajhg.2015.05.018
[35] 王凯。;李,M。;Bucan,M.,《全基因组关联研究的基于路径的分析方法》,《美国人类遗传学杂志》,81,6,1278-1283(2007)·doi:10.1086/522374
[36] 钟,H。;杨,X。;卡普兰,L.M。;Molony,C。;Schadt,E.E.,为全基因组关联研究整合通路分析和基因表达遗传学,美国人类遗传学杂志,86,4,581-591(2010)·doi:10.1016/j.ajhg.2010.02.020
[37] Kanehisa,M。;Goto,S。;佐藤,Y。;川岛,M。;Furumichi,M。;Tanabe,M.,《数据、信息、知识和原理:回到KEGG的新陈代谢》,核酸研究,42,D1,D199-D205(2014)·doi:10.1093/nar/gkt1076
[38] Kanehisa,M。;佐藤,Y。;川岛,M。;Furumichi,M。;Tanabe,M.,KEGG作为基因和蛋白质注释的参考资源,核酸研究,44,D1,D457-D462(2015)·doi:10.1093/nar/gkv1070
[39] Chuang,H.-Y。;Lee,E。;刘永泰。;Lee,D。;Ideker,T.,乳腺癌转移的网络分类,分子系统生物学,3140(2007)·doi:10.1038/msb4100180
[40] Lee,E。;Chuang,H.-Y。;Kim,J.-W。;Ideker,T。;Lee,D.,推断精确疾病分类的途径活动,PLoS计算生物学,4,11(2008)·doi:10.1371/journal.pcbi.1000217
[41] Meier,L。;范德吉尔,S。;Bühlmann,P.,《逻辑回归的套索组》,《皇家统计学会杂志:B辑(统计方法)》,70,1,53-71(2008)·Zbl 1400.62276号 ·doi:10.1111/j.1467-9868.2007.00627.x
[42] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,关于群套索和稀疏群套索的注释,https://arxiv.org/abs/1010.0736
[43] 胡,Y。;卢奇。;Powles,R.,《利用功能注释预测人类复杂疾病的遗传风险》,《公共科学图书馆计算生物学》,2017年第13、6期·doi:10.1371/journal.pgen.1006836
[44] 胡,Y。;卢奇。;刘伟。;Zhang,Y。;李,M。;Zhao,H.,遗传相关疾病的联合建模和功能注释提高了多基因风险预测的准确性,《公共科学图书馆·遗传学》,13,6(2017)·doi:10.1371/journal.pgen.1006836
[45] 唐,Z。;沈,Y。;Li,Y.,Group spie-and-lab lasso广义线性模型,用于通过结合路径信息进行疾病预测和相关基因检测,生物信息学,34,6,901-910(2018)·doi:10.1093/bioinformatics/btx684
[46] 霍德利,K.A。;Yau,C。;Hinoue,T.,Cell-of-Origin模式主导了33种癌症中10000个肿瘤的分子分类,Cell,173,2,291.e6-304.e6(2018)·doi:10.1016/j.cell.2018.03.022
[47] Hansen,B.E。;Racine,J.S.,Jackknife模型平均值,《计量经济学杂志》,167,1,38-46(2012)·Zbl 1441.62721号 ·doi:10.1016/j.jeconom.2011.06.019
[48] 安藤,T。;Li,K.C.,高维回归的模型平均方法,美国统计协会杂志,109,505,254-265(2014)·Zbl 1367.62209号 ·doi:10.1080/01621459.2013.838168
[49] Huang,K.L。;马希尔·R·J。;Wu,Y.,10389例成人癌症的致病性生殖系变体,Cell,173,2,355.e14-370.e14(2018)·doi:10.1016/j.cell.2018.03.039
[50] Yu,G。;Wang,L.-G。;韩,Y。;He,Q.-Y.,clusterProfiler:一个用于比较基因簇之间生物主题的R包,《Omics:综合生物学杂志》,16,5,284-287(2012)·doi:10.1089/omi.2011.0118
[51] Tibshirani,R.,《通过套索进行回归收缩和选择》,《皇家统计学会期刊:B辑(方法学)》,58,1,267-288(1996)·Zbl 0850.62538号 ·doi:10.1111/j.2517-6161.1996.tb02080.x
[52] 邹,H。;Hastie,T.,《通过弹性网进行正则化和变量选择》,《皇家统计学会杂志:B辑(统计方法)》,67,2,301-320(2005)·Zbl 1069.62054号 ·文件编号:10.1111/j.1467-9868.2005.005.x
[53] 迪亚兹·乌里亚特,R。;de Andres,S.A.,使用随机森林的微阵列数据的基因选择和分类,BMC生物信息学,7,1,3(2006)·doi:10.1186/1471-2105-7-3
[54] 曾,P。;周,X。;Huang,S.,使用混合模型和正则化方法预测顺式SNP的基因表达,BMC基因组学,18,1,368(2017)·doi:10.1186/s12864-017-3759-6
[55] Wan,A.T.K。;张,X。;邹,G.,用马尔洛准则进行最小二乘模型平均,《计量经济学杂志》,156,2,277-283(2010)·兹比尔1431.62291 ·doi:10.1016/j.jeconom.2009.10.030
[56] 张,X。;邹,G。;Liang,H.,线性混合效应模型中的模型平均和权重选择,Biometrika,101,1,205-218(2014)·Zbl 1285.62077号 ·doi:10.1093/biomet/ast052
[57] 安藤,T。;Li,K.-c.,高维广义线性模型的加权松弛模型平均法,《统计年鉴》,45,6,2654-2679(2017)·Zbl 1421.62094号 ·doi:10.1214/17-aos1538
[58] 西尔弗,M。;蒙大拿州G。;阿尔茨海默病神经成像倡议,使用重叠套索群快速识别与数量性状相关的生物途径,遗传学和分子生物学的统计应用,11,1,1-43(2012)·Zbl 1296.92072号 ·doi:10.2202/1544-6115.1755
[59] 林,B。;王,Q。;张杰。;Pang,Z.,高维线性模型中的稳定预测,统计与计算,27,5,1401-1412(2017)·Zbl 1505.62249号 ·doi:10.1007/s11222-016-9694-6
[60] 霍尔,A.E。;Kennard,R.W.,《岭回归:非正交问题的应用》,技术计量学,12,1,69-82(1970)·Zbl 0202.17206号 ·doi:10.2307/1267352
[61] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素:数据挖掘、推断和预测》(2009),纽约州纽约市,美国:斯普林格,纽约州,纽约州·Zbl 1273.62005年
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。