×

一种灵活的计算框架,用于检测、表征和解释人类疾病易感性遗传研究中上位性的统计模式。 (英文) Zbl 1447.92258号

摘要:检测、表征和解释人类疾病易感性研究中的基因-基因相互作用或上位性是一个数学和计算挑战。为了解决这个问题,我们以前开发了一种多因素降维(MDR)方法,将高维遗传数据分解为单一维度(即构造性归纳),从而允许在相对较小的样本大小中检测相互作用。在本文中,我们描述了一个用于检测和解释基因-基因相互作用的全面而灵活的框架,该框架利用信息理论的进展来选择感兴趣的单核苷酸多态性(SNP),MDR用于构造性归纳,机器学习方法用于分类,最后是用于解释的图形模型。我们使用从几个不同的双焦点和三焦点上位性模型模拟的人工数据集来说明该策略的有用性。我们表明,当根据SNP的信息增益选择SNP(即去除类熵)并使用MDR将其简化为单个属性时,朴素贝叶斯分类器的准确性、敏感性、特异性和精确度显著提高。然后,我们将此策略应用于检测、表征、,并在心房颤动的遗传学研究(n=500)中解释上位模型,表明分类和模型解释都得到了显著改进。

MSC公司:

92D10型 遗传学和表观遗传学
92立方 病理学、病理生理学
62页第10页 统计学在生物学和医学科学中的应用;元分析
62兰特 大数据和数据科学的统计方面
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 贝特森,W.,孟德尔遗传原理(1909),剑桥大学出版社:剑桥大学出版社
[2] 布鲁登,E。;Michalski,R.S.,数据驱动的构造归纳法,IEEE Intell。系统。,13, 30-37 (1998)
[3] Brodie,E.D.,《为什么进化遗传学并不总是相加》,(Wolf,J.;Brodie,B.;Wade,M.,《上位论与进化过程》(2000),牛津大学出版社:牛津大学出版社,纽约),3-19
[4] Cho,Y.M。;医学博士里奇。;摩尔,J.H。;Park,J.Y。;Lee,K.U。;Shin,H.D。;香港李。;Park,K.S.,多因素维度降低显示了与2型糖尿病、糖尿病相关的双焦点相互作用,47549-554(2004)
[5] 科菲,C.S。;Hebert,P.R。;医学博士里奇。;Krumholz,H.M。;摩根·T·M。;加齐亚诺,J.M。;Ridger,P.M。;Moore,J.H.,《条件logistic回归和多因素降维在检测心肌梗死风险基因-基因相互作用中的应用:模型验证的重要性》,BMC Bioninform。,4,49(2004年)
[6] 科德尔·H·J。;托德·J·A。;Bennett,S.T。;川口,Y。;Farrall,M.,《多因素性状的双基因座最大lod评分分析:1型糖尿病患者IDDM2和IDDM4与IDDM1的联合考虑》,《美国遗传学杂志》。,57, 920-934 (1995)
[7] 科德尔·H·J。;托德·J·A。;新泽西州希尔。;Lord,C.J。;莱昂斯,宾夕法尼亚州。;彼得森,L.B。;Wicker,L.S。;Clayton,D.G.,《复杂疾病中病灶间相互作用的统计建模:1型糖尿病上位性乘法模型的排斥》,遗传学,158,357-367(2001)
[8] 新泽西州考克斯。;弗里格,M。;尼古拉·D·L。;Concannon,P。;Hanis,C.L。;贝尔,G.I。;Kong,A.,染色体2(NIDDM1)和15上的基因座相互作用增加墨西哥裔美国人对糖尿病的易感性,《自然遗传学》。,21, 213-215 (1999)
[9] 新泽西州考克斯。;海耶斯,M.G。;罗伊,C.A。;Tsuchiya,T。;Bell,G.I.,钙蛋白酶10与2型糖尿病的联系:生物学原理,《糖尿病》,53,补充1,S19-S25(2004)
[10] Curk,T。;德姆萨尔,J。;徐,Q。;勒班,G。;彼得罗维奇,美国。;I.布拉特科。;沙尔斯基,G。;Zupan,B.,利用可视化编程进行微阵列数据挖掘,生物信息学,21396-398(2005)
[11] Fisher,R.A.,孟德尔遗传假设下亲属之间的相关性,转。爱丁堡皇家学会,52,399-433(1918)
[12] E.弗兰克。;霍尔,M。;Trigg,L。;霍姆斯,G。;Witten,I.H.,使用Weka的生物信息学数据挖掘,生物信息学,202479-2481(2004)
[13] Gibson,G。;Wagner,G.,《进化遗传学中的渠化:稳定理论?》?,生物论文,22372-380(2000)
[14] Goldberg,D.E.,《搜索、优化和机器学习中的遗传算法》(1998),Addison-Wesley出版公司:Addison-Whesley出版公司,马萨诸塞州雷丁
[15] Good,P.,《置换测试:测试假设的重采样方法实用指南》(2000),Springer:Springer New York·Zbl 0942.62049号
[16] 哈恩,L.W。;Moore,J.H.,使用多位点基因型对离散临床终点的理想区分,《硅生物学》。,4, 183-194 (2004)
[17] 哈恩,L.W。;医学博士里奇。;Moore,J.H.,用于检测基因-基因和基因-环境相互作用的多因素降维软件,生物信息学,19,376-382(2003)
[18] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素:数据挖掘、推断和预测》(2001),Springer:Springer New York·Zbl 0973.62007号
[19] 赫希霍恩,J.N。;Daly,M.J.,《常见疾病和复杂性状的全基因组关联研究》,《国家遗传学评论》。,6, 95-108 (2005)
[20] 霍,J。;Ott,J.,《疾病的遗传解剖:设计和方法》,Curr。操作。遗传学。Dev.,14,229-232(2004)
[21] 霍兰德,W.F.,《上位与下位》,J.赫里德。,46, 222-225 (1955)
[22] 胡永杰,构造归纳:覆盖属性谱,(Liu,H.;Motoda,H.,特征提取、构造和选择:数据挖掘视角(1998),Kluwer:Kluwer-Boston),257-272·Zbl 0912.00012号
[23] 雅库林,A。;Bratko,I.,分析属性交互,Lect。注释Artif。智力。,2838229-240(2003年)
[24] 雅库林,A。;I.布拉特科。;Smrke,D。;德姆萨尔,J。;Zupan,B.,《医疗数据分析中的属性交互》,Lect。注释Artif。智力。,2780, 229-238 (2003)
[25] 柯克帕特里克,S。;盖拉特,C.D。;Vecchi,M.P.,《模拟退火优化》,《科学》,220671-680(1983)·Zbl 1225.90162号
[26] Lenat,D.B.,《从观察和发现中学习》(Michalski,R.S.;Carbonell,J.G.;Mitchell,T.M.,《机器学习:人工智能方法》(1983),Morgan Kaufmann:Morgan Koufmann-Los Altos,CA)
[27] Lenat,D.B.,《自动化科学理论形成:使用AM程序的案例研究》(Hayes,J.E.;Michie,D.;Mikulich,L.I.,《机器智能》,第9卷(1997),Halstead出版社:Halsteal出版社,纽约)
[28] 李伟(Li,W.)。;Reich,J.,《双中心疾病模型的完整枚举和分类》,Hum.Hered。,50, 334-349 (2000)
[29] Marchini,J。;唐纳利,P。;Cardon,L.R.,《检测影响复杂疾病的多个基因座的全基因组策略》,《自然遗传学》。,37, 413-417 (2005)
[30] McGill,W.J.,《多元信息传递》,《心理测量学》,第19期,第97-116页(1954年)·Zbl 0058.35706号
[31] Michalewicz,Z。;Fogel,D.B.,《如何解决:现代启发式》(2000),施普林格出版社:纽约施普林格出版社·Zbl 0943.90002号
[32] Michalski,R.S.,《归纳学习的理论和方法》,Artif。智力。,20, 111-161 (1983)
[33] Mitchell,T.,《机器学习》(1997),McGraw-Hill:McGraw-Hill纽约·Zbl 0913.68167号
[34] Moore,J.H.,《决定人类常见疾病易感性的上位性普遍存在》,Hum.Hered。,56, 73-82 (2003)
[35] Moore,J.H.,使用多因素降维对常见人类疾病中基因-基因相互作用的计算分析,专家。修订摩尔诊断。,4, 795-803 (2004)
[36] Moore,J.H.,《上位性的全球观点》,《自然遗传学》。,37,13-14(2005年)
[37] 摩尔,J.H。;Ritchie,M.D.,《全基因组方法对常见疾病的挑战》,《美国医学协会杂志》,2911642-1643(2004)
[38] 摩尔,J.H。;Williams,S.W.,《识别高血压中基因-基因相互作用的新策略》,《医学年鉴》,34,88-95(2002)
[39] 摩尔,J.H。;威廉姆斯,S.W.,《跨越生物和统计上位性之间的概念鸿沟:系统生物学和更现代的合成》,《生物论文》,27637-646(2005)
[40] 摩尔,J.H。;Boczko,E.M。;Summar,M.L.,《连接基因、生物化学和疾病易感性之间的点:人类遗传学中的系统生物学建模》,分子遗传学。元数据。,84, 104-111 (2005)
[41] 纳多,C。;Bengio,Y.,泛化误差推断,马赫数。学习。,52, 239-281 (2003) ·Zbl 1039.68104号
[42] 页码,G.P。;乔治·V。;Go,R.C.公司。;第页,P.Z。;Allison,D.B.,“我们到了吗?”:决定何时在复杂疾病和数量性状中证明了特定的遗传因果关系,Am.J.Hum.Genet。,73, 711-719 (2003)
[43] 菲利普斯,P.C.,《基因相互作用的语言》,《遗传学》,1491167-1171(1998)
[44] Pierce,J.R.,《信息理论导论:符号、信号和噪声》(1980),多佛:纽约多佛
[45] 普罗克斯·S·R。;Phillips,P.C.,《基因网络的渠道化和进化机会》,《美国国家》,165,147-162(2005)
[46] 秦,S。;X.赵。;潘,Y。;刘杰。;冯·G。;Fu,J。;Bao,J。;张,Z。;He,L.,N-甲基的缔合研究-d日-用通用DNA微阵列研究精神分裂症患者的天冬氨酸受体NR1亚基基因(GRIN1)和NR2B亚基基因。,13, 807-814 (2005)
[47] 医学博士里奇。;哈恩,L.W。;北鲁迪。;Bailey,L.R。;杜邦,W.D。;帕尔,F.F。;Moore,J.H.,多因素降维揭示了散发性乳腺癌雌激素代谢基因之间的高阶相互作用,美国遗传学杂志。,69138-147(2001年)
[48] 医学博士里奇。;哈恩,L.W。;Moore,J.H.,在存在基因分型错误、现象学和遗传异质性的情况下检测基因-基因相互作用的多因素降维能力,Genet。流行病。,24, 150-157 (2003)
[49] 医学博士里奇。;白色,B.C。;J.S.帕克。;哈恩,L.W。;Moore,J.H.,《使用遗传编程优化神经网络结构》(Optimization of neural network architecture using genetic programming)改善了人类疾病研究中基因-基因相互作用的检测和建模,BMC Bioninform。,4, 28 (2003)
[50] 里奇,医学博士。;科菲,C.S。;Moore,J.H.,作为人类遗传学生物信息学工具的遗传编程神经网络,Lect。注释计算。科学。,3102, 438-448 (2004)
[51] Robnik-Siknja,M。;Kononenko,I.,ReliefF和RRelifF的理论和实证分析,马赫。学习。,53, 23-69 (2003) ·Zbl 1076.68065号
[52] Segre,D。;Deluna,A。;Church,G.M。;Kishony,R.,《酵母代谢中的模块上位性》,《自然遗传学》。,37, 77-83 (2005)
[53] 辛格,C.F。;斯坦加德,J.H。;Kardia,S.L.,《基因、环境与心血管疾病》,动脉硬化。血栓。瓦斯克。生物学,231190-1196(2003)
[54] 苏亚雷斯,M.L。;科埃略,T。;Sousa,A。;巴塔洛夫,S。;康西卡奥一世。;销售-物流,M.L。;医学博士里奇。;威廉姆斯,S.M。;Nievergelt,C.M。;新泽西州斯科克。;Saraiva,M.J。;Buxbaum,J.N.,葡萄牙转甲状腺素V30M淀粉样多发性神经病的易感性和修饰基因:单基因疾病的复杂性,人类分子遗传学。,14543-553(2005年)
[55] 北高桥。;Smithies,O.,《研究高血压的人类遗传学、动物模型和计算机模拟》,《遗传学趋势》。,20, 136-145 (2004)
[56] 北高桥。;哈格曼,J.R。;Kim,H.S。;Smithies,O.,Minireview:肾素-血管紧张素系统调节血压的计算机模拟,内分泌,1442184-2190(2003)
[57] Templeton,A.R.,《上位性和复杂特征》(Wolf,J.;Brodie,B.;Wade,M.,《前置性和进化过程》(2000),牛津大学出版社:牛津大学出版社,纽约),41-57
[58] 桑顿威尔斯,T.A。;摩尔,J.H。;Haines,J.L.,《遗传学、统计学和人类疾病:复杂性的分析重组》,《遗传学趋势》。,20, 640-647 (2004)
[59] 蔡,C.T。;Lai,L.P.公司。;Lin,J.L。;Chiang,F.T。;Hwang,J.J。;医学博士里奇。;摩尔,J.H。;Hsu,K.L。;曾,C.D。;Liau,C.S。;Tseng,Y.Z.,肾素-血管紧张素系统基因多态性与心房颤动,循环,109,1640-1646(2004)
[60] Wade,M.J.,《表观、复杂性状和基因定位》,《遗传学》,112-113,59-69(2001)
[61] Waddington,C.H.,《发展的运河化和后天性状的继承》,《自然》,150563-565(1942)
[62] Waddington,C.H.,《基因战略》(The Strategy of The Genes,1957),《麦克米兰:麦克米兰纽约》
[63] 王伟勇。;Barratt,B.J。;克莱顿,D.G。;Todd,J.A.,《全基因组关联研究:理论和实践关注》,《自然评论遗传学》。,6, 109-118 (2005)
[64] Wilke,R.A。;摩尔,J.H。;Burmester,J.K.,CYP3A基因型和联合用药对阿托伐他汀诱导的肌肉损伤严重程度的相对影响,Pharmacogenet。基因组。,15, 415-421 (2005)
[65] Wilke,R.A。;Reif,D.M。;Moore,J.H.,《组合药物遗传学》,《Nat.Rev.药物发现》,第4期,第911-918页(2005年)
[66] 威廉姆斯,S.M。;医学博士里奇。;菲利普斯,J.A。;道森,E。;普林斯,M。;Dzhura,E。;威利斯,A。;塞门亚,A。;萨马尔,M。;白色,B.C。;Addy,J.H。;Kpodonu,J。;Wong,L.J。;费尔德,R.A。;Jose,P.A。;Moore,J.H.,《高血压的多焦点分析:分层方法》,Hum.Hered。,57, 28-38 (2004)
[67] Witten,I.H。;Frank,E.,《数据挖掘》(2000),摩根·考夫曼出版社:摩根·考夫曼出版社旧金山
[68] Wnek,J。;Michalski,R.S.,《AQ17-HCI中假设驱动的构造归纳:方法和实验》,马赫。学习。,14, 139-168 (1994) ·Zbl 0804.68125号
[69] 徐,J。;罗维里,J。;Wiklund,F。;Sun,J。;林德马克,F。;Hsu,F.-C。;迪米特洛夫,L。;Chang,B。;特纳,A.R。;阿达米,H.-O。;苏,E。;摩尔,J.H。;Zheng,S.L。;艾萨克斯·W·B。;特伦特,J.M。;Gronberg,H.,四种炎症基因的相互作用显著预测前列腺癌风险,癌症流行病学。生物标记Prev。,14, 2563-2568 (2005)
[70] 祖潘,B。;博哈内克,M。;德姆萨尔,J。;Bratko,I.,通过功能分解进行特征转换,IEEE国际系统。申请。,13, 38-43 (1998)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。