×

从基因组规模数据到传染病模型:基于贝叶斯网络的驱动模型开发战略。 (英语) Zbl 1364.92057号

摘要:高通量的基因组数据为在分子水平上将宿主与病原体联系起来提供了一个独特的机会。建立这样的联系将有助于推动数学模型的发展,以更好地理解和预测病原体行为和包括疟疾在内的传染病的流行病学。然而,有助于识别这些联系和模型的数据集非常庞大,不适合进行简单、简化和单变量分析。这些数据集需要进行数据挖掘,以确定最能描述临床和分子观察结果的真正重要的测量值。此外,由于实验限制,这些数据集通常具有相对较少的样本(尤其是对于人体研究或体内动物实验),使得数据挖掘极其困难。在这里,首先简要概述了用于数据简化和识别变量之间关系的常用策略,以便包含在数学模型中,然后我们提出了一种新的通用策略,用于执行这些数据简化和关系推理任务。我们的方法强调了在使用数据驱动模型开发时,特别是在使用基因组规模、小样本时,稳健性的重要性体内数据。我们认为,使用适当的特征约简结合数据排列和子采样策略对于使用高维、低观测数据从网络推理中获得越来越稳健的结果至关重要。

MSC公司:

92天30分 流行病学
2015年1月62日 贝叶斯推断
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 辛格,B。;Daneshvar,C.,人类感染和检测诺尔斯疟原虫,临床。米可波罗。第26版,165-184(2013)
[2] Pasvol,G.,《复杂和严重疟疾的治疗》,英国医学杂志。,75-76, 29-47 (2005)
[3] Kochar,D.K。;Saxena,V。;辛格,N。;Kochar,S.K。;库马尔,S.V。;Das,A.,间日疟原虫疟疾,紧急感染。数字化信息系统。,11, 132-134 (2005)
[4] Molina-Cruz,A。;DeJong,R.J。;奥尔特加,C。;Haile,A。;阿班,E。;罗德里格斯,J。;Jaramillo-Gutierrez,G。;Barillas-Mury,C.,人类疟疾寄生虫恶性疟原虫的一些菌株逃避冈比亚按蚊的互补系统,Proc。国家。阿卡德。科学。美国,109,E1957-E1962(2012)
[5] Ariey,F。;维特科夫斯基,B。;阿马拉通加,C。;Beghain,J。;Langlois,A.C。;Khim,N。;Kim,S。;杜鲁,V。;Bouchier,C。;马,L。;林,P。;Leang,R。;Duong,S。;Sreng,S。;索恩,S。;Chour,C.M。;Bout,D.M。;Menard,S。;W.O.罗杰斯。;Genton,B。;范德尔,T。;米奥托,O。;Ringwald,P。;Le Bras,J。;贝里,A。;Barale,J.C。;费尔赫斯特,R.M。;Benoit-Vical,F。;俄勒冈州Mercereau-Puijalon。;Menard,D.,抗青蒿素恶性疟原虫疟疾的分子标记,《自然》,505,50-55(2014)
[6] 米奥托,O。;Almagro-Garcia,J。;曼斯克,M。;马金尼斯,B。;坎皮诺,S。;Rockett,K.A。;阿马拉通加,C。;林,P。;Suon,S。;Sreng,S。;安德森,J.M。;Duong,S。;恩贡,C。;Chour,C.M。;桑德斯,D。;Se,Y。;Lon,C。;福田医学博士。;Amenga-Etego,L。;霍奇森公司。;Asoala,V.公司。;Imwong,M。;Takala-Harrison,S。;编号:F。;苏,X.Z。;Ringwald,P。;Ariey,F。;多勒塞克,C。;Hien,T.T。;博尼,M.F。;泰国,C.Q。;Amambua-Ngwa,A。;康威,D.J。;Djimde,A.A。;Doumbo,OK。;Zongo,I。;韦德拉奥戈,J.B。;阿尔科克,D。;Drury,E。;奥本,S。;科赫,O。;桑德斯,M。;Hubbart,C。;马塞伦,G。;鲁比奥,V。;Jyothi,D。;Miles,A。;O'Brien,J。;Gamble,C。;Oyola,S.O。;Rayner,J.C。;纽伯尔德,C.I。;Berriman,M。;斯宾塞,C.C。;McVean,G。;日,N.P。;新泽西州怀特。;Bethell,D。;Dondorp,A.M。;普洛维,C.V。;费尔赫斯特,R.M。;Kwiatkowski,D.P.,《柬埔寨抗青蒿素恶性疟原虫的多个种群》,《国家遗传学》。,45648-655(2013)
[7] Bylesjo,M。;Rantalainen,M。;克鲁亚雷克,O。;Nicholson,J.K。;霍姆斯,E。;Trygg,J.,OPLS判别分析:结合PLS-DA和SIMCA分类的优势,J.Chemmetr。,20, 341-351 (2006)
[8] Paatero,P。;Tapper,U.,《正矩阵分解——最优利用数据值误差估计的非负因子模型》,环境计量,5,111-126(1994)
[9] Saeys,Y。;Inza,I。;Larranaga,P.,《生物信息学中的特征选择技术综述》,生物信息学,232507-2517(2007)
[10] 盖恩,I。;J·韦斯顿。;巴恩希尔,S。;Vapnik,V.,使用支持向量机进行癌症分类的基因选择,Mach。学习。,46, 389-422 (2002) ·Zbl 0998.68111号
[11] 林,X。;杨,F。;周,L。;尹,P。;Kong,H。;Xing,W。;卢,X。;贾,L。;王,Q。;Xu,G.,一种基于人工对比变量和互信息的支持向量机递归特征消除特征选择方法,J.色谱仪。B分析。Technol公司。生物识别。生命科学。,910, 149-155 (2012)
[12] 马哈德万,S。;Shah,S.L。;T.J.Marrie。;Slupsky,C.M.,《使用支持向量机分析代谢组数据》,《分析》。化学。,80, 7562-7570 (2008)
[13] Tibshirani,R.,《通过Lasso,J.Roy回归收缩和选择》。统计社会服务。B-方法。,58, 267-288 (1996) ·Zbl 0850.62538号
[14] 霍尔,医学硕士。;Smith,L.A.,《特征子集选择:基于相关性的滤波方法》,Prog。连接-基于信息。系统。,1-2, 855-858 (1998)
[15] Defays,D.,完整链接方法的有效算法,Comput。J.,20,364-366(1977)·Zbl 0364.68038号
[16] Sibson,R.,单链簇方法的Slink最优有效算法,计算机。J.,16,30-34(1973)
[17] Tavazoie,S。;休斯,法学博士。;坎贝尔,M.J。;Cho,R.J。;Church,G.M.,《遗传网络结构的系统测定》,《自然遗传学》。,22, 281-285 (1999)
[18] 马尔巴赫,D。;科斯特洛,J.C。;库夫纳,R。;新墨西哥州维加。;普里尔·R·J。;卡马乔,D.M。;Allison,K.R。;联合体D。;凯利斯,M。;柯林斯,J.J。;Stolovitzky,G.,《稳健基因网络推断的群体智慧》,《自然方法》,9796-804(2012)
[19] 阿勒泰,G。;Emmert-Streib,F.,通过集成方法揭示网络级基因网络推理算法的差异,生物信息学,261738-1744(2010)
[20] Faith,J.J。;Hayete,B。;Thaden,J.T。;莫尼奥,I。;Wierzbowski,J。;科塔雷尔,G。;Kasif,S。;柯林斯,J.J。;Gardner,T.S.,《表达谱简编中大肠杆菌转录调控的大规模绘图和验证》,PLoS Biol。,5,e8(2007)
[21] 安松,C。;Schrimpe-Rutledge,A.C.公司。;米切尔,H.D。;Chauhan,S。;Jones,M.B。;Kim,Y.M。;McAteer,K。;凯撒的死亡诅咒。;Dubois,J.L。;布鲁尔·H·M。;弗兰克,B.C。;麦克德莫特,J.E。;梅茨,T.O。;彼得森,S.N。;史密斯·R·D。;Motin,V.L。;Adkins,J.N.,《解释耶尔森菌毒力机制的多组分系统方法》,《分子生物学》。,9, 44-54 (2013)
[22] 米切尔,H.D。;艾斯菲尔德,A.J。;西姆斯,A.C。;麦克德莫特,J.E。;Matzke,M.M。;Webb-Robertson,B.J。;南卡罗来纳州蒂尔顿。;奇切克,N。;Josset,L。;李,C。;Ellis,A.L。;Chang,J.H。;Heegel,R.A。;Luna,M.L。;Schepmoes,A.A。;Shukla,A.K。;梅茨,T.O。;Neumann,G。;Benecke,A.G。;史密斯·R·D。;巴里克·R·S。;川冈,Y。;Katze,M.G。;Waters,K.M.,《预测与流感和SARS-CoV呼吸道病毒致病性相关的保守调节因子的网络集成方法》,《公共科学图书馆·综合》,第8期,e69374页(2013年)
[23] Yoon,H。;安松,C。;麦克德莫特,J.E。;格里森科,M。;史密斯·R·D。;赫夫隆,F。;Adkins,J.N.,多调节器扰动的系统分析允许在沙门氏菌BMC系统中发现毒力因子。生物学,5100(2011),http://www.biomedcentral.com/content/pdf/1752-0509-5-100.pdf
[24] Margolin,A.A。;内曼,I。;Basso,K。;威金斯,C。;斯托洛维茨基,G。;Dalla Favera,R。;Califano,A.,ARACNE:哺乳动物细胞环境中基因调控网络重建算法,BMC Bioninform。,7 (2006), http://www.biomedcentral.com/content/pdf/1471-2105-7-S1-S1-S7.pdf
[25] 梅耶,体育。;Kontos,K。;拉菲特,F。;Bontempi,G.,大型转录调控网络的信息论推断,EURASIP J.生物信息学。系统。《生物学》,79879(2007),http://bsb.eurasipjournals.com/content/pdf/1687-4153-2007-79879.pdf
[26] 丁,C。;Peng,H.,从微阵列基因表达数据中选择最小冗余特征,J.Bioninform。计算。生物学,3185-205(2005)
[27] 图拉西,G.D。;弗雷德里克,E.D。;马基,M.K。;Floyd,C.E.,计算机辅助诊断中特征选择的互信息准则应用,医学物理。,28, 2394-2402 (2001)
[28] de la Fuente,A。;Bing,N。;Hoeschele,I。;Mendes,P.,使用偏相关系数发现基因组数据中有意义的关联,生物信息学,203565-3574(2004)
[29] Johansson,A。;Loset,M。;Mundal,S.B。;约翰逊,M.P。;Freed,K.A。;芬斯塔德,M.H。;Moses,E.K。;奥斯古伦,R。;Blangero,J.,检测人类疾病中基因相互作用改变的部分相关网络分析:使用先兆子痫作为模型,Hum.Genet。,129, 25-34 (2011)
[30] Opgen-Rhein,R。;Strimmer,K.,《从相关性到因果关系网络:一种简单的近似学习算法及其在高维植物基因表达数据中的应用》,BMC Syst。生物学,1,37(2007),http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1995222/pdf/1752-0509-1-37.pdf
[31] 谢弗,J。;Strimmer,K.,《推断大规模基因关联网络的经验贝叶斯方法》,生物信息学,21754-764(2005)
[32] Toh,H。;Horimoto,K.,通过聚类分析和图形高斯建模的组合方法推断遗传网络,生物信息学,18,287-297(2002)
[33] 库珀,G.F。;Herskovits,E.,从数据中归纳概率网络的贝叶斯方法,马赫。学习。,9, 309-347 (1992) ·Zbl 0766.68109号
[34] Madigan,D。;York,J.,离散数据的贝叶斯图形模型,国际统计评论,63,215-232(1995)·Zbl 0834.62003号
[35] 弗里德曼,N。;Linial,M。;我·纳奇曼。;Peer,D.,《使用贝叶斯网络分析表达数据》,J.Compute。生物学,7601-620(2000)
[36] Z.Ghahramani,《学习动态贝叶斯网络》,Adapt。过程。序号。数据结构。,1387, 168-197 (1998)
[37] 弗里德曼,N。;我·纳奇曼。;Peer,D.,从大量数据集学习贝叶斯网络结构:“稀疏候选”算法,Proc。取消插入。Artif公司。智力。,15, 206-215 (1999)
[38] 弗里德曼,N。;盖革,D。;Goldszmidt,M.,贝叶斯网络分类器,马赫。学习。,29, 131-163 (1997) ·Zbl 0892.68077号
[39] 古特尔,S。;Maurin,M。;罗吉尔,F。;巴巴特,X。;Bourguignon,L。;Ducher,M。;Maire,P.,《希尔方程:药理学建模能力综述》,Fundam。临床。药理学。,22, 633-648 (2008)
[40] 查德威克,D。;Arch,B。;Wilder-Smith,A。;Paton,N.,根据简单的临床和实验室特征区分登革热与其他感染:逻辑回归分析的应用,临床杂志。维罗尔。,35, 147-153 (2006)
[41] Voit,E.O.,使用幂律和S系统建模代谢网络,论文生物化学。,45, 29-40 (2008)
[42] Lee,K。;尹,W。;阿拉法特。;Tang,Y。;Uppal,K。;Tran,V.公司。;卡布雷拉·莫拉(Cabrera-Mora,M.)。;拉普,S。;莫雷诺,A。;Meyer,E。;DeBarry,J。;南卡罗来纳州巴卡拉。;内亚克,V。;基辛格,J.C。;琼斯,D。;加林斯基,M.R。;Styczynski,M。;Gibson,G.,《猕猴给药研究中的比较转录组学和代谢组学》,Front。细胞发育。生物,,200054(2014)
[43] Y.本杰米尼。;Hochberg,Y.,《控制错误发现率——一种实用而强大的多重测试方法》,J.Roy。统计社会服务。B-方法。,57, 289-300 (1995) ·Zbl 0809.62014号
[44] Storey,J.D.,《错误发现率的直接方法》,J.Roy。统计社会服务。B-统计。Methodol.方法。,64479-498(2002年)·Zbl 1090.62073号
[45] Storey,J.D.,《阳性错误发现率:贝叶斯解释和q值》,《安娜·统计》,第31期,2013-2035页(2003年)·Zbl 1042.62026
[46] 德斯米特,F。;Mathys,J。;Marchal,K。;Thijs,G.等人。;De Moor,B。;Moreau,Y.,基因表达谱的自适应基于质量的聚类,生物信息学,18735-746(2002)
[47] Heyer,L.J。;克鲁格利亚克,S。;Yooseph,S.,《探索表达数据:共表达基因的鉴定和分析》,《基因组研究》,9,1106-1115(1999)
[48] 斯通,E.A。;Ayroles,J.F.,作为功能基因组推断探索工具的调制模块性聚类,《公共科学图书馆·遗传学》。,5,e1000479(2009)
[49] Hartemink,A.,《验证和发现遗传调控网络的原则计算方法》(2001年),麻省理工学院
[50] Yeung,K.Y。;Haynor,D.R。;Ruzzo,W.L.,验证基因表达数据的聚类,生物信息学,17,309-318(2001)
[51] Dimitrakopoulos,G。;马拉齐奥提斯,I。;Sgarbas,K。;Bezerianos,A.,《一种基于聚类的加速基因调控网络重建的方法》,Proc。计算。科学。,29, 1993-2002 (2014)
[52] Daly,R。;沈(音)。;Aitken,S.,《学习贝叶斯网络:方法和问题》,Knowl。工程版本,26,99-157(2011)
[53] 弗里德曼,N.,《使用概率图形模型推断蜂窝网络》,《科学》,303799-805(2004)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。