×

异质动态转录因子网络的非参数贝叶斯学习。 (英语) Zbl 1405.62189号

摘要:基因表达在很大程度上是由转录因子(TF)协同控制的。因此,了解TF协同作用对于阐明基因调控至关重要。TF的共同激活可以用网络来表示。这些网络在不同的生物条件下是动态的,并且在每个生物条件下的基因组中是异质的。现有的构建TF网络的方法缺乏可靠的统计模型,分别分析每个生物条件,并对一个生物条件内的所有基因组位置实施单一网络,导致统计能力低和误导性虚假关联。本文提出了一种新的用于TF网络推理的贝叶斯非参数动态泊松图模型。我们的方法自动梳理出基因组异质性,并跨条件借用信息,以改进对极少数重复的信号检测,从而提供一种有效的TF协同激活测量方法。我们开发了一种用于后验计算的高效并行马尔可夫链蒙特卡罗算法。该方法用于研究ENCODE细胞系中TF的相关性,并提供了新的发现。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
2015年1月62日 贝叶斯推断
62甲12 多元分析中的估计
92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aldous,D.J.(1985)。互换性和相关主题。纽约州施普林格·Zbl 0562.60042号
[2] Bickel,P.J.和Levina,E.(2008)。大协方差矩阵的正则化估计。美国国家统计局36 199–227·Zbl 1132.62040号 ·doi:10.1214/009053607000000758
[3] Bickel,P.J.、Boley,N.、Brown,J.B.、Huang,H.和Zhang,N.R.(2010年)。基因组推断的子采样方法。附录申请。统计数据4 1660–1697·Zbl 1220.62130号 ·doi:10.1214/10-AOAS363
[4] Carter,S.L.、Brechbühler,C.M.、Griffin,M.和Bond,A.T.(2004)。基因共表达网络拓扑为细胞状态的分子表征提供了一个框架。生物信息学20 2242–2250。
[5] Cheng,Y.和Lenkoski,A.(2012)。层次高斯图形模型:超越可逆跳跃。电子。J.Stat.6 2309–2331·Zbl 1335.62042号 ·doi:10.1214/12-EJS746
[6] Cheng,C.、Alexander,R.、Min,R..、Leng,J.、Yip,K.Y.、Rozowsky,J.,Yan,K.-K.、Dong,X.、Djebali,S.、Ruan,Y.等人(2012年)。通过转录因子结合数据的综合分析了解转录调控。基因组研究22 1658–1667。
[7] Chun,H.、Zhang,X.和Zhao,H.(2015)。联合稀疏高斯图形模型的基因调控网络推理。J.计算。图表。统计24 954–974。
[8] Danaher,P.、Wang,P.和Witten,D.M.(2014)。用于多类协方差逆估计的联合图形套索。J.R.统计社会服务。B.统计方法76 373–397·Zbl 07555455号
[9] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977年)。通过EM算法从不完整数据中获得最大似然。J.R.统计社会服务。B.统计方法39 1–38·Zbl 0364.62022号
[10] Ebert,P.和Bock,C.(2015)。通过计算预测改进参考表观基因组目录。《自然生物技术》33 354–355。
[11] ENCODE项目联盟(2012年)。人类基因组中DNA元素的综合百科全书。自然489 57–74。
[12] Ernst,J.和Kellis,M.(2012年)。ChromHMM:自动化染色质状态的发现和表征。自然方法9 215–216。
[13] Ferguson,T.S.(1973)。一些非参数问题的贝叶斯分析。统计年鉴。1 209–230·Zbl 0255.62037号 ·doi:10.1214/aos/1176342360
[14] Friedman,J.、Hastie,T.和Tibshirani,R.(2008年)。用图形套索进行稀疏逆协方差估计。生物统计9 432–441·Zbl 1143.62076号 ·doi:10.1093/biostatistics/kxm045
[15] Gao,C.、Zhu,Y.、Shen,X.和Pan,W.(2016)。高斯混合模型中多个网络的估计。电子。《美国联邦法律大全》第10卷第1133–1154页·Zbl 1335.62098号 ·doi:10.1214/16-EJS1135
[16] George,E.I.和McCulloch,R.E.(1993)。通过吉布斯采样选择变量。J.Amer。统计师。协会88 881–889。
[17] Gerstein,M.B.,Kundaje,A.,Hariharan,M.,Landt,S.G.,Yan,K.-K.,Cheng,C.,Mu,X.J.,Khurana,E.,Rozowsky,J.,Alexander,R.等人(2012年)。源自ENCODE数据的人类监管网络架构。自然489 91–100。
[18] Grandori,C.、Cowley,S.M.、James,L.P.和Eisenman,R.N.(2000)。Myc/Max/Mad网络和细胞行为的转录控制。每年。细胞发育生物学评论16 653–699。
[19] Gropp,W.、Lusk,E.和Skjellum,A.(1999)。使用MPI:带消息传递接口的可移植并行编程,第1卷。麻省理工学院出版社,马萨诸塞州剑桥·Zbl 0875.68206号 ·doi:10.1016/0167-8191(96)00024-5
[20] Guo,J.、Levina,E.、Michailidis,G.和Zhu,J.(2011)。多个图形模型的联合估计。生物特征98 1–15·Zbl 1214.62058号 ·doi:10.1093/biomet/asq060
[21] Guo,J.、Levina,E.、Michailidis,G.和Zhu,J.(2015)。使用点名投票应用程序估计离散数据的异构图形模型。附录申请。统计数据9 821–848·Zbl 1397.62195号 ·doi:10.1214/13-AOAS700
[22] Hanley,J.A.和McNeil,B.J.(1982)。受试者工作特性(ROC)曲线下面积的含义和用途。放射学143 29–36。
[23] Hobert,O.(2008)。转录因子和microRNA的基因调控。科学319 1785-1786。
[24] Inouye,D.I.、Yang,E.、Allen,G.I.和Ravikumar,P.(2017)。从泊松分布导出计数数据的多元分布综述。威利公司(Wiley Interdiscip)。版本:计算。统计数据9 e1398,25。
[25] Ishwaran,H.和James,L.F.(2001)。破胶前期吉布斯取样方法。J.Amer。统计师。协会96 161–173·Zbl 1014.62006年 ·doi:10.1198/016214501750332758
[26] Ishwaran,H.和Rao,J.S.(2005年)。尖峰和平板变量选择:频繁和贝叶斯策略。《统计年鉴》33 730-773·Zbl 1068.62079号 ·doi:10.1214/009053604000001147
[27] Johnson,D.S.、Mortazavi,A.、Myers,R.M.和Wold,B.(2007年)。体内蛋白质-DNA相互作用的全基因组绘图。科学316 1497–1502。
[28] Karlis,D.(2003年)。多元泊松分布和相关模型的EM算法。J.应用。统计数字30 63–77·Zbl 1121.62408号 ·doi:10.1080/026647602200018510
[29] Karlis,D.和Meligkotsidou,L.(2007)。多元泊松分布的有限混合及其应用。J.统计。计划。推断137 1942-1960年·Zbl 1116.60006号 ·doi:10.1016/j.jspi.2006.07.001
[30] Kawamura,K.(1979年)。多元泊松分布的结构。Kodai数学。J.2 337–345·Zbl 0434.60019号 ·doi:10.2996/kmj/1138036064
[31] Kitamura,Y.、Shimohama,S.、Ota,T.、Matsuoka,Y.,Nomura,Y.和Taniguchi,T.(1997)。阿尔茨海默病大脑中转录因子NF-κB和STAT1的改变。神经科学。第237页17–20。
[32] Kocherlakota,S.和Kocherlackota,K.(1992)。二元离散分布。纽约威利·Zbl 0794.6202号
[33] Lan,K.-H.,Kanai,F.,Shiratori,Y.,Ohashi,M.,Tanaka,T.,Okudaira,T.、Yoshida,Y.、Hamada,H.和Omata,M.(1997)。腺病毒载体介导的人癌胚抗原产生胃癌的体内选择性基因表达和治疗。癌症研究57 4279–4284。
[34] Lara-Marquez,M.L.、O’Dorisio,M.S.、O‘Dorisio、T.M.、Shah,M.H.和Karacay,B.(2001)。人类T细胞中血管活性肠肽受体1型和2型的选择性基因表达和激活依赖性调节。免疫学杂志.166 2522–2530。
[35] Li,S.-H.和Li,X.-J.(2004)。亨廷顿蛋白-蛋白质相互作用和亨廷顿病的发病机制。趋势Genet.20 146–154。
[36] Lin,Z.,Wang,T.,Yang,C.和Zhao,H.(2017)。关于时空数据高斯图形模型的联合估计。生物统计学73 769–779·兹比尔1522.62179
[37] Lochamy,J.、Rogers,E.M.和Boss,J.M.(2007年)。CREB和磷酸化CREB与RFX5和CIITA相互作用,调节MHC II类基因。分子免疫学44 837–847。
[38] Luo,X.和Wei,Y.(2018)。《异质动态转录因子网络的非参数贝叶斯学习》补充。DOI:10.1214/17-AOAS1129SUPP。
[39] 麦克阿瑟,S.,李,X.-Y.,李,J.,布朗,J.B.,楚,H.C.,曾,L.,格隆多纳,B.P.,赫克默,A.,西米伦科,L.、凯尔嫩,S.V.等人(2009年)。21个果蝇转录因子的发育作用由与数千个基因组区域重叠集结合的数量差异决定。基因组生物学.10 R80。
[40] Meinshausen,N.和Bühlmann,P.(2006)。高维图和用套索选择变量。《统计年鉴》34 1436–1462·兹比尔1113.62082 ·doi:10.1214/0090536000000281
[41] Metropolis,N.、Rosenbluth,A.W.、Rosenbruth,M.N.、Teller,A.H.和Teller等人(1953年)。快速计算机器的状态方程计算。化学杂志。物理21 1087–1092·Zbl 1431.65006号
[42] Mitchell,P.J.和Tjian,R.(1989)。序列特异性DNA结合蛋白在哺乳动物细胞中的转录调控。科学245 371–378。
[43] Mitra,R.、Müller,P.和Ji,Y.(2016)。微分路径的贝叶斯图形模型。贝叶斯分析1199-124·Zbl 1359.62282号 ·doi:10.1214/14-BA931
[44] Mitra,R.、Müller,P.、Liang,S.、Yue,L.和Ji,Y.(2013)。组蛋白修饰芯片序列数据的贝叶斯图形模型。J.Amer。统计师。协会108 69–80·兹比尔1379.62079 ·doi:10.1080/01621459.2012.746058
[45] Newton,M.A.、Noueiry,A.、Sarkar,D.和Ahlquist,P.(2004)。用半参数分层混合方法检测差异基因表达。生物统计5 155–176·Zbl 1096.62124号 ·doi:10.1093/biostatistics/5.2.155
[46] Ogata,H.、Goto,S.、Sato,K.、Fujibuchi,W.、Bono,H.和Kanehisa,M.(1999)。KEGG:京都基因和基因组百科全书。核酸研究27 29–34。
[47] Peterson,C.B.、Stingo,F.C.和Vannucci,M.(2015)。多高斯图形模型的贝叶斯推断。J.Amer。统计师。协会110 159–174·Zbl 1373.62106号 ·doi:10.1080/01621459.2014.896806
[48] Robinson,M.D.、McCarthy,D.J.和Smyth,G.K.(2010年)。edgeR:用于数字基因表达数据差异表达分析的Bioconder软件包。生物信息学26 139–140。
[49] Rodriguez,A.、Lenkoski,A.、Dobra,A.等人(2011年)。异质样本中的稀疏协方差估计。电子。《美国联邦法规汇编》第5卷第981–1014页·Zbl 1274.62207号 ·doi:10.1214/11-EJS634
[50] Scherzer,C.R.,Grass,J.A.,Liao,Z.,Pepivani,I.,Zheng,B.,Eklund,A.C.,Ney,P.A.,Ng,J.,McGoldrick,M.,Mollenhauer,B.等人(2008)。GATA转录因子直接调节帕金森病相关基因α-突触核蛋白。程序。国家。阿卡德。科学。美国105 10907–10912。
[51] Shi,Q.,Le,X.,Abbruzzese,J.L.,Wang,B.,Mujaida,N.,Matsushima,K.,Huang,S.,Xiong,Q.和Xie,K.(1999)。转录因子AP-1和NF-κB在缺氧诱导人胰腺癌细胞IL-8中的协同作用。《干扰素细胞因子研究杂志》19 1363–1371。
[52] Subramanian,A.、Tamayo,P.、Mootha,V.K.、Mukherjee,S.、Ebert,B.L.、Gillette,M.A.、Paulovich,A.、Pomeroy,S.L.、Golub,T.R.、Lander,E.S.等人(2005年)。基因集富集分析:解释全基因组表达谱的基于知识的方法。程序。国家。阿卡德。科学。美国102 15545–15550。
[53] Tanner,M.A.和Wong,W.H.(1987)。通过数据增强计算后验分布。J.Amer。统计师。协会82 528–540·Zbl 0619.62029号 ·doi:10.1080/01621459.1987.10478458
[54] Wei,Y.和Wu,H.(2016)。测量蛋白质结合位点的空间相关性。生物信息学32 1766-1772。
[55] Xing,E.P.,Sohn,K.-A.等人(2007年)。隐马尔可夫-狄利克雷过程:在开放的祖先空间中建模遗传推理。贝叶斯分析。2 501–527·Zbl 1332.62352号 ·doi:10.1214/07-BA220
[56] Xue,W.,Kang,J.,Bowman,F.D.,Wager,T.D.和Guo,J.(2014)。通过泊松图形模型识别神经成像研究中的功能协同激活模式。生物统计学70 812–822·Zbl 1393.62109号 ·doi:10.1111/biom.12116
[57] Yang,E.、Ravikumar,P.K.、Allen,G.I.和Liu,Z.(2013)。关于泊松图形模型。神经信息处理系统进展1718-1726。
[58] Yang,E.、Ravikumar,P.、Allen,G.I.和Liu,Z.(2015)。通过单变量指数族分布的图形模型。J.马赫。学习。第16号决议3813–3847·Zbl 1351.62111号
[59] Yuan,M.和Lin,Y.(2007)。高斯图形模型中的模型选择和估计。生物特征94 19–35·Zbl 1142.62408号 ·doi:10.1093/biomet/asm018
[60] Zervos,A.S.、Gyuris,J.和Brent,R.(1993)。Mxi1,一种与Max特异性相互作用以结合Myc-Max识别位点的蛋白质。手机72 223–232。
[61] Zhang,B.和Horvath,S.(2005)。加权基因共表达网络分析的一般框架。统计应用程序。遗传学。分子生物学4第17条·Zbl 1077.92042号 ·数字对象标识代码:10.2202/1544-6115.1128
[62] Zhou,H.、Cheruvanky,A.、Hu,X.、Matsumoto,T.、Hiramatsu,N.、Cho,M.E.、Berger,A.、Leelahavanichkul,A.、Doi,K.、Chawla,L.S.等人(2008年)。尿液外体转录因子,一类新的肾脏疾病生物标记物。肾脏Int.74 613–621。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。