×

DNA多重比对中的异质性:建模、推理和在基序发现中的应用。 (英语) Zbl 1203.62184号

摘要:转录因子结合DNA中的序列特异性位点来调节基因转录。识别转录因子结合位点是理解基因调控的重要步骤。尽管TFBS及其组合模式的建模很复杂,但TFBS检测和基序发现的计算方法往往对背景序列做出过于简化的同质模型假设。由于核苷酸碱基组成因基因组区域而异,因此将异质性纳入背景建模有助于模体发现。当使用来自多个物种的序列时,进化保守性的变化违反了多重比对中相同保守性水平的共同假设。为了处理这两种类型的异质性,我们提出了一种生成模型,其中使用分段马尔可夫链将多重比对划分为同源核苷酸碱基组成区域,并使用隐马尔可夫模型(HMM)来考虑不同的保守性水平。该模型的贝叶斯推理是通过吉布斯抽样和动态规划递归进行的。来自生物数据集的模拟研究和经验证据揭示了背景建模对模体发现的巨大影响,并证明了所提出的方法能够比常用的背景模型实现显著改进。

理学硕士:

62页第10页 统计学在生物学和医学中的应用;元分析
92C40型 生物化学、分子生物学
2015年1月62日 贝叶斯推断
92D10型 遗传学和表观遗传学
65C60个 统计中的计算问题(MSC2010)
60J20型 马尔可夫链和离散时间马尔可夫过程在一般状态空间(社会流动、学习理论、工业过程等)上的应用
90 C90 数学规划的应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Auger,段邻域最佳识别算法,《数学生物学公报》51第39页–(1989)·Zbl 0658.92010号 ·doi:10.1007/BF02458835
[2] Baele,《基于模型研究近邻影响的方法揭示了非编码序列中复杂的替代模式》,《系统生物学》57,第675页–(2008)·doi:10.1080/10635150802422324
[3] Bailey,通过期望最大化拟合混合物模型以发现生物聚合物中的基序,《第二届分子生物学智能系统国际会议论文集》2,第28页–(1994)
[4] Barash,蛋白质-DNA结合位点的依赖性建模,第七届国际计算分子生物学研究年会论文集(2003年)
[5] Blaisdell,Markov链分析发现相邻碱基对真核DNA序列中碱基的出现有显著影响,包括蛋白质编码和非编码,《分子进化杂志》21第278页–(1985)·doi:10.1007/BF02102360
[6] 《男孩们,DNA序列分割的贝叶斯方法》,《生物统计学》第60页第573页–(2004)·Zbl 1274.62728号 ·doi:10.1111/j.0006-341X.2004.00206.x
[7] Braun,DNA序列分割的统计方法,《统计科学》13第142页–(1998)·Zbl 0960.62121号 ·doi:10.1214秒/秒1028905933
[8] Braun,通过拟似然法进行多个变化点拟合,并应用于DNA序列分割,生物特征87,第301页–(2000)·Zbl 0963.62067号 ·doi:10.1093/biomet/87.2.301
[9] 丘吉尔,异质DNA序列的随机模型,《数学生物学公报》51第79页–(1989)·Zbl 0662.92012号 ·doi:10.1007/BF02458837
[10] Felsenstein,DNA序列进化树:最大似然法,《分子进化杂志》17页368–(1981)·doi:10.1007/BF01734359
[11] Felsenstein,PHYLIP-系统发育推断包(3.2版),分支系统学5第164页–(1989)
[12] Felsenstein,进化速率站点间变化的隐马尔可夫模型方法,《分子生物学与进化》13,第93页–(1996)·doi:10.1093/oxfordjournals.molbev.a025575
[13] Green,可逆跳跃马尔可夫链蒙特卡罗计算和贝叶斯模型确定,Biometrika 82 pp 711–(1995)·Zbl 0861.62023号 ·doi:10.1093/生物技术/82.4711
[14] Gupta,使用随机字典模型发现保守序列模式,《美国统计协会杂志》98 pp 55–(2003)·Zbl 1047.62107号 ·doi:10.1198/016214503388619094
[15] 黄,马尔可夫序列中模式的局部统计意义的测定及其在启动子元件识别中的应用,计算生物学杂志11第1页–(2004)·doi:10.1089/106652704773416858
[16] Hwang,Bayesian Markov chain Monte Carlo序列分析揭示了哺乳动物进化中不同的中性替代模式,《美国国家科学院院刊》101第13994页–(2004)·doi:10.1073/pnas.0404142101
[17] Ji,计算生物学:解读哺乳动物基因组中的基因调控信息,生物统计学62 pp 645–(2006)·Zbl 1113.62136号 ·doi:10.1111/j.1541-0420.2006.00625.x
[18] 卡罗奇克,加州大学旧金山分校基因组浏览器数据库:2008年更新,核酸研究36页D773–(2008)·doi:10.1093/nar/gkm966
[19] Lawrence,用于识别和表征未对齐生物聚合物序列中常见位点的期望最大化(EM)算法,《蛋白质》7第41页–(1990)·doi:10.1002/port.340070105
[20] 劳伦斯,《检测细微序列信号:多重比对的吉布斯采样策略》,《科学》262,第208页–(1993)·doi:10.1126/science.8211139
[21] Li,系统发育树上的取样主题,《美国国家科学院院刊》102页9481–(2005)·Zbl 1135.92316号 ·doi:10.1073/pnas.0501620102
[22] 刘,生物聚合物模型的贝叶斯推断,生物信息学15,第38页–(1999)·doi:10.1093/bioinformatics/15.1.38
[23] 刘,多局部序列比对和吉布斯抽样策略的贝叶斯模型,美国统计协会杂志90页1156–(1995)·Zbl 0864.62076号 ·doi:10.1080/01621459.1995.10476622
[24] Liu,BioProspector:发现共表达基因上游调控区的保守DNA模体,太平洋生物计算研讨会6,第127页–(2001)
[25] Moses,进化混合物期望最大化的系统发育基序检测,太平洋生物计算研讨会9 pp 324–(2004)
[26] Pepe,从微阵列实验中选择差异表达基因,生物计量学59第133页–(2003)·Zbl 1210.62200号 ·doi:10.1111/1541-0420.0016
[27] Ray,CSMET:通过多分辨率系统发育阴影检测比较基因组模体,《公共科学图书馆·计算生物学》4 pp e1000090–(2008)·doi:10.1371/journal.pcbi.1000090
[28] Siddharthan,PhylogGibbs:结合系统发育的吉布斯采样基序发现器,PLoS计算生物学1第534页-(2005)·doi:10.1371/journal.pcbi.0010067
[29] Siepel,在生物序列分析中结合系统发育和隐马尔可夫模型,《计算生物学杂志》11第413页–(2004)·doi:10.1089/1066527041410472
[30] Sinha,PhyME:在同源序列集合中发现基序的概率算法,BMC生物信息学5(2004)
[31] Stormo,从未对齐DNA片段中识别蛋白质结合位点,美国国家科学院院刊86页1183–(1989)·doi:10.1073/pnas.86.4.1183
[32] 汤普森,《解码人类调节电路》,《基因组研究》,第14页,1967–(2004)·doi:10.1101/gr.2589004
[33] Wingender,TRANSFAC:基因表达调控的集成系统,《核酸研究》28页316–(2000)·doi:10.1093/nar/28.1.316
[34] Xie,GibbsModule与CIS调节模块的交叉特异性从头鉴定:在胚胎干细胞基因调控中的应用,《基因组研究》18第1325页–(2008)·doi:10.1101/gr.072769.107
[35] 杨,DNA序列进化的时空过程模型,《遗传学》139页993–(1995)
[36] 周,提取序列特征预测蛋白质-DNA相互作用:一项比较研究,《核酸研究》36页4137–(2008)·doi:10.1093/nar/gkn361
[37] Zhou,用于发现多个物种中CIS调节模块的耦合隐马尔可夫模型,《应用统计学年鉴》1第36页–(2007)·Zbl 1129.62111号 ·doi:10.1214/07-AOAS103
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。