×

生物序列分析。蛋白质和核酸的概率模型。 (英语) Zbl 0929.92010号

剑桥:剑桥大学出版社。360页(1998年)。
计算生物学,也被称为生物信息学,是一个快速发展的跨学科领域,在21世纪的头几十年里,它具有巨大的重要性,在这个领域,兆字节的原始生物数据(例如基因组序列、蛋白质构象等)只能使用计算机程序进行分析和解释。虽然生物信息学的应用涉及分子生物学(未来肯定还会涉及其他领域,如神经生物学),但使用的方法来自统计学、计算机科学和数学。因此,不同的文本处理计算生物学的不同方面。例如M.沃特曼计算生物学导论:地图、序列和基因组;Zbl 0831.92011号)],P.巴尔迪S.Brunak公司【生物信息学-机器学习方法。(1998)】,J.塞图巴尔J.梅达尼斯[计算分子生物学导论(1997)]都有不同的关注领域,例如Baldi和Brunak强调机器学习算法,如隐马尔可夫模型、神经网络和混合模型。
当前正在审查的文本是对现有书籍的欢迎补充,正如其标题所示,主要关注概率方法,包括马尔可夫模型、隐马尔可夫模式、parsimonoy和最大似然系统发育构建算法、随机无上下文文法、简档等。主要应用领域涉及序列比对(成对和多重)、基因组模体识别、系统发育和RNA二级结构。这篇文章显然不仅针对统计学家、计算机科学家和数学家,而且针对对计算生物学感兴趣的实践生物学家。为此,尽管这本书非常严谨,但它在抑制某些数学细节方面做得很好,否则可能会分散生物学家的注意力;例如,关于概率分布(如Dirichlet分布)、熵和EM算法(期望最大化)的详细信息将放在最后一章。通过这些方法,这本书的总体可读性提高了。从广义上讲,这本书的观点是贝叶斯主义的——给定某种先验概率分布(例如氨基酸的组成频率),人们可以使用贝叶斯学习计算一个新的后验分布(例如,当给定待学习类成员的训练集时,一类蛋白质的随机模型)。
这本书有11章。第一章介绍概率模型、最大似然和最大后验估计。有关骰子的简单示例说明了许多概念,例如多项式分布。第2章涉及使用动态规划方法(Needleman-Wunsch、Smith-Waterman等)进行两两序列比对。第三章讨论马尔可夫链和隐马尔可夫模型(HMM)。在隐马尔可夫模型中,人们不能观察模型的状态,而只能观察输出符号,其中输出分布取决于状态。因此,可以为一个蛋白质家族(例如G-coupled receptor proteins)构建一个随机模型,其中在一定概率下,特定的氨基酸符号将在链的第i个位置输出。第4章解释了如何使用HMM进行成对序列比对。由于两两序列比对通常不是使用HMM进行计算的,因此本章主要是教学性的,为读者提供了更好的直观性,以便日后将HMM应用于多序列比对。
第5章和第6章涉及数据库搜索轮廓的构建,并概述了多序列比对的一些方法,这是一个NP完全问题。例如,给定一组球蛋白训练集,使用HMM可以构建一个球蛋白的随机模型,生成一个轮廓,然后用于搜索数据库中的点击数。第7章和第8章介绍了构建系统发育的算法(聚类方法、最大似然法、简约法等)。第9章涉及形式语法——转换语法、规则语法、无上下文语法、随机无上下文语法,因为这些语法可以被视为HMM的推广。第10章介绍了使用动态规划和随机上下文无关文法进行RNA二级结构预测。应用语法描述RNA二级结构的想法可以追溯到塞尔。在考虑发夹环时,可以看出这个想法的要点ACGUXXXXXACGU公司,其中基本配对的形式为(((…))。按照这种方式,二级结构本质上是一个平衡的括号表达式,因此由形式为\(S\rightarrow(S)S|\mathtt{.}|\epsilon\)的无上下文语法生成。将概率放在文法的产生式规则上会产生一个随机的无上下文文法,CYK或Early解析器以及HMM的前向后退方法会产生一种有效的算法来学习给定训练集的规则应用的概率。最后,如前所述,第11章本质上是本文算法所用概率论和统计学中最重要概念的附录。
与20世纪早期的量子物理学一样,分子生物学目前正处于激动人心的阶段,数学以及统计学和计算机科学的相关领域都做出了重要贡献。任何受过科学教育、对理解计算分子生物学算法技术感兴趣的读者都应该阅读这本写得很好、很有趣的经典著作,例如,在DNA扩增后,用来确定尼安德特人不是斯万特·帕亚博作品中智人H.sapiens的直系祖先。

MSC公司:

92碳40 生物化学、分子生物学
92-01 与生物学有关的介绍性说明(教科书、辅导论文等)
92-02 与生物学有关的研究博览会(专著、调查文章)
92-08 生物学问题的计算方法

软件:

tRNA扫描-SE
PDF格式BibTeX公司 XML格式引用
全文: 内政部