×

生物信息学。第二卷:结构、功能和应用。第二版。 (英语) Zbl 1384.92002年

分子生物学方法1526.纽约州纽约市:Humana出版社(ISBN 978-1-4939-6611-0/hbk;978-1-493 9-6613-4/电子书)。xi,第426页。(2017).
乔纳森·基思(Jonathan M.Keith)编辑的《生物信息学》第二卷涵盖了与理解生物分子作为相互作用元素系统的一部分有关的方面;作者主要关注用于解释结构及其与功能的联系以及识别路径和网络的算法。这本书分为三个部分。
本书的第一部分介绍了连接结构和功能的方法以及识别途径(基因网络)的方法。第一章重点介绍了一种混合计算和实验方法,该方法将稀疏的实验约束与建模算法相结合,以提高三维蛋白质模型的准确性。在描述了最先进的核磁共振(NMR)波谱之后,作者介绍了蛋白质-配体相互作用和蛋白质-蛋白质复合物的特征。详细描述的计算方法是Rosetta结构计算算法。
在第二章中,作者描述了基于蛋白质域检测和序列相似性方法(BLAST)的注释从同源性中推断功能。在第三章中,提出了一种从原核生物基因序列的保守性中推断功能关系的方法。该方法基于一个假设,即相邻基因的保存可能表明存在一个顺反转录单元。详细介绍了分析的每个步骤,包括邻居数据库的描述。
在第四章中,作者介绍了长非编码RNA(lncRNAs)的结构和功能注释,并将其用作起点注释数据库(如NCBI、ENSEMBL)、转录组数据和多重比对。为了检测非功能RNAs的同源性,使用了infernal等工具与二级结构检测相结合(通过比较基因组学识别功能2-D基序)。在第五章中,作者描述了在功能限制导致物种形成过程中相似模式的假设下,基于系统发育谱的功能基因网络的识别。这些例子基于蛋白质序列和同源搜索软件(BLAST)。为了评估功能关联,讨论了轮廓之间的相似性度量。
在第六章中,作者展望了推断C3NET、RN、ARACNE、CLR和MRNET等全基因组相互作用网络的方法;包括公开可用数据集的实现细节和示例。第七章提出了一种整合异质数据集(如基因表达、拷贝数畸变(CNA)、miRNA表达、甲基化数据和蛋白质相互作用)的方法,用于识别癌症模块。详细描述的方法包括iMCMC(身份突变核心模块癌症)、VToD和[Z.Wen先生等人,“识别复杂疾病因果网络模块的综合方法及其在结直肠癌中的应用”,《美国医学杂志》。协会20,第4号,659–667(2013;doi:10.1136/amijnl-2012-001168)]和[E.塞拉米等,“自动网络分析识别胶质母细胞瘤的核心通路”,PLOS ONE 5,No.2,e8918,10 p.(2010;doi:10.1371/journal.pone.0008918)]; 这些提出了不同的框架,具有可变比例的数据驱动推理和网络拓扑特性。第一部分的最后一章重点介绍代谢途径。在描述了用于命名实体识别的通用文本挖掘工具和方法之后,作者提出了一种以公共数据为例的启发式代谢途径提取方法。
第二部分重点介绍数据挖掘方法的应用;它从全基因组关联数据(GWAS)分析的一章开始,旨在将复杂的遗传特征与疾病联系起来。作者还介绍了二进制和定性性状分析的逐步指南,然后是关于数据质量控制和清理的部分,以及基因型插补和关联测试方法的概述。第10章重点介绍了可能混淆GWAS研究结果的家庭相关性调整方法;讨论了古代(人口分层)和近代(家族结构)的关系。作者还对来自北欧和西欧的犹他州居民的数据集进行了不同方法的并行比较。
在第11章中,作者提出了数量性状位点(QTL),包括通用描述和标准工作流程,以将这些与GWAS研究联系起来。MERLIN软件是一个示例,因为它支持参数和非参数链接分析、关联研究和孟德尔错误检测。在第12章中,提出了用于计算诊断的集成高维轮廓的方法;这些例子侧重于整合基因表达和代谢物分析。在讨论了分类问题中遇到的陷阱之后,作者概述了当前可用于解决此任务的软件(例如,对角线性判别分析(DLDA)和单变量基因选择)。
第13章重点介绍了化学信息学中应用的分子相似性的计算评估和量化方法及其对属性的外推。从2维与3维相似性、全局与局部相似性等关键概念的概述开始,作者概述了几种相似性函数和搜索策略的效果。下一章继续介绍用于药物发现的化合物活性数据的数据挖掘。在描述公共领域存储库之后,描述了数据量和复杂性的影响,以及方法的简要概述(例如,虚拟化合物筛选、匹配分子对的识别和活性谱的评估)。
在第15章中,作者提出了利用下一代测序(rep-seq方法)研究抗体库的方法。从背景概念的描述开始,如抗原识别的要素、受体的开发和同种型的产生,讨论了抗体库高通量研究的优势和可用的工具。本章最后列举了疫苗接种体液免疫反应监测的实例。在下一章中,作者提出了一种数学方法,用于使用QAPgrid方法可视化大规模数据集,该方法应用于细胞特异性转录组特征的生物标记识别。使用示例、伪代码和图表详细描述了该方法。第17章重点研究了一种用于乳腺癌诊断的鲁棒内集分类的鉴别特征识别方法。首先,介绍了(k)-特征集问题,然后描述了用作示例的数据集。然后将该任务重新表述为图中优化的((alpha,beta)-(k)-特征问题。详细描述了约简技术和模因算法(包括测试数据的结果)。
第三部分介绍了4种计算方法。在第18章中,作者提出了一种基于推断的方法,利用蛋白质组数据集作为输入来确定细胞信号通路。这些例子集中于丝裂原活化蛋白(map)激酶途径。下一章回顾了聚类方法,包括层次聚类、(k)均值、自组织图和基于模型的版本,所有这些都是用于基因图谱识别的示例。方法论方面的简要概述辅以一个详细的例子。
第20章介绍了开发参数化算法以寻求NP难生物问题精确解的方法。诸如核化(保持有效性的数据简化)、深度有界搜索树、动态规划、图的树分解、识别图中小模式的颜色编码以及基于小实例递归求解的迭代压缩等方法都是在案例研究中提出的。本部分以第21章结束,描述了从生物数据集获得的信息的可视化方法。详细讨论了热图和基于强制的网络布局在图形上的使用。
本书由多个章节组成,阐述了各种生物信息学方法中的最新方法,对于包括本科生、毕业生和资深研究人员在内的广大读者来说,这是一个极好的起点。每种方法的详细程度,再加上大量的例子,不仅有助于理解该主题,而且有助于衔接与挖掘大(高通量)生物数据集相关的各种任务。

MSC公司:

92-02 与生物学有关的研究博览会(专著、调查文章)
92-08 生物学问题的计算方法
92D20型 蛋白质序列,DNA序列
92C40型 生物化学、分子生物学
92立方厘米 系统生物学、网络
92 C50 医疗应用(通用)
00B15号机组 杂项特定利益物品的收集
PDF格式BibTeX公司 XML格式引用
全文: 内政部