×

兹马思-数学第一资源

生物信息学。第二卷:结构、功能和应用。第二版。(英语) Zbl 1384.92002号
分子生物学方法1526纽约,纽约:Humana出版社(ISBN 978-1-4939-6611-0/hbk;978-1-4939-6613-4/电子书)。xi,426页(2017年)。
“生物信息学”的第二卷,由乔纳森·M·基思编辑,涵盖了与理解生物分子作为相互作用元素系统的一部分有关的方面;作者主要侧重于解释结构及其与功能的联系以及识别路径和网络的算法。这本书分为三个部分。
本书的第一部分介绍了连接结构和功能的方法以及识别途径(基因网络)的方法。第一章着重于一种混合计算和实验的方法,结合稀疏的实验约束和建模算法来提高三维蛋白质模型的精度。在介绍了核磁共振波谱技术的最新进展之后,作者介绍了蛋白质-配体相互作用和蛋白质-蛋白质复合物的特点。详细描述的计算方法是Rosetta结构计算算法。
第二章介绍了基于蛋白质结构域检测和序列相似性方法(BLAST)的同源性函数推理。第三章提出了一种从原核生物基因序列保守性推断功能关系的方法。这种方法基于这样一个假设,即相邻基因的保存可能表明存在一个治安性转录单元。详细介绍了分析的各个步骤,包括邻域数据库的描述。
在第四章中,作者介绍了长非编码rna(lncRNAs)的结构和功能注释,并以NCBI、ENSEMBL、转录组数据和多重比对为出发点。为了检测非功能性RNAs的同源性,我们使用了一些工具,如infernal,并结合二级结构的检测(通过比较基因组学识别功能性的2-D基序)。在第五章中,作者描述了在物种形成过程中功能限制导致相似模式的假设下,基于系统发育模式的功能基因网络识别。这些例子基于蛋白质序列和同源性搜索软件(BLAST)。对于功能关联的评估,讨论了轮廓之间的相似性度量。
在第六章中,作者介绍了C3NET、RN、ARACNE、CLR和MRNET等全基因组相互作用网络的推导方法,包括在公共数据集上的实现细节和实例。第七章提出了一种整合异质数据集的方法,如基因表达、拷贝数畸变(CNA)、miRNA表达、甲基化数据和蛋白质相互作用来识别癌症模块。详细描述的方法包括iMCMC(身份突变核心模块癌)、VToD和[Z、 文等,“识别复杂疾病因果网络模块的综合方法及其在结直肠癌中的应用”,J.Am。医学。通知。Assoc.20,No.4,659–667(2013年;doi:10.1136/amiajnl-2012-001168)]以及[E、 赛拉米等,“自动网络分析识别胶质母细胞瘤的核心通路”,公共科学图书馆,第5期,第2期,e8918,10页(2010年;doi:10.1371/journal.pone.0008918)]提出了数据驱动推理和网络拓扑特性可变比例的不同框架。第一部分的最后一章主要讨论代谢途径。在描述了一般的文本挖掘工具和命名实体识别方法之后,作者提出了一种以公共数据为例的启发式代谢路径提取方法。
第二部分着重于数据挖掘方法的应用;它从分析基因组关联数据(GWAS)的一章开始,旨在将复杂的遗传特征与疾病联系起来。作者还介绍了二元和定性性状分析的分步指南,接着是数据质量控制和清理部分,以及基因型插补和关联检验方法的概述。第10章着重于调整可能混淆GWAS研究结果的家庭关系的方法;讨论了古代(人口分层)和最近(家庭结构)的关系。作者还包括了一个数据集上不同方法的并排比较,该数据集包括祖籍来自北欧和西欧的犹他州居民。
在第11章中,作者介绍了数量性状基因座(QTL),包括一般描述和标准工作流程,以将这些与GWAS研究联系起来。MERLIN软件是一个例子,因为它支持参数和非参数连锁分析、关联研究和孟德尔误差检测。在第12章中,介绍了用于计算诊断的集成高维轮廓的方法,这些例子集中在整合基因表达和代谢物的分析上。在讨论分类问题中遇到的陷阱之后,作者概述了当前可用于解决这一任务的软件(例如,对角线性判别分析(DLDA)和单变量基因选择)。
第13章着重于分子相似性的计算评估和量化方法,以及应用于化学信息学的性质外推。从二维与三维相似性、全局相似性与局部相似性等关键概念入手,综述了几种相似性函数和搜索策略的效果。下一章继续描述数据挖掘在药物发现中的应用。在描述公共领域知识库之后,将描述数据量和复杂性的影响以及方法的简要概述(例如,虚拟化合物筛选、匹配分子对的识别和活性曲线的评估)。
在第15章中,作者提出了下一代测序(rep-seq方法)研究抗体库的方法。从抗原识别、受体开发和同种型产生等背景概念的描述开始,讨论了抗体库高通量研究的优势和可用的工具。本章最后以一个疫苗接种体液免疫反应监测为例。在下一章中,作者提出了一种用QAPgrid方法可视化大规模数据集的数学方法,该方法应用于细胞特异性转录组特征的生物标记识别。通过实例、伪代码和图表对该方法进行了详细的描述。第17章讨论了一种用于乳腺癌诊断的稳健集内分类判别特征的识别方法。首先,介绍了\(k\)-特征集问题,然后以数据集为例进行了描述。然后将任务重新表述为图的优化问题。详细介绍了简化技术和模因算法(包括测试数据的结果)。
第三部分介绍了4种计算方法。在第18章中,作者提出了一种基于推理的方法,用蛋白质组学数据集作为输入来确定细胞信号通路。这些例子集中在有丝分裂原激活蛋白(map)激酶途径。下一章回顾了聚类方法,包括层次聚类,k-均值,自组织图和基于模型的版本,所有这些都是用来识别基因图谱的例子。方法学方面的简要概述由一个详细的例子加以补充。
第20章介绍了开发求解NP-难生物问题精确解的参数化算法的方法。案例研究中提出了核化(保持有效性的数据缩减)、深度有界搜索树、动态规划、图的树分解、识别图中小模式的颜色编码和基于小实例递归求解的迭代压缩等方法。这一部分以第21章结束,描述了从生物数据集中获取信息的可视化方法。详细讨论了热图和基于图的强制网络布局的使用。
作为一个章节的集合,说明了各种生物信息学方法的最先进的方法,这本书是一个很好的起点为广大读者,包括本科生,研究生和已建立的研究人员一样。每种方法的详细程度,再加上大量的例子,不仅有助于对主题的理解,而且有助于在与大(高通量)生物数据集挖掘相关的各种任务之间架起桥梁。
理学硕士:
92-02年 与生物学有关的研究展览会(专著、调查文章)
92-08年 生物学问题的计算方法
92D20 蛋白质序列,DNA序列
92C40型 生物化学、分子生物学
92C42型 系统生物学,网络
92C50 医疗应用(通用)
00磅15 杂项特定利益物品的收集
PDF格式 BibTeX公司 XML 引用
全文: 内政部