×

生命科学的数据挖掘技术。第二版。 (英语) Zbl 1353.92002号

分子生物学方法1415.纽约,纽约:Humana Press/Springer(ISBN 978-1-4939-3570-3/hbk;978-1-4939-3572-7/电子书)。xiii,552页(2016年)。
这是第二版,它遵循了第一版的原则:“好的科学是由好的问题产生的”,即为了从一个大的、惰性的数据集中检索有意义的信息,需要有效和适当的方法。除了初版中包含的原始主题,数据库,计算技术和预测方法,这里的编辑和作者还讨论了解决大数据问题的方法。
这本书分为四个部分。第一章,数据库,由八章组成,描述了各种蛋白质数据库及其在数据挖掘、分类和探索中的应用。在第一章中,作者介绍了国家生物技术信息中心(NCBI)公开的数据库和资源的最新情况。介绍了基因组、基因及其变体、表达数据的数据库结构,以及导航、搜索和检索信息的有效方法。还描述了比较基因组学任务和充分可视化的工具。第二章重点介绍了蛋白质数据库、wwPDB、JenaLib、OCA、PDBe、PDBsum、Pfam等蛋白质结构数据库的实用性。他强调了基于三维结构分类的重要性,以及在序列比较无法提供明确答案的情况下,从结构中识别进化关系的能力。第三章介绍了MIntAct项目和分子相互作用数据库(IMEx数据库),这些数据库能够对几种模式生物中的相互作用组进行深入描述。在第四章中,作者建议使用蛋白质热力学数据库(ProTherm,包含诸如圆二色性、差示扫描量热法、荧光光谱等实验测量)来了解蛋白质突变的稳定性(突变效应的趋势)和稳定突变体的适当设计(以及由此产生的氨基酸性质)。这些信息被用来确定蛋白质的热力学、结构和功能之间的关系。在第五章中,作者介绍了一个蛋白质结构域结构数据库Kbdock及其相关网站,该数据库可用于三维蛋白质结构域相互作用(Pfam域水平上的域域-域相互作用、DDIs和域-肽相互作用DPIs)的分类和探索。在第六章中,作者介绍了蛋白质数据库(PDB),这是大分子结构的标准资源,并讨论了标准化模型、生成注释和保持条目一致性的挑战,尤其是那些使用X射线晶体学获得的条目。PDB \(\\\)REDO是一种替代方案。在第七章中,作者提出了一套高质量、无冗余的PDB子集提取标准。作者认为晶体分辨率不够;然而,附加的特征如B因子值、电子密度图的质量和衍射实验的温度可以作为严格的标准。这一部分的最后一章描述了一个基于硅同源性的大蛋白数据集注释的协议,该协议基于人工整理的蛋白质家族集合(例如Pfam)的可用信息。
第二部分,计算技术,由五章组成,从一章开始,介绍使用MisPred和FixPred工具以及Pfam数据库提交给公共数据库的蛋白质序列错误的识别和纠正。在第十章中,作者介绍了蛋白质组装体的低温电子显微镜(Cryo-EM)和低温电镜密度图,它们与高分辨率结构相结合,可用于提高拟合原子模型的精度和分析伪原子模型。研究蛋白质结构残基的进化保守性和同源蛋白质的多重比对以检测模型拟合中的误差。第十一章提出了一种新的氨基酸替代矩阵MIQS,它可以识别远亲蛋白质。利用主成分分析(PCA)方法对现有矩阵的子空间进行分析,作者强调了基于基准的MIQS比其他方法具有更好的准确性。在第十二章中,作者讨论了高通量组学分析的优缺点,并强调了可以防止实验设计或数据分析错误的策略和指南。充分复制和多次测试的重要性从多个角度进行了概括。第十三章着重于一种有效的方法(在速度和准确性方面)来映射RNA序列读取:STAR(剪接转录物与参考物对齐)方法。文中还讨论了主要方案、参数和最佳实践建议。
书的第三部分,预测方法,包括十二章。它首先描述了一种预测蛋白质构象紊乱的方法,即缺乏稳定的三维结构。其原因被确定为氨基酸水平上的特定区域,便于计算预测。在这里,作者提出了几种方法(如DisMeta,genesilco-MetaDisorder MD2,MetaPrDOS,Multicom,MFDp,Pondr-Fit,PredictProtein,MeDor)用于识别诱导折叠的这些区域。在第十五章中,作者着重介绍了蛋白激酶的种类,根据序列相似性分类,调节几种不同的信号通路。磷酸化能力与底物特异性有关,而底物特异性又由特定结合位点的残基决定。这一特征在这里被评估并且被用来改进激酶的分类方案。第十六章重点研究了基于光谱统计方法(2S方法)的方法,从异质基因组数据库中揭示DNA序列的潜在规则结构(和潜在周期性)。作者描述了这些方法的核心,基于近似串联重复,并讨论了一些例子,展示了蛋白质的潜在轮廓周期性和结构功能特性之间的相关性。在第十七章中,作者讨论了蛋白质结构研究中的一个主要挑战,即通过获得衍射质量晶体来评估蛋白质的结晶能力。比较了几种选择合适的蛋白质结晶靶点的方法、结构优化评价方法和结晶条件设计方法。第十八章介绍不合格品。情节,一个用于分析和可视化芯片序列和RNA序列比对的工具,可以在命令行上运行,也可以作为基于Galaxy框架的基于web的工作流运行。更具体地说,这种方法有助于确定富集区和基因组特征之间的空间关系。第十九章讨论了本体论和web本体语言(OWL)的使用。作者评论了基于这些本体的结构和内容提取信息的有效方法,以及潜在的陷阱,如选择“正确的”相似性度量。在下一章(20),作者将重点放在代谢组学数据的功能分析上,更具体地说是注释富集分析,类似于转录组学或蛋白质组学数据的功能分析。在第二十一章中,作者介绍了细菌转录组的数据分析,重点介绍了处理下一代测序数据集的主要生物信息学步骤,从原始数据到组装或注释基因组的表达分析。在第二十二章中,作者在对大量人类遗传变异的研究的基础上,对预测非同义变异的病理生理效应的计算方法进行了广泛的概述。利用多种方法,对几种可能诱发致病表型或疾病易感性的错误匹配的识别和特征进行了讨论。第二十三章对药物靶向相互作用预测和药物重新定位评价的方法和技术进行了客观评价。文中还介绍了一些超出网络情况的扩展。在第二十四章中,作者描述了一种蛋白质残基接触的预测方法,DNcon公司它被认为是解决从头计算蛋白质结构预测的持久性问题的一种很有前途的方法。第三部分总结了基于蛋白质序列的功能预测和注释器环境的使用。
本书的最后一部分着重于大数据,由两章组成。前者讨论了宏基因组分析在肠道微生物群描述中的应用。基于密码子的使用概况,作者表明,偏差呈现整个微生物群落的吞吐量可以用来预测其生活方式特定的代谢。最后一章描述了为方便处理大型电厂数据集而建立的iPlant倡议。
这本书的风格和各种各样的主题使它能够被广泛的读者所接受,从本科生到成熟的研究人员,以及来自不同背景的生物学家、化学家、生物信息学家。这一系列的文章突出了蛋白质分析的最新技术,也可以作为研究生项目的一个简单而彻底的起点。

理学硕士:

92-01年 与生物学有关的介绍性说明(教科书、教程等)
62-01年 与统计学有关的介绍性说明(教科书、教程等)
62-07年 数据分析(统计)(MSC2010)
92B15号 一般生物统计学
第62页 统计学在生物学和医学科学中的应用;荟萃分析
92C40型 生物化学、分子生物学
PDF格式 BibTeX公司 XML 引用
全文: 内政部