×

生命科学的数据挖掘技术。第2版。 (英语) Zbl 1353.92002年

分子生物学方法1415.纽约州纽约市:Humana出版社/Springer(ISBN 978-1-4939-3570-3/hbk;978-1-493 9-3572-7/电子书)。xiii,552页。(2016).
这是第二版,遵循第一版的原则:“好的科学是由好的问题构成的”,也就是说,为了从一个大而惰性的数据集中检索有意义的信息,需要有效和充分的方法。除了第一版中包含的原始主题、数据库、计算技术和预测方法外,编辑和作者还讨论了处理大数据问题的方法。
这本书分为四个部分。第一个数据库由八章组成,描述了各种蛋白质数据库及其在数据挖掘、分类和探索中的应用。在第一章中,作者介绍了国家生物技术信息中心(NCBI)公开的数据库和资源的更新。介绍了基因组、基因及其变体和表达数据数据库的结构以及导航、搜索和检索信息的有效方法。还描述了用于比较基因组学任务和充分可视化的工具。在第二章中,作者重点介绍了蛋白质数据库、wwPDB、JenaLib、OCA、PDBe、PDBsum、Pfam等蛋白质结构数据库的用途。他强调了基于3D结构的分类的重要性,以及在序列比较无法提供明确答案时,从结构中识别进化关系的能力。第三章介绍了MIntAct项目和分子相互作用数据库(IMEx数据库),这些数据库能够深入描述几种模式生物中的相互作用组。在第四章中,作者建议使用蛋白质热力学数据库(ProTherm,包含圆二色性、差示扫描量热法、荧光光谱等实验测量)来了解蛋白质突变稳定性(突变效应的趋势)以及稳定突变体的适当设计(以及由此产生的氨基酸特性)。这些信息用于确定蛋白质的热力学、结构和功能之间的关系。在第五章中,作者介绍了Kbdock,一个蛋白质结构域数据库及其相关网站,可用于分类和探索3D蛋白质结构域相互作用(域-域相互作用、DDI和域-肽相互作用DPI,在Pfam结构域级别)。在第六章中,作者介绍了蛋白质数据库(PDB),这是一个大分子结构的标准资源,并讨论了标准化模型、生成注释和保持条目一致性的挑战,特别是使用X射线晶体学获得的条目。PDB(REDO)是一种替代方案。在第七章中,作者提出了一套提取高质量、非冗余PDB子集的标准。作者认为,晶体分辨率不够;然而,诸如B因子值、电子密度图的质量和衍射实验的温度等其他特征可以作为严格的标准。本部分的最后一章描述了一个基于大规模蛋白质数据集的电子同源注释协议,该协议基于人工管理的蛋白质家族集合(例如Pfam)的可用信息。
第二部分“计算技术”包括五章,第一章是关于使用MisPred和FixPred工具以及Pfam数据库识别和纠正提交给公共数据库的蛋白质序列中的错误。在第十章中,作者介绍了蛋白质组装体的低温电子显微镜(Cryo-EM)和低温电子显微镜密度图,结合高分辨率结构,可用于提高拟合原子模型的准确性和分析伪原子模型。本文还介绍了蛋白质结构残基的进化守恒和同源蛋白质多重比对的研究,以检测模型拟合中的错误。第十一章提出了一种新的氨基酸替代矩阵:MIQS,它能够识别远距离相关的蛋白质。使用主成分分析(PCA)方法对现有矩阵的子空间进行分析,作者强调,基于基准的MIQS比其他方法显示出更好的准确性。在第十二章中,作者讨论了高通量组学分析的优缺点,并强调了可能防止实验设计或数据分析错误的策略和指南。从多个角度阐述了充分复制和多重测试的重要性。第十三章重点介绍了绘制RNA-seq读码的一种有效方法(在速度和准确性方面):STAR(拼接转录物比对到参考)方法。还讨论了主要选项、参数和最佳实践建议。
书的第三部分,预测方法,由十二章组成。它首先描述了预测蛋白质构象紊乱的方法,即缺乏稳定的3D结构。原因被确定为氨基酸水平的特定区域,便于计算预测。在此,作者提出了几种用于识别诱导折叠相关区域的方法(例如,DisMeta、GeneSilico-MetaDisorder MD2、MetaPrDOS、Multicom、MFDp、Pondr-Fit、PredictProtein、MeDor)。在第十五章中,作者重点讨论了按序列相似性分类的蛋白激酶类,它们调节着几个不同的信号通路。磷酸化的能力与底物特异性有关,而底物特异性又由特定结合位点的残基决定。这里对该特征进行了评估,并用于改进激酶的分类方案。第十六章重点介绍基于光谱统计方法(2S-方法)的方法,以揭示异质基因组数据库中DNA序列的潜在规则结构(和潜在周期)。作者描述了基于近似串联重复序列的这些方法的核心,并讨论了显示潜在轮廓周期性和蛋白质结构功能特性之间相关性的示例。在第十七章中,作者讨论了蛋白质结构研究中的一个主要挑战,即通过获得衍射质量的晶体来评估蛋白质的结晶性。他们比较了几种选择合适的蛋白质结晶靶点、结构优化评估和结晶条件设计的方法。第十八章介绍ngs.plot公司是一种用于分析和可视化ChIP-seq和RNA-seq比对的工具,可以在命令行上运行,也可以在Galaxy框架上作为基于web的工作流运行。更具体地说,这种方法有助于识别富集区域和基因组特征之间的空间关系。第十九章讨论了本体论和web本体语言(OWL)的使用。作者评论了基于此类本体的结构和内容提取信息的有效方法,以及潜在的陷阱,如选择“正确”的相似性度量。在下一章(20)中,作者将重点放在代谢组学数据的功能分析上,更具体地说,是注释富集分析,类似于转录组学或蛋白质组学数据。在第二十一章中,作者介绍了细菌转录组的数据分析,重点介绍了处理下一代测序数据集的主要生物信息学步骤,从原始数据到组装或注释基因组的表达分析。在第二十二章中,作者基于对人类巨大遗传变异性的调查,对预测非同义变体的病理生理效应的计算方法进行了广泛概述。使用多种方法,讨论了几种可能诱发致病表型或疾病易感性的错误匹配的识别和表征。第二十三章致力于对预测药物-靶点相互作用和评价药物重新定位的方法和技术进行客观评价。此外,还介绍了网络案例以外的一些扩展。在第二十四章中,作者描述了蛋白质残留接触的预测方法,DNcon公司这被认为是解决从头算蛋白质结构预测这一持久问题的一种很有前景的方法。第三部分以一章结束,该章介绍了基于蛋白质序列的功能预测和ANNOTATOR环境的使用。
本书的最后一部分侧重于大数据,由两章组成。前者讨论了利用宏基因组分析描述肠道微生物群。根据密码子使用情况,作者表明,偏差表示整个微生物群落的吞吐量,可以用于预测其特定于生活方式的代谢。最后一章介绍了iPlant倡议,该倡议旨在促进大型电厂数据集的处理。
这本书的风格和所呈现的主题分类使它能够接触到广泛的受众,从本科生到资深研究人员,以及来自不同背景的生物学家、化学家、生物信息学家。这组文章强调了蛋白质分析的最新技术,也可以作为研究生项目的简短而彻底的起点。

MSC公司:

92-01 与生物学有关的介绍性说明(教科书、辅导论文等)
62-01 与统计有关的介绍性说明(教科书、辅导论文等)
62-07 数据分析(统计)(MSC2010)
92B15号机组 普通生物统计学
62页第10页 统计学在生物学和医学科学中的应用;元分析
92C40型 生物化学、分子生物学

软件:

SnpEff公司;PhenomeNET公司;智能GO;Ontobee公司;FUNC公司;阴谋地;奥古斯塔斯;EMBOS公司;LIGPLOT公司;Sweave公司;生物泥;通告器;双鱼座;ESyPred3D;CUPSAT公司;PoPMuSiC公司;mCSM公司;马斯特罗;检查;障碍;Cd命中;SFCHECK(SF检查);超级家族;H块;pKNOT公司;SCOP2;自动静音;ENCoM公司;二重唱;仪表;PDB重做;MFDp2;促销3D;VNTR搜索;VaZyMolO公司;FUGUE公司;PredPPCrys公司;XtalPred公司;XANNpred公司;银河;电机原理图;NUCPLOT公司;ADP_EM公司;开放细胞;rmarkdown公司;基因模式;BLAT(爆炸);HT序列;梅多尔;元障碍;失调症前期;蓬德·菲特;PROFbval公司;StrBioLib公司;DN障碍;已被淘汰;罗恩;搬运工;埃斯普里茨;自旋-D;MATRAS公司;PrDOS软件;水池-I;IUPred公司;折叠展开;;ParCrys公司;晶体2;SSpro公司;专业;奥廖内;MSEA公司;GOSemSim公司;HPO模拟;大脑;iPad路径;Metabo灯光;抗SMASH;PconsFold公司;RNAmmer公司;DBAli工具;SEQuel公司;CISA公司;普罗卡;阿拉贡;无间道;奥梅罗;最佳思维;缝合;ncPred公司;CONFOLD公司;PSICOV公司;MetaPSICOV公司;NNcon公司;CCMpred公司;免费联系人;安妮;HPMV(高压中压);解剖HMMER;数据库CAN;ELM公司;鸡蛋NOG;天鹅绒优化器;SPAdes系列;工厂TFDB;SSAKE公司;马格西;浪子;HMMER公司;焦耳(Jmol);肌肉;PyMOL公司;Samtools公司;Aber-OWL公司;SOPRA公司;flowCore(流动堆芯);全球地图;阿波罗;香皂;MIRA公司;生物导体;生物蟒蛇;STAR公司;tRNA扫描-SE;EMan公司;R(右);MAFFT公司;剂量
PDF格式BibTeX公司 XML格式引用
全文: 内政部