×

在Verdan Franke、Bora Uyar和Jonathan Ronen的协助下,使用R.进行计算基因组学。 (英语) Zbl 1482.92002年

查普曼和霍尔/CRC计算生物学系列佛罗里达州博卡拉顿:CRC出版社(ISBN 978-1-4987-8185-5/hbk;978-0-367-63460-5/pbk;988-0-429-08431-7/电子书)。第二十二章,第440页。(2021).
这本书涵盖了构成现代基因组学分析基础的一系列基本概念。这本书分为11章,分为三个语义部分:基因组学概述和在给定背景下对R的介绍,机器学习方法的总结,以及RNAseq、表观遗传学和多组学管道分析步骤的说明。
这本书从两章开始,第一章是关于基因组学概念,第二章是关于R作为编程环境。前者概述了分子生物学的中心法则,强调了基因组、基因、转录和转录后调控等关键概念。还介绍了用于量化各种模式的高通量实验方法。后一章首先概述了数据分析步骤以及支持使用R作为分析环境的论点。介绍了数据结构和数据类型、数据输入和输出(包括可视化方法)等基本概念。
本书的第二部分着重于统计学和机器学习方法;它分为三章。第三章概述了用于评估样本(分布)之间差异的统计检验。总结方法,如平均值、中位数、变异、置信区间,以t-检验和多重检验修正的细节为依据;还包括线性模型和相关性。在第四章中,作者重点讨论了无监督学习,并详细介绍了聚类方法(距离度量、层次聚类和k均值聚类)和降维方法(主成分分析、多维尺度和t分布随机邻域嵌入、tSNE)。第五章建立在有监督机器学习模型的基础上,通过对基因组学数据衍生的疾病亚型的案例研究进行了说明。数据预处理的标准步骤(转换、过滤、缩放和处理缺失值)之后是交叉验证和引导的概念。还包括参数调整、类不平衡和处理相关预测因子的其他详细信息。在模型方面,给出了决策树和随机森林与逻辑回归的对比。还提到了梯度增强、支持向量机、集成学习以及神经网络和深度学习的简要细节。
本书的第三部分重点介绍处理高吞吐量数据集的方法。在第6章中,作者概述了R中GenomicRanges包的功能;还讨论了总结表达和可视化输出的方法(核型图和电路图)。
RNAseq概述涵盖第7章和第8章;对于前者,重点在于质量检查、预处理和对齐读取;在概述了fastq和fasta格式之后,讨论了评估读取质量的方法(质量分数、核苷酸组成)。除了绘制参考基因组/转录组上的读取值的备选方案外,还包括读取过滤和修剪选项。在第8章中,作者概述了量化基因表达、标准化和差异表达评估的标准步骤。本章以浓缩分析和其他方法结束,以说明计量中的变化。
表观遗传高通量实验在第9章和第10章中进行了讨论(分别对应于ChIPseq和亚硫酸氢盐测序)。第9章首先介绍了蛋白质/DNA相互作用和实验偏差的来源(抗体特异性、PCR扩增、测序深度)。接下来,介绍了预处理和质量控制步骤,重点是偏倚副作用(在基因组浏览器中可视化,并量化为跨链互相关和GC偏倚)。还包括了调用窄峰和宽峰的方法,以及通过基序发现进行的后续生物学解释。第10章详细介绍了亚硫酸氢盐测序的实验特点。甲基化文件(和调用)的特殊性先于差异甲基化和分段的管道。
这本书的最后一章是关于集成多个高通量数据集(例如,提出了一个来自结直肠癌的多组学数据集)。综述了用于多经济体集成的潜在变量模型,然后总结了用于无监督集成的矩阵分解方法;多因素分析和联合非负矩阵分解的理论方面得到了iCluster方法的详细支持。进一步扩展了无监督方法,概述了单热点聚类,并举例说明了这种情况下的k-means聚类。本章最后提出了潜在因素的生物学解释(负载载体评估、富集分析和额外协变量的作用)。
所有章节都包括练习,以加强对示例和案例研究提出的概念。这本书用参考文献进行了全面的装饰,向广大读者推荐,使之成为新手和经验丰富的用户的良好起点。

MSC公司:

92-02 与生物学有关的研究博览会(专著、调查文章)
92D10型 遗传学和表观遗传学
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部