阿卡林,阿尔图纳 [佛兰德·弗兰克;博拉·乌亚尔;乔纳森·罗宁] 在Verdan Franke、Bora Uyar和Jonathan Ronen的协助下,使用R.进行计算基因组学。 (英语) Zbl 1482.92002年 查普曼和霍尔/CRC计算生物学系列佛罗里达州博卡拉顿:CRC出版社(ISBN 978-1-4987-8185-5/hbk;978-0-367-63460-5/pbk;988-0-429-08431-7/电子书)。第二十二章,第440页。(2021). 这本书涵盖了构成现代基因组学分析基础的一系列基本概念。这本书分为11章,分为三个语义部分:基因组学概述和R简介,在给定的背景下,机器学习方法概述,以及RNAseq、表观遗传学和多组学管道的分析步骤说明。这本书从两章开始,第一章是关于基因组学概念,第二章是关于R作为编程环境。前者概述了分子生物学的中心法则,强调了基因组、基因、转录和转录后调控等关键概念。还介绍了用于量化各种模式的高通量实验方法。后一章首先概述了数据分析步骤以及支持使用R作为分析环境的论点。介绍了数据结构和数据类型、数据输入和输出(包括可视化方法)等基本概念。本书的第二部分着重于统计学和机器学习方法;它分为三章。第三章概述了用于评估样本(分布)之间差异的统计检验。总结方法,如平均值、中位数、变异、置信区间,以t-检验和多重检验修正的细节为依据;还包括线性模型和相关性。在第四章中,作者重点讨论了无监督学习,并详细介绍了聚类方法(距离度量、层次聚类和k均值聚类)和降维方法(主成分分析、多维尺度和t分布随机邻域嵌入、tSNE)。第五章建立在有监督机器学习模型的基础上,通过对基因组学数据衍生的疾病亚型的案例研究进行了说明。数据预处理的标准步骤(转换、过滤、缩放和处理缺失值)之后是交叉验证和引导的概念。还包括参数调整、类不平衡和处理相关预测因子的其他详细信息。在模型方面,给出了与逻辑回归相比的决策树和随机森林。还提到了梯度增强、支持向量机、集成学习以及神经网络和深度学习的简要细节。本书的第三部分重点介绍了处理高吞吐量数据集的方法。在第6章中,作者概述了R中GenomicRanges包的功能;还讨论了总结表达和可视化输出的方法(核型图和电路图)。RNAseq概述涵盖第7章和第8章;对于前者,重点在于质量检查、预处理和对齐读数;在概述了fastq和fasta格式之后,讨论了评估读取质量的方法(质量分数、核苷酸组成)。除了绘制参考基因组/转录组上的读取值的备选方案外,还包括读取过滤和修剪选项。在第8章中,作者概述了量化基因表达、标准化和差异表达评估的标准步骤。本章以浓缩分析和其他方法结束,以说明计量中的变化。表观遗传高通量实验在第9章和第10章中进行了讨论(分别对应于ChIPseq和亚硫酸氢盐测序)。第9章首先介绍了蛋白质/DNA相互作用和实验偏差的来源(抗体特异性、PCR扩增、测序深度)。接下来,介绍预处理和质量控制步骤,重点关注偏差副作用(在基因组浏览器中可视化,并量化为跨品牌互相关和GC偏差)。还包括了调用窄峰和宽峰的方法,以及通过基序发现进行的后续生物学解释。第10章详细介绍了亚硫酸氢盐测序的实验特点。甲基化文件(和调用)的特殊性先于差异甲基化和分段的管道。这本书的最后一章是关于集成多个高通量数据集(例如,提出了一个来自结直肠癌的多组学数据集)。综述了用于多经济体集成的潜在变量模型,然后总结了用于无监督集成的矩阵分解方法;多因素分析和联合非负矩阵分解的理论方面得到了iCluster方法的详细支持。进一步扩展了无监督方法,概述了单热点聚类,并举例说明了这种情况下的k-means聚类。本章最后提出了潜在因素的生物学解释(负载载体评估、富集分析和额外协变量的作用)。所有章节都包括练习,以加强对示例和案例研究提出的概念。这本书充满了参考资料,向广大读者推荐,这对新手和有经验的用户来说都是一个很好的起点。审核人:Irina Ioana Mohorianu(牛津) MSC公司: 92-02 与生物学有关的研究博览会(专著、调查文章) 92D10型 遗传学和表观遗传学 62页第10页 统计学在生物学和医学中的应用;元分析 关键词:基因组学;中心教条;规则;高通量测序;数据分析;可视化;对;ggplot图;统计学;中心趋势;传播;估计;多次测试修正;回归,回归;无监督机器学习;群集;降维;预测建模;监督机器学习;数据预处理;交叉验证;决策树;随机森林;逻辑回归;基因组算法;fastq/fasta格式;读取处理;RNA序列;差异基因表达;ChIPseq分析;基因组浏览器的可视化;高峰通话;亚硫酸氢盐测序数据;多组学分析;利用潜在因素进行聚类 软件:gmapR(gmapR);奥丁;Gviz公司;HISAT公司;系统管道R;基因组比对;基因组学;牛基因组;量规;QuasR公司;compGenomR数据;KEGG公司;生物技术经理;MAnorm公司;潮韵诗;intePareto公司;基因组学范围;俾斯麦;平息;DALEX公司;正常值;ShortRead(短阅读);勒波蒂;iClusterPlus;关贸总公司;STAR公司;顶帽;TFBS工具;甲基寻求者;rGADEM公司;业务连续性;甲基试剂盒;蝴蝶结2;JASPAR公司;AS 136标准;奥古斯塔斯;GISTIC2.0标准;Rqc(质量控制);ggplot2;Rtsne公司;情势图;鲑鱼;铬HMM;快速质量控制;Trimmomatic公司;XGBoost公司;泰美;R工作室;SMOTE公司;Rsamtools软件;特别行政区;剪影;事实矿工;对;ggbio公司;Trim Galore公司;rGREAT公司;石油价格比;CRAN(起重机);生物导体;边缘R PDF格式BibTeX公司 XML格式引用 \textit{A.Akalin},《计算基因组学与R.》,在Verdan Franke、Bora Uyar和Jonathan Ronen的协助下。佛罗里达州博卡拉顿:CRC出版社(2021;Zbl 1482.92002) 全文: DOI程序