×

下一代测序数据的统计分析。 (英语) Zbl 1296.92001号

概率与统计科学的前沿查姆:施普林格(ISBN 978-3-319-07211-1/hbk;978-3-3169-07212-8/电子书)。xiv,432页。(2014).
本书汇集了20章,介绍了为分析下一代测序(NGS)数据而开发的最新算法(截至2014年)。
书开始了(苏西米塔·达塔,索姆纳特·达塔,瑞安·吉尔,Riten Mitra公司,“下一代测序数据的统计分析:概述”,第1-24页),概述了常用测序技术及其各种应用。本章从DNA的描述开始,DNA被视为测序的单位,接着介绍了文库准备、扩增、标记和测序的步骤。接下来,回顾下游应用,包括从头组装和表达量化。下一节将详细介绍NGS平台的输入和输出,如SOLiD、Illumina/Selexa、Ion Semiconductor和单分子实时测序。随后概述了用于处理数据质量和再现性测试的读取结果的统计工具,用于基础调用和对齐以及组装工具,最后总结了一些可用于数据处理的R和Bioconductor包。
第二章(苏西米塔·达塔,瑞安·S·吉尔,道格拉斯·洛伦兹,Ritendranath密特拉,“使用RNA-seq数据检测差异表达基因”,第25-49页),重点关注一种NGS,即RNA-seque,并在简要介绍归一化方法后,回顾了为识别差异表达(DE)基因而开发的方法。首先,提出了简单的方法,如似然比检验(LRT)、Fisher精确检验或最大似然估计(MLE)的(t)-检验,以及使用它们的R/生物导体软件包,如DEGseq。接下来,回顾了基于泊松分布扩展的测试。详细讨论了两阶段泊松模型(TSPM)或基于经验贝叶斯概率无差分和无过分散的自适应直方图估计的方法。本节最后介绍了基于负二项分布的拟似然检验、其他非参数方法,如改进的Wilcoxon检验或马尔可夫随机场方法以及贝叶斯和经验贝叶斯方法。以下章节专门介绍RNAseq数据中DE的R包概述,包括GPseq、DEGseq、edgeR、SAMseq、BBseq和BaySeq的详细信息。本章最后对已发表的综述或使用作者自己的数据检测DE的这些方法进行了比较。各种研究中所述的结论强调,这些方法试图控制错误发现率和I型错误,但仍然无法很好地处理由数据可变性和缺乏更多重复产生的已知问题。
第三章(陈云顺,亚伦·T·L·伦,戈登·斯迈思,“使用edgeR进行复杂RNA-seq实验的差异表达分析”,第51–74页)介绍了edgeR的基本细节。它从负二项模型的使用开始,详细讨论了计数矩阵中基因丰度的总结,这是区分技术变异和生物变异的一种方法,并说明了如何使用广义线性模型来适应具有多个解释因素的复杂实验设计。下一节重点介绍经验贝叶斯离差的估计。给出了Cox-Reid调整后的轮廓似然,然后是加权似然经验贝叶斯方法。本章最后对IRF4的转录程序调控进行了案例研究。详细介绍了实验设计和所有中间步骤(基因组比对、基因表达估计、筛选、归一化、数据探索和DE分析)。
第四章(安德烈亚·里布勒,马克·D·罗宾逊,马克·范·德维尔《使用集成嵌套拉普拉斯近似(INLA)分析下一代测序数据》,第75–91页)提出了一种使用集成嵌套拉普拉斯近似及其相应的R包R-INLA分析NGS数据的方法。本章首先介绍了潜在高斯模型中贝叶斯推断确定性框架的理论背景,然后描述了r-inla包中的主要功能。接下来,作者展示了如何将INLA与经验贝叶斯相结合,并介绍了贝叶斯多元收缩。本章最后证明了多元收缩可以改善给定FDR下的特征选择,并以淋巴母细胞系的RNAseq分析为例进行了研究。
第五章(丹·内特尔顿《下一代测序数据的统计分析》,第93–113页)讨论了RNAseq实验的设计策略,旨在提高实验的生物相关性。作者首先概述了复制策略,然后讨论了排序深度和复制次数之间的权衡。本章最后给出了三个应用于生物问题的实验设计示例:四种处理的实验、裂区实验和平衡不完全区组设计。
第六章(莱昂纳多·科拉多·托雷斯,艾丽莎·弗雷泽,安德鲁·贾菲,本·兰美德,杰弗里·T·里克,“RNA-sequencing中的测量、总结和方法学变化”,第115-128页)以基因表达水平为中心,讨论了RNA-seq数据中固有变化的测量和总结问题。作者首先对后者进行分析,将其分为跨组变异、测量误差和生物变异。然后详细讨论了每个来源。作者继续总结方法的可变性;讨论了剪接和非剪接亚型之间的区别,并介绍了基因组匹配读取的特征摘要等变化。接下来,对统计测试提供的不同答案进行了讨论,本章最后列出了一些悬而未决的问题。
第七章(彼得·比克尔,内森·博利,詹姆斯·本特利·布朗,黄海燕,郝雄,“DE-FPCA:通过功能主成分分析测试基因差异表达和外显子用法”,第129–143页),致力于另一种基于功能主成分的识别DE基因和可变外显子使用的方法。作者首先介绍了该方法的理论背景,然后以Illumina IIx和HiSeq2000上成对测序的苍蝇头部样本为例。在这个例子中,作者还讨论了该方法的鲁棒性。
在第八章中(胡一娟,孙伟(音译)《利用RNA-seq数据进行表达数量性状位点的定位》,第145-168页),作者讨论了数量性状位点(QTL)读数的定位,重点是等位基因特异表达(ASE)和异构体特异表达(ISE)。本章从ASE问题开始,详细讨论了单倍型定相、序列定位偏差和预期的等位基因特异性读取计数(ASReC)。接下来,介绍了顺-eQTL定位的ASE,接下来是异构体特异性qQTL的定位,包括转录组重建和有效长度的计算。本章最后讨论了质量控制、可能的非遗传因素的影响以及基因表达的遗传结构。
第九章(桑德琳·杜多特,约翰·恩盖,大卫·里索,Terence P.速度,“尖峰标准在RNA-seq标准化中的作用”,第169-190页)从标准化的角度讨论了差异表达。作者详细介绍了基于峰值的归一化作为非常可变的读取计数的潜在解决方案。该方法在斑马鱼数据集上进行了描述。本章首先概述了归一化方法,包括全局尺度归一化、非线性归一化和基于控制序列丰度的归一化。接下来,介绍了一个将导致DE的通用框架,以及相应的R包:affy、DEseq、EDAseq、edgeR和RUVseq。然后在数据集上展示了该方法的效率,并详细讨论了规范化对DE调用的影响。
第十章(刘鹏,亚庆寺,《RNA-sequence数据的聚类分析》,第191–217页)介绍了适应RNA-seq数据特征的聚类分析。在描述了用于RNAseq数据建模的两个离散分布泊松和负二项分布之后,作者回顾了标准的相异性度量和方法,如\(k \)均值和层次聚类、MB-EM和混合层次聚类,并对其进行了详细讨论。本章最后通过一系列案例研究对方法和实施细节进行了比较。
第十一章(阿什利·彼得森,Kean Ming Tan先生,丹妮拉·维滕,《RNA-seq数据分类》,第219-246页)讨论了RNAseq背景下的分类问题。它包括对常用分类方法的描述,如线性回归、低维和高维线性判别分析、主成分分类、用于分类的偏最小二乘和支持向量机(SVM)。然后简要介绍了归一化方法及其对分类的影响。本章最后对分类方法进行了评估,并对前列腺癌和宫颈癌进行了一系列案例研究。
在第十二章(李洪哲,“基于RNA-seq数据的异构体表达分析”,第247-259页),作者研究了使用RNA-seque数据对异构体进行量化。本章以一节开始,该节基于已知异构体的假设,其中包括考虑非均匀采样的方法以及同时发现和定量异构体的方法。本章最后一节介绍了等位基因特异性转录定量。
第十三章(朱莉娅·萨尔兹曼,《通过拟合优度诊断发现RNA亚型》,第261-276页),重点介绍了通过拟合优值诊断发现RNA异构体。在介绍了生物学和统计学背景之后,作者介绍了泊松模型框架,并讨论了允许不匹配时的异构体检测。接下来,介绍了通过采样率矩阵进行模型选择,并详细讨论了对准质量建模、残差分析和不匹配检测。
第十四章(钟东军,苏恩杜斯·凯莱什,张琪(音译),“MOSAiCS-HMM:一种基于模型的方法,用于从ChIP-Seq数据中检测组蛋白修饰区域”,第277–295页)介绍了一种新型的NGS数据,即ChIPseq和一种用于检测组蛋白修改区域的基于模型的方法。在介绍了ChIPseq实验统计分析的典型工作流程之后,作者提出了MOSAiCS-HMM模型及其参数估计。本章以GM12878细胞中H3K4me3谱分析的案例研究结束。
第十五章(Riten Mitra公司,彼得·米勒,“ChIP-seq数据的分层贝叶斯模型”,第297–314页)也介绍了ChIPseq数据的层次贝叶斯模式。作者首先使用图形模型描述条件独立结构,然后使用双聚类方法来理解组蛋白代码。该案例研究包括ChIPseq数据联合聚类的生物学示例。
第十六章(Kui Zhang(张奎),德贵之,“下一代测序数据中的基因型调用和单倍型阶段化”,第315-333页)讨论了基因型调用与单倍型的阶段化。在描述了总体流水线分析和引入基本符号之后,作者继续讨论了单位点基因型的可能性。其次,提出了多样本调用,并详细介绍了联合似然、最大似然估计、非参考等位基因数估计和变异检测。下一节将介绍HMM模型HapSeq的多站点多采样方法。
第十七章(若飞渡,致德坊,“宏基因组数据分析”,第335–353页)侧重于宏基因组数据的分析。从宏基因组研究的简要概述开始,作者接下来介绍了对这类数据进行的一些统计分析。详细描述了样本量的充分性、元基因组装箱和准确性评估。接下来介绍了调整结果曲线以进行比较的方法,例如,β二项式方法、过度分散的逻辑回归方法、过度离散的对数线性回归方法和非参数t检验。
第十八章(文卡特拉曼·塞珊,“使用DNA测序检测拷贝数变化和结构重排”,第355-378页),重点关注拷贝数变化与结构重排的检测。提出的方法是循环二值分割,并以乳腺癌细胞株HCC1143为例说明了该方法的应用。
第十九章(陈梦洁,林厚,赵红玉,“分析配对肿瘤正常样本下一代测序数据的统计方法”,第379–404页),回顾了分析配对数据(例如肿瘤正常样本)的统计方法。对于单核苷酸畸变的检测,提出了启发式方法和基于贝叶斯框架的统计方法。拷贝数畸变的检测与GC含量和可映射性问题有关。以seqCBS和BICseq为例,说明了基于变点检测方法的CAN识别。然后在TCGA基准数据集的案例研究中讨论了这些方法。
第二十章(德巴希斯·戈什,桑托什·吉里拉扬,“稀有变种分析中的统计考虑”,第405-422页)讨论了使用内核机器方法对稀有变种的分析。在描述了理论背景之后,作者讨论了SKAT示例和多重测试的好处。
这本书是一本关于可应用于NGS数据的统计方法的有价值且适时的文章集。即使不需要先前的NGS知识,这本书主要面向研究生和博士后水平的研究人员。

MSC公司:

92-01 与生物学有关的介绍性说明(教科书、辅导论文等)
92-02 与生物学有关的研究博览会(专著、调查文章)
92-06 与生物学有关的会议记录、会议、收藏等
92-08 生物学相关问题的计算方法
92C40型 生物化学、分子生物学
第92天20分 蛋白质序列,DNA序列
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部