摘要

下一代测序技术正迅速成为表征和量化整个基因组的首选方法。尽管从这些技术产生的数据被证明是迄今为止信息最丰富的,但很少有人关注数据收集和分析的基本设计方面,即采样、随机化、复制和分块。我们在RNA测序框架中讨论这些概念。通过模拟,我们展示了根据划分生物和技术变异来源的众所周知的统计设计收集复制RNA测序数据的好处。为了测试微分表达式,给出了这些设计及其相应模型的示例。

新基因测序(NGS)已成为遗传学、基因组学和表观基因组学的革命性工具。与其他测序技术相比,通过提高吞吐量和降低成本(海登2009),NGS使各种现象的全基因组研究成为可能,包括单核苷酸多态性(克雷格 . 2008),后生事件(公园2009),拷贝号变体(阿尔坎 2009年),微分表达式(布鲁姆 2009年),以及可选拼接(苏丹 . 2008). 一个应用程序比以前的技术具有显著的有效性[例如,微阵列和基因表达序列分析(SAGE)]称为RNA测序(RNA-Seq)(科洛南 2009年). RNA-Seq使用NGS技术对转录物群体进行排序、绘制地图和量化(莫塔扎维 . 2008;莫洛佐娃 2009年). 虽然RNA-Seq是一种相对较新的方法,但它已经对包括酵母在内的多种生物体的转录复杂性提供了前所未有的见解(那加拉克什米 . 2008),只老鼠(莫塔扎维 . 2008),拟南芥(埃夫兰德 . 2008)、和人类(苏丹 . 2008).

目前,有三种广泛接受的商用NGS设备[Illumina的基因组分析仪、Applied Biosystems(加利福尼亚州福斯特城)SOLiD和454基因组测序器FLX]用于RNA-Seq(科洛南 . 2008;埃夫兰德 . 2008;马里奥尼 . 2008). 跨平台的RNA-Seq方法大致相同。简单地说,RNA是从细胞中分离出来的,在随机位置进行片段化,然后复制到互补DNA(cDNA)中。符合一定尺寸规格的碎片(例如,200–300个碱基长)保留,以便使用聚合酶链反应(PCR)进行扩增。扩增后,使用NGS对cDNA进行测序;结果读取与参考基因组对齐,并将映射到参考中每个基因的测序读取数制成表格。这些基因计数或数字基因表达(DGE)测量值可以转换并用于测试差异表达(参见莫洛佐娃 2009年用于RNA-Seq的这些技术的审查)。

尽管在这个实验过程中有许多步骤可能会引入错误和偏见,但RNA-Seq被誉为转录组研究的未来(申杜尔2008)因为它可能产生无限的动态范围,提供比微阵列更高的灵敏度,能够区分紧密同源的区域,并且不需要先验的关于表达式区域的假设(科洛南 2009年;莫洛佐娃 2009年). 随着研究从微阵列过渡到基于序列的方法,我们必须重新审视统计界在微阵列时代开始时所关注的许多问题(克尔丘吉尔2001年a).

在引入微阵列后不久(舍纳 . 1995),发表了一系列文章,阐明了正确实验设计的必要性(克尔 . 2000; . 2000;克尔丘吉尔2001年a,b条;丘吉尔2002). 所有这些文章都在很大程度上依赖于R.A.Fisher形式化的声音实验设计的三个基本方面(费希尔1935a年)70年前,即复制、随机化和阻塞。通过考虑以下旨在测试两种不同饮食有效性的受控实验,可以理解这些概念。一个好的实验设计将包括许多不同的科目(,复制)从多个减肥中心招募(.,阻塞)。每个中心将随机将其受试者分配到两种饮食中的一种(,随机化)。

虽然良好设计的原则是直截了当的,但它们的正确实施通常需要大量的规划和统计专业知识。迄今为止,许多NGS应用程序,特别是RNA-Seq,忽视了良好的设计。虽然一些RNA-Seq研究报告了高度重复性的结果,但几乎没有技术差异(例如,马里奥尼 . 2008;莫塔扎维 . 2008)在缺乏适当设计的情况下,基本上不可能将生物变异与技术变异分开。当这两种变化来源混淆时,无法知道是哪种来源驱动了观测结果。再复杂的统计数据也无法区分混淆的因素之后数据已经收集。

一般来说,对于差异表达分析,研究人员对以对比或成对比较的形式在治疗组之间进行比较感兴趣,并且这些分析的设计通常非常简单。NGS技术的好消息是,可以利用平台的某些特性来确保适当的设计。所有三个NGS设备中都有一个这样的功能,那就是条形码容量。基因组片段可以用样本特异性序列进行标记或条形码,从而允许在同一测序反应中包含多个样本(.,多路复用),同时保持下游样本身份的高保真性(克雷格 . 2008;哈马迪 . 2008;http://www3.appliedbiosystems.com/). 迄今为止,条形码仅被视为增加每次测序运行的样本数量的一种手段。然而,在这里,我们演示了如何将多路复用用作一种质量控制功能,以提供构建平衡和分块设计的灵活性,从而测试差异表达式。

我们预计,一旦NGS技术的全面提供得到认可,从目前未复制的无障碍设计到更复杂的设计将迅速发展。为此,我们简要回顾了在各种设计下测试差异表达的一些强大统计技术。虽然所提出的设计是针对使用Illumina(Solexa)平台的RNA-Seq的,但同样的统计原则也适用于其他NGS设备以及其他类型的比较遗传和“组学”数据。

复制

未复制数据:

没有生物复制的观察研究在RNA-Seq文献中很常见(例如,马里奥尼 . 2008). 在观察性研究中,与对照实验相反,受试者分配到治疗组的问题不是由研究人员决定的。在许多情况下,不同的治疗组由不同的组织类型组成。例如,在马里奥尼 . (2008)信使核糖核酸(信使核糖核酸)从肝脏和肾脏组织中分离,随机片段化,并使用Illumina基因组分析仪(GA)进行测序。Illumina技术(又名“Solexa”)依赖于一个具有八个通道或通道的流动细胞,并通过合成进行大规模平行测序,以同时对每个通道中的数百万个短DNA片段进行测序。通常,将mRNA的独立样本加载到流动细胞的不同通道中,以便在样本之间独立发生测序反应。为了便于说明,考虑一个包含七名受试者和七个治疗组的示例(T型1,…,T型7)其中每个受试者被随机分配到一个治疗组,每个受试对象的mRNA被加载到不同的通道中(图1). 注意,没有生物复制,因为每个治疗组只有一个受试者。

从七个不同治疗组的受试者分离出mRNA的假想Illumina GA流细胞$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\userpackage{amants}\uspackage{amsmath}\pagestyle{empty}\begin{document}\((T_{1},{ldots},}T_{7})\)\end{document}$并加载到单个通道中(例如,来自治疗组1中受试者的mRNA在通道1中测序)。作为控制,$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\usebackage{amasfonts}\userpackage{amsmath}\pagestyle{empty}\begin{document}\({\Phi}X\)\end{document}$genomic样本通常被加载到通道5中。噬菌体$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\usebackage{amasfonts}\userpackage{amsmath}\pagestyle{empty}\begin{document}\({\Phi}X\)\end{document}$基因组是准确已知的,可以用于重新校准其他通道测序读取的质量评分(Bentley等人,2008)。
1.—

从七个不同治疗组的受试者中分离出mRNA的假想Illumina GA流细胞

\((T_{1},{\ldots},}T_{7})
并加载到各个车道(例如第1组中受试者的mRNA在第1通道中测序。作为控制
\({\Phi}X\)
基因组样品通常被装载到泳道5中。噬菌体
\({\Phi}X\)
基因组是精确已知的,可以用于重新校准其他通道测序读取的质量评分(宾利(Bentley) 等。2008).

要分析未重复设计的数据,必须考虑采样层次。无论设计如何,我们都可以在RNA-Seq数据中定义三个工作采样级别:受试者采样、RNA采样和片段采样。受试者(例如,生物体或个体)是从更大的人群中提取的理想方法,研究结果可以推广到其中(未复制的数据由每个治疗组中的单个受试者组成)。当从细胞中分离出RNA时,在实验过程中进行RNA取样。最后,只保留从细胞中取样的某些片段RNA进行扩增,并且由于测序读数并不代表加载到流动细胞中的100%片段,因此片段级取样也在发挥作用。

未复制数据仅考虑每个治疗组的单个受试者。通常有一个受试者进行每种治疗(例如,英寸马里奥尼 . 2008,从一具尸体或每个治疗组中的一名不同受试者身上提取肝脏和肾脏样本(例如,图1). 在任何一种情况下,都不可能估计治疗组内的变异性,并且分析必须在没有任何关于组内生物变异的信息的情况下进行。因此,在RNA-Seq的背景下,发现组间差异的统计方法仅限于RNA和片段级采样信息。

由于RNA-Seq的采样方案与SAGE相似(维库列斯库 . 1995)已经建立了大量的统计文献来分析未复制的SAGE数据的差异DGE测量,类似的方法也可以用于未复制的RNA-Seq数据。请参见男人 . (2000),罗穆阿尔迪 .(2001年)、和Ruijter公司 . (2002)用于技术和蒂诺(2009)供进一步讨论。对于RNA-Seq和SAGE数据,分析通常是在逐基因的基础上进行的,将数据组织在一个2×2的表格中(表1). 对于未复制病例的差异表达,最自然的测试可能是Fisher精确测试(费希尔1935年b),它固定了2×2表的边际总和,并使用假设测试差异表达

表1

用于检测治疗组间差异表达的(无重复)数字基因表达(DGE)测量的2×2列联表1和治疗2基因A的




治疗1

治疗2

总计
基因A
\(n{11}\)
\(n_{12}\)
\(N_{1.}\)
剩余基因
\(n{21}\)
\(n_{22}\)
\(N_{2.}\)
总计
\(N_{.1}\)

\(N_{.2}\)

\(N_{..}\)




治疗1

治疗2

总计
基因A
\(n{11}\)
\(n{12}\)
\(N_{1.}\)
剩余基因
\(n{21}\)
\(n{22}\)
\(N_{2.}\)
总计
\(N_{.1}\)

\(N_{.2}\)

\(N_{..}\)

细胞计数

\(n{ki}\)
代表基因A的DGE计数(k个=1) 或者剩下的基因(k=2) 用于治疗,= 1, 2. 这个
\(k\mathrm{th}\)
表示边缘行合计
\(N_{k.}\)
,
\(N_{.i}\)
是列的边际合计、和
\(N_{..}\)
是总计。

表1

用于检测治疗组间差异表达的(无重复)数字基因表达(DGE)测量的2×2列联表1和治疗2基因A的




治疗1

治疗2

总计
基因A
\(n{11}\)
\(n{12}\)
\(N_{1.}\)
剩余基因
\(n{21}\)
\(n{22}\)
\(N_{2.}\)
总计
\(N_{.1}\)

\(N_{.2}\)

\(N_{..}\)




治疗1

治疗2

总计
基因A
\(n{11}\)
\(n{12}\)
\(N_{1.}\)
剩余基因
\(n{21}\)
\(n{22}\)
\(N_{2.}\)
总计
\(N_{.1}\)

\(N_{.2}\)

\(N_{..}\)

细胞计数

\(n{ki}\)
代表基因A的DGE计数(k=1) 或其他基因(k个=2) 用于治疗,= 1, 2. 这个
\(k\mathrm{th}\)
表示边缘行合计
\(N_{k.}\)
,
\(N_{.i}\)
是列的边际合计、和
\(N_{..}\)
是总计。

\[\mathrm(马特姆){高}_{0}:{\,}\mathrm{{\theta}}{=}1{\,{vs{高}_{\mathrm{A}}:{\,}\mathrm{{\theta}}{\neq}1,\]
(1)
哪里
\[\mathrm{{θ}}{=}\frac{\mathrm{{\pi}}_{11}\mathrm{{\pi}}_{22}}
以及在哪里
\(\mathrm{{pi}}{ki}\)
是细胞计数的真实比例
\(k,{\,}i{\,{(k{=}1,{\
假设每个转录本都是分离出来的,并且测序良好。表1我们可以考虑N个1白球和N个2骨灰缸里的黑球。如果我们抽签N个.1我们可能会问,“至少观察到不太可能的结果的概率是多少?”
\(n{11}\)
白球?”如果这种可能性(.、P(P)-Fisher精确测试值)很小,那么柱分类影响了从瓮中提取。在我们的应用中,基因A在治疗组和对照组之间有差异表达1和治疗2.一种计算双面的方法P(P)-值是所有概率小于或等于观察表概率的2×2表的概率之和,其中2×2表格的概率(例如,表1)是
\[P{=}\frac{N_{1.}!N_{2.}!N_{.1}!M_{.2}!}{N_}..}!{\tilde{N}}_{11}
(2)
哪里
\({\波浪线{n}}{ki}\)
表示的观测值
\(n_{ki}\)
注意,有几种计算双面的方法P(P)-Fisher精确测试值(阿格雷斯蒂2002).图2说明了Fisher精确测试在两个治疗组之间测试RNA-Seq数据集中每个基因差异表达的行为。值得记住的是,随着表达值降至零,Fisher的精确测试变得更加保守,这一点与表达值较小的基因也表现出较大的变异性这一事实相一致。与RNA-Seq数据相关的这一现象在布鲁姆 . (2009)。使用的方法卡尔 . (1999)(两个二项式比例相等的测试)和奥迪克拉弗里(1997)也可以使用(具有泊松似然和平均值平坦先验的贝叶斯模型),尽管这些方法与费希尔精确检验的其他方法进行了比较(男人 . 2000;罗穆阿尔迪 2001年;鲁伊特 . 2002)表现出边际差异。
在治疗1和治疗2之间,标准化基因表达的log2倍变化绘制在y轴上,平均log2表达绘制在x轴上。基因表达计数通过相应的2×2表(如表1)的列总数进行标准化。蓝色圆点表示通过Fisher精确测试确定的显著差异表达基因;灰色圆点表示具有类似表达的基因。零处的红色水平线可目视检查对称性。
2.—

日志2治疗之间的折叠变化1和治疗2,标准化基因表达的-轴和平均对数2表达式绘制在x个-轴。基因表达计数通过相应的2×2表格的列总数进行标准化(例如.,表1). 蓝色圆点表示通过Fisher精确测试确定的显著差异表达基因;灰色圆点表示具有类似表达的基因。零处的红色水平线可目视检查对称性。

未复制数据的限制:

概括从未复制数据中收集的结果的基本问题是完全缺乏关于生物变异的知识。作为费希尔(1935a)注意到,没有对可变性进行估计(.,在治疗组内),没有推断的依据(在治疗组之间)。虽然我们可以从未复制的数据中测试治疗组之间的差异表达,但分析结果仅适用于研究中的特定受试者(.,结果无法推广)。为了更好地理解从未复制数据中得出的不切实际的结论,假设一个外星人访问地球时只观察到两个人,一个叫“约翰”的男性站着177厘米,一个叫做“简”的女性站着180厘米。同样的理由是,根据未复制的数据测试不同治疗组之间的差异表达,得出了不切实际的结论,这将迫使外星人不仅相信约翰比简矮,而且相信女性平均比男性高。

复制的数据:

考虑扩展中所示的示例图1(,七个治疗组,每个治疗组一名受试者),在每个治疗组中再包括两名生物受试者(图3). 生物复制可用于评估治疗组内(生物)变异性,提供进行治疗组间推论所需的信息,并得出可推广的结论。

基于七个治疗组中三个生物复制的多流细胞设计。有三个流动池,每个流动池有八条车道。控件$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\userpackage{amsfonts}\usepackage{amsmath}\pagestyle{empty}\begin{document}\({\Phi}X\)\end{document}$sample位于每个流单元的通道5中。Tij引用$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\usebackage{amasfonts}\userpackage{amsmath}\pagestyle{empty}\begin{document}\(j\mathrm{th}\)\end{document}$复制在$\bachmode\tocumentclass[fleqn,10pt,legapper]{article}\ usepackage{amssynb}\use package{amssfonts}\ usebackage{amasfonts}\uspackage}\pagestyle{empty}\begin{document}\(i\mathrm{th}\)\end{document}$处理组$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\usebackage{amasfonts}\uspackage{amsmath}\pagestyle}\empty{开始{documentent}\结束{document}$。
3.—

基于七个治疗组中三个生物复制的多流细胞设计。有三个流动池,每个流动池有八条车道。控件

\({\Phi}X\)
样品位于每个流动池的通道5中。T型ij公司指的是
\(j\mathrm{th}\)
在中复制
\(i\mathrm{th}\)
治疗组
\((i{=}1,{\ldots},{\,}7;j{=}1,{\ ldots{,{,}3)\)
.

将组内(或治疗中)变异性纳入差异表达测试的简单方法依赖于具有过度分散性的广义线性模型(GLM)。该模型与 . (2005)考虑全基因泊松GLM。如果
\(Y_{ijk}\)
表示的DGE度量
\(j\mathrm{th}\)
复制
\(((j{=}1,{\ldots},{\,}j)\)
在中
\(i\mathrm{th}\)
治疗组
\(((i{=}1,{\ldots},{\,}i)\)
基因的k个、和
\(c{ij}\)
表示从
\(j\mathrm{th}\)
在中复制
\(i\mathrm{th}\)
治疗组(例如,
\(c{ij}{=}{\sum}_{k} Y(Y)_{ijk}\)
),然后我们可以建模
\(Y_{ijk}\)
作为一个
\(\mathrm{Poisson}(\mathrm{{mu}}_{ijk})
随机变量,其中
\(\mathrm{{\mu}}{ijk}{=}\mathrm{{\lambda}}_{ijk}c_{ij}\)
\(\mathrm{{lambda}}{ijk}\)
代表基因表达的标准化水平k个在中
\(j\mathrm{th}\)
的复制第个治疗组。(马里奥尼 . 2008). 在此示例中,包含
\(c{ij}\)
该术语相当于按每条车道的读取总数进行标准化,这是RNA-Seq中的一种常见做法(莫塔扎维 . 2008). 以下模型分别适用于k个基因,
\[\mathrm{log}{\,}\mathrm{{\mu}}{{ijk}{-}\mathr{log}}{\
(3)
哪里
\(\mathrm{{alpha}}{k}\)
是基因治疗的平均标准化表达水平k个
\(\mathrm{{tau}}{ik}\)
\(i\mathrm{th}\)
基因表达总平均归一化水平的处理k个.基因差异表达k个治疗组之间
\(i)
和治疗组
\(i{^\质数}\)
通过以下假设进行测试:
\[\mathrm公司{H}_{0}:\mathrm{{tau}}{ik}{=}\mathrm{{tau}}{i{^prime}k}{\,}与{\{高}_{\mathrm{A}}:\mathrm{{tau}}_{ik}{neq}\mathrm-{{tau}}_i{^prime}k}.\]
(4)
简单的泊松GLM假设
\(\mathrm{方差}(Y_{ijk})
当这个假设成立时,可以通过比较似然比检验统计量(LRT)和
\(\mathrm{{chi}}_{1}^{2}\)
分布,轻轨采用这种形式
\[\mathrm{LRT}{\,}\mathrm{{=}}{\
(5)
\(\mathrm{{\hat{{mu}}}{ijk}\)
是的最大似然估计(MLE)
\(\mathrm{{mu}}{ijk}\)
(在替代假设下)而
\(\mathrm{{\颚化符{{\mu}}}{ijk}\)
是的MLE
\(\mathrm{{mu}}{ijk}\)
在下面
\(\mathrm){高}_{0}\)
如果个体之间存在任何超出泊松抽样预期的治疗组内变异性,则需要假设泊松GLM[.,那个
\(\mathrm{方差}(Y_{ijk})
将无法保持。事实上,如果(5)中的LRT用于评估(4)中的假设,当假设被违反时,它通常会导致夸大的I类错误率。为了将I型误差保持在适当的水平,我们需要估计一个离散参数
\(\mathrm{{\phi}}\)
,其中
\(\mathrm{{\phi}}{=}\mathrm{Var}(Y{ijk})/E(Y_{ijk})\)
(如果
\(\mathrm{{\phi}}{>}1\)
数据被称为“过度分散”;在更罕见的情况下,
\(\mathrm{{\phi}}{<}1\)
数据“分散不足”)。估计
\(\mathrm{{\phi}}\)
在中建议远方(2006)Tjur公司(1998)
\[\mathrm{{\hat{{\phi}}}{=}\frac{{\sum}{i,j}(y{ijk}{-}\mathrm{{hat{\mu}}}}{ijk})^{2}/\mathrm2{-}点},\]
(6)
哪里是观测的总数第页是模型(3)中估计参数的数量(在我们的例子中,每个治疗有三个重复,
\(m{=}3{\次}7\)
第页=7). 两者远方(2006)Tjur公司(1998)认为当存在过度分散时,应通过将以下测试统计数据与
\(F{\mathrm{d}.\mathrm2{F}.{1}\mathrm{{=}1,d}.\tathrm{F}.{2}{=}m{-}点}\)
分发:
\[\frac{\mathrm{LRT}}{\mathrm{{\hat{{\phi}}}}
(7)
此方法与中描述的方法类似巴格利 . (2004)其中,过度分散的logistic回归模型适合SAGE数据以测试差异表达。也可以考虑SAGE文献中的其他方法;例如,维恩西奥 . (2004)采用贝叶斯方法,采用贝塔-二项式模型计算课堂内的变异性。蒂格森兹温德曼(2006)使用带有Gamma-Prior的泊松模型,试图同时对所有基因进行建模。罗宾逊史密斯(2007,2008)纳入慢化检验统计方法(史密斯2004)引入负二项模型,以解释类内和跨基因变异。他们的方法在edgeR包中提供(罗宾逊 . 2010)来自Bioconductor(绅士 . 2004).

平衡块设计

如果没有仔细的规划,一个畅通的设计将面临一个基本的问题,即推广结果的可能性。关于RNA-Seq分析,如果治疗效果与可能的混杂因素不可分离,那么对于任何给定的基因,无法知道治疗组之间观察到的丰度差异是由于生物学还是技术原因(例如扩增或测序偏差)。例如,在图3所有重复的治疗1在通道1和所有重复治疗中进行排序2在2号车道上排序。治疗之间的表达差异1和治疗2与可能在流动细胞中持续存在的泳道效应相混淆。事实上,一旦收集到数据,就无法将车道造成的影响与真正的治疗差异造成的影响分开。

在RNA-Seq数据中,每个基因的设计都是相同的,尽管不同的基因有不同的方差,并且可能会受到不同的错误和偏差的影响。当然,存在影响大多数基因的变异源,这些变异源当然应该整合到设计中。然而,为了确保对所有基因进行稳健的分析,只影响少数基因的变异源也应纳入设计中(例如基于PCR-的GC偏差可能只影响一小部分转录片段;因此,如果可能,PCR批次应纳入设计)。因此,我们研究了可能导致RNA-Seq数据中效应混淆的两个主要变异源(超出前面解释的采样层次),即“批效应”和“车道效应”。批效应包括RNA随机碎片化后出现的任何错误,直到其被输入流池(例如PCR扩增和反转录伪影)。车道效应包括从样本输入到流动池的点到测序机输出数据之间发生的任何错误(例如,系统错误的排序周期和基调用错误)。

在之前的研究中都观察到了批次效应和车道效应。PCR扩增和反转录伪影在两者中都不可忽略巴尔维耶兹 . (2009)切佩列夫 . (2009).切佩列夫 . (2009)也观察到系统性的不良测序周期,以及罗杰蒙特 .(2008年)讨论了Solexa平台中存在的基本呼叫错误。尽管马里奥尼 . (2008)发现车道间的变异通常遵循泊松抽样过程,他们确实观察到了数量不可忽略的基因的显著更多变异(顺序为

\(10^{2}\)
).

多路复用平衡块:

为了消除批处理或通道效应引起的混淆,请考虑这样的情况:所有RNA样本汇集到同一批中,然后在流动细胞的一个通道中测序。这将确保所有样品的任何批次效应都是相同的,并且由于测序反应包含在一条通道中,因此所有样品因通道产生的所有效应都是一样的。虽然这确实是一种理想的情况,但可以通过在片段化后立即对RNA进行条形码来实现。一旦将条形码附加到随机片段上,就可以通过逆转录、大小选择和扩增步骤将样本汇集在一起并进行处理。通常,每条车道专用于对一个样本进行排序,因此样本数量等于车道数

\(L{\,}(m{=}L)\)
为了与典型布局相比不损失排序深度,
\(米\)
通过放大步骤,可以将总的条形码样本汇集在一起并进行处理。放大产物可以分为
\(L)
等分。然后,将每个零件输入流单元的不同车道。通过将每个独特的(,条形码)样品至相同的实验条件(,同一车道上的同一批次),形成“平衡块”。

值得注意的是,如果L(左)车道与在车道上运行每个样本相比,不会损失测序深度。图4显示了此设计与将样本与批次和车道混淆的典型设计的比较。

比较两种设计以测试处理A和B之间的差异表达。处理A用红色调表示,处理B用蓝色调表示。在理想的平衡块设计(左)中,六个示例$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\userpackage{amsfonts}\usebackage{amath}\pagestyle{empty}\begin{document}\((m{=}6)\)\end{document}$进行条形码编码、池化并一起处理。然后将池分成六个相等的部分,输入到流单元的六个通道$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\userpackage{amsfonts}\usebackage{amath}\pagestyle{empty}\begin{document}\((L{=}6)\)\end{document}$。平衡块设计中的条形码导致每个样本的六个技术副本$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\userpackage{amsfonts}\usebackage{amath}\pagestyle{empty}\begin{document}\((T{=}6)\)\end{document}$,同时平衡批处理和通道效果以及通道上的阻塞。平衡块设计还允许将批处理和车道效应与组内生物变异性分开。混淆设计(右)代表一个典型的RNA-Seq实验,由相同的六个样本组成,没有条形码,并且不允许从组内生物变异性的估计中划分批次和车道效应。
4.—

比较两种设计以测试处理A和B之间的差异表达。处理A用红色调表示,处理B用蓝色调表示。在理想的平衡块设计(左)中,有六个样品

\((m{=}6)\)
条形码、池和一起处理。然后将泳池分成六个相等的部分,输入六条车道
\((L{=}6)\)
流动池的。平衡块设计中的条形码在六次技术复制中产生结果
\((T{=}6)\)
同时平衡批次和车道效应以及车道阻塞。平衡块设计还允许将批处理和车道效应与组内生物变异性分开。混淆设计(右)代表一个典型的RNA-Seq实验,由相同的六个样本组成,没有条形码,并且不允许从组内生物变异性的估计中划分批次和车道效应。

平衡不完全块设计和无多路复用的块:

尽管先前的平衡块设计便于说明,但在现实中,资源、技术限制和正在研究的科学假设将决定治疗的数量

\(一)
,每个处理的生物复制次数
\((J)\)
,唯一条形码的数量
\(个)\
可以包含在单个车道中,以及可用于排序的车道数
\((L)\)
.当一条车道上的唯一条形码数量小于处理数量时
\(即{\,}s{<}i)
,一个完整的块设计(图4)不可能。在这些情况下,我们建议使用平衡不完全块设计(BIBD)。如果
\(T\)
是每个生物复制可能的技术复制的总数,那么BIBD(根据我们的分批阻断和多路传输通道的方案)满足
\(T{=}sL/JI\)
(Oehlert公司2000). 对于有三种治疗方法的情况
\((I{=}3)\)
,每个治疗组中的单个受试者
\((J{=}1)\)
,能够包含2个唯一的条形码
\({=}2)\)
一条车道内,以及三条可用于排序的车道
\((L{=}3)\)
(目前,Illumina在一条车道上发布12种不同的条形码广告;http://www.illumina.com/documents/products/datasheets/datasheet_sequeencing_multiplex.pdf),BIBD,如所示图5是可能的。其他BIBD的详细列表见费希尔耶茨(1963)科克伦考克斯(1957).

三个治疗组(T1、T2、T3)的平衡不完全区组设计(BIBD),每个治疗组(T11、T21、T31)一名受试者,每个治疗小组两个技术复制品(T111、T112、T211、T212、T311、T312)。片段化后,将三个样本中的每一个进行条形码编码并一分为二(例如,T11将被拆分为T111和T112),然后如图所示进行合并和测序(例如,T111与T212合并作为泳道1的输入)。
5.—

三个治疗组的平衡不完全区组设计(BIBD)(T型1,T型2,T型)每个治疗组一名受试者(T型11, T型21,T型31)以及每种产品的两个技术副本(T型111,T型112, T型211,T型212, T型311,T型312). 破碎后,三个样本中的每个样本都进行条形码编码并分为两个(例如.,T型11会被分成T型111T型112)然后按照图示进行汇总和排序(例如.,T型111T型212作为车道1的输入)。

显然,多路复用有助于生成技术复制,这些复制可以有效地阻断车道和批量效应,从而减少混淆。然而,重要的是要理解,技术复制不能替代独立的生物复制,并且对于足够数量的生物复制来说,某些设计可以将车道和/或流动细胞作为阻塞因素。为了说明这种灵活性图3可以重新安排为块是流动单元的平衡完整块设计和块是车道的平衡不完整块设计(图6).

该设计基于七个治疗组中的三个生物复制。对于这三个流单元中的每一个,每个流单元都有八个通道,并且在通道5中有一个控件($\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\usebackage{amsfonts}\userpackage{amath}\pagestyle{empty}\begin{document}\({Phi}X\)\end{document}$)示例。Tij引用$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\usebackage{amasfonts}\userpackage{amsmath}\pagestyle{empty}\begin{document}\(j\mathrm{th}\)\end{document}$复制在$\bachmode\tocumentclass[fleqn,10pt,legapper]{article}\ usepackage{amssynb}\use package{amssfonts}\ usebackage{amasfonts}\uspackage}\pagestyle{empty}\begin{document}\(i\mathrm{th}\)\end{document}$处理组$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\usebackage{amasfonts}\uspackage{amsmath}\pagestyle}\empty{开始{documentent}\结束{document}$。在这种设计中,流动单元形成平衡的完整块,车道形成平衡的不完整块。
6-

该设计基于七个治疗组中的三个生物复制。对于三个流动单元中的每一个,每个流动单元都有八条通道和一个控件(

\({\Phi}X\)
)在车道5中取样。T型ij公司指的是
\(j\mathrm{th}\)
在中复制
\(i\mathrm{th}\)
治疗组
\((i{=}1,{\ldots},{\,}7;j{=}1,{\ ldots{,{,}3)\)
在本设计中,流动单元形成平衡完整块,车道形成平衡不完整块。

分析平衡块设计:

(3)中的广义线性模型可以扩展到包括已知的阻塞因子。考虑图6其中,车道和流动单元都会形成块。此设计的模型为
\[\mathrm{log}{\,}\mathrm{{\mu}}{{ijkfl}{-}\mathrm{log{\,,}c{ij}{=}\mathm{{alpha}}{k}{+}\mathr m{{tau}}{ik}{+{mathrm{{upsilon}}{fk}{+}\mathrem{{{omega}}{lk},\]
(8)
哪里
\(\mathrm{{upsilon}}{fk}\)
\(f\mathrm{th}\)
流细胞对基因表达的平均归一化水平k个,以及类似的
\(\mathrm{{omega}}{lk}\)
\(l\mathrm{th}\)
lane论基因表达的平均归一化水平k个该模型可以在基因对基因的基础上进行拟合,隐式假设基因对基因块的相互作用[如果不愿意做出这种假设,则可以很容易地修改模型(8),以同时拟合所有基因,从而估计可在全基因模型(3)中用作补偿的全局阻塞因子]。请注意,模型(8)分离了车道效应和流细胞效应(.,技术变异)。测试治疗组之间差异表达的假设
\(i)
和治疗
\(i{^\质数}\)
如(4)所示,以及色散参数
\((\mathrm{{\phi}})\)
估计为
\[\mathrm{{\hat{{\phi}}}{=}\frac{{\sum}{i,j,f,l}{-}点},\]
(9)
哪里=21和第页=15,轻轨为
\[\mathrm{LRT}\mathrm{{=}}2{{sum}_{i,j,f,l}}y_{ijkfl}\mathrm{log}(\frac{\mathrm2{{\hat{\mu}}}}{ijkfl}}{\mathr{{\tilde{\mu{}}}}}{)
(10)
这个如果-测试差异表达的统计数据就是(10)中的LRT除以
\(\mathrm{{\hat{{\phi}}})
如(9)所估计。在无差异表达的无效假设下如果-统计数据大致分布为
\(F_{1,米{-}p}\)
随机变量。

通过技术复制分析平衡块设计:

考虑平衡块设计图4.让

\(Y_{ijkt}\)
代表的DGE度量
\(t\mathrm{th}\)
技术复制品
\((t{=}1,{\,}{\ldots},{\,}6)\)
\(j\mathrm{th}\)
生物复制
\(((j{=}1,{\,}{\ldots},{\、}3)\)
在中
\(i\mathrm{th}\)
治疗组
\(((i{=}1,{\,}{\ldots},{\、}2)\)
基因的k个.然后
\(Y_{ijk.}{=}{\sum}_{t} Y(Y)_{ijkt}\)
\(Y_{ijk.}\)
可以像以前一样使用
\(\mathrm{Poisson}(\mathrm{{mu}}_{ijk})
随机变量,其中
\(\mathrm{{\mu}}{ijk}{=}\mathrm{{\lambda}}_{ijk}c_{ij}\)
\(\mathrm{{lambda}}{ijk}\)
代表基因表达的标准化水平
\(k\)
在中
\(j\mathrm{th}\)
的复制
\(i \mathrm{th}\)
治疗组(抵消项
\(c{ij}\)
不再表示每条车道的读取总数,而是表示
\(j\mathrm{th}\)
复制
\(i\mathrm{th}\)
治疗组通过技术复制进行总结,
\(c{ij}{=}{\sum}_{k,t}Y_{ijkt}\)
). 模型、假设、估计和测试程序与(3-7)中的相同
\(y{ijk.}\)
更换
\(y{ijk}\)
.此分析策略不包括车道作为阻塞因素;因此,车道效应没有从治疗组内变异性的估计值中划分出来(因为只使用了一个批次,所以从残差中去除了批次间的变异,并且模型中不需要包括批次效应)。然而,由于车道效应在各治疗组之间是平衡的,因此消除了混淆车道效应的可能性。为了从治疗组内变异性的估计中准确地划分车道效应,重复测量GLM(见远方2006)过度分散是必要的。据我们所知,这种范式中的假设检验目前存在问题,也是未来研究的重点。

模拟

为了评估所提出的多路复用设计的有效性,我们比较了一种生物学上无重复的无阻塞设计(图7A),一种具有技术复制的生物无复制平衡块设计(,多路复用;图7B),一种生物复制(三重)的无阻塞设计(图7C)以及通过多路复用技术复制的生物复制(三重)平衡块设计(图7D)在实验环境中测试治疗1之间的差异表达

\((T_{1})\)
和治疗2
\((T_{2})\)
。对各治疗组的基因计数进行了模拟,并对每种设计的假阳性率(1−特异性)和真阳性率(敏感性)进行了比较。

在模拟研究中,对处理$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\usepackage{amsfonts}\usebackage{amsmath}\pagestyle{empty}\begin{document}\(T_{1}\)\end{document}$和$\bachmode\documclass[fleqn,10-pt,lega\usepackage{amsfonts}\usepackage{amsmath}\pagestyle{empty}\begin{document}\(T_{2}\)\end{document}$。设计A是一个生物学上无重复的非重复开放设计,治疗组为$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\userpackage{amsfonts}\uspackage{amsmath}\pagestyle{empty}\begin{document}\(T_{1}(T_{11})\)\end{document}$和治疗组$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\userpackage{amsfonts}\usebackage{amath}\pagestyle{empty}\begin{document}\(T_{2}(T_{21})\)\end{document}$的一名受试者。设计B是一个生物学上没有重复的平衡块设计,它使用$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\userpackage{amasfonts}\usebackage{amsmath}\pagestyle{empty}\begin{document}\(T_{11}\)\end{document}$split(条形码)分成两个技术副本$\bachmode\documclass[fleqn,10-pt,leaglpaper]{article}\ usepackage{amssymb}\ usepackage{amsfonts}\ usepackage{amsmath}\pagestyle{empty}\beggin{document}\(T_{111},{\,}T_{112})\)\ end{document}$和$\batchmode\documentclass[fleqn,10pt,legalpar]{article}\ usepackage{amssymb}\ usepackage{amsfonts}\ usepackage{amsmath}\pagestyle{empty}\beggin{document}\(T_{21}\)\ end$分为两个技术复制$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\ usepackage{amssymb}\ usepackage{amsfonts}\ usepackage{amsmath}\ pagestyle{empty}\ begin{document}\((T_{211},{\,}T_{212})\)\ end{document}$,并输入到通道1和2。设计C是一个生物复制的无阻塞设计,由来自治疗组$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\usepackage{amsfonts}\usebackage{amsmath}\pagestyle{empty}\begin{document}\(T_{1}(T_{11},{,}T_{12},}\,}T_{13})\)\end{document}的三名受试者组成$和来自治疗组$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\userpackage{amsfonts}\usebackage{amath}\pagestyle{empty}\begin{document}\(T_{2}(T_{21},{,}T_{22},},T_{23})\end{document}$的三名受试者。设计D是一种生物复制的平衡块设计,每个主题(例如,$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\usepackage{amsfonts}\userpackage{amsmath}\pagestyle{empty}\begin{document}\(T_{11}\)\end{document}$)分割(条形码)分为六个技术副本(例如,$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\userpackage{amsfonts}\usebackage{amath}\pagestyle{empt}\begin{document}\(T_{111},{ldots},}T_{116}\)\end{document}$),并输入到六个通道。
7.—

在治疗的模拟研究中比较了四种设计(A–D)

\(T_{1}\)
\(T_{2}\)
设计A是一个生物无重复的无障碍设计,治疗组只有一个受试者
\(T_{1}(T_{11})\)
治疗组1名受试者
\(T_{2}(T_{21})\)
设计B是一种生物上无重复的平衡块设计
\(T_{11}\)
将(条形码)分成两份技术副本
\((T_{111},{\,}T_{112})\)
\(T_{21}\)
分成两个技术副本
\((T_{211},{\,}T_{212})\)
并输入车道1和2。C设计是一种生物复制的无阻塞设计,有三名受试者来自治疗组
\(T_{1}(T_{11},{\,}T_{12},}\,}T_{13})
和治疗组的三名受试者
\(T_{2}(T_{21},{\,}T_{22},}T_{23})
设计D是一个生物复制的平衡块设计,每个主题(例如.,
\(T_{11}\)
)将(条形码)分成六份技术副本(例如.,
\(T_{111},{\ldots},}T_{116})
)并输入到六条车道。

数据模拟:

我们将读取总数固定为c(c)=3000000和治疗组的平均采样率
\(T_{1}(表示)
在四个不同的值
\((10^{{-}2},{\,}10^{{-}3},{\,}10^{{-}4},{\,}10^{{-}5})\)
,对应于以下顺序的基因计数
\(10^{4}\)
,
\(10^{3}\)
,
\(10^{2}\)
、和
\(10^{1}\)
分别为
\(例如,{\,}c{\次}10^{{-}5}{=}30)\)
.我们改变了平均值
\(\mathrm{日志}_{2}\)
折叠变化(LFC)
\(T_{1}\)
\(T_{2}\)
从−3到3,增量为0.25。治疗组
\(T_{2}\)
采样率计算为
\[\mathrm{{lambda}}{2}{=}2^{\mathrm{日志}_{2} (\mathrm{{lambda}}_{1}){-}\mathrm{LFC}}
(11)
基因计数
\(Y_{1j}\)
\(Y_{2j}\)
根据泊松抽样
\((c\mathrm{{lambda}}{1})
和泊松
\((c\mathrm{{lambda}}{2})
分布,分别
\({[}Y{1j}{\sim}\mathrm{Poisson}(c\mathrm{{lambda}}{1})
。为了评估使用过分散泊松GLM建模的有效性,我们将高斯噪声添加到每个基因计数中,四舍五入到最接近的整数:
\开始{eqnarray*}&&Y{^\prime}{ij}{=}Y{ij{+}{[}\mathrm{{varepsilon}}{j}{]}&\mathrm{{\psi}}{=}5、{\、}10、{\,}15、{\和}100\\&v{=}\frac{c\mathrm{{\lambda}}{1}{+}c\mathrm{{lambda{}}{2}{2{。\结束{eqnarray*}
考虑了四种不同的模拟设置:批量效应和车道效应[模拟(S)1]、批量效应和无车道效应(S2)、无批量效应和车道效应(S3)、无批量效应和无车道效应(S4)。通过在每个有噪声的基因计数中添加高斯噪声来模拟批量效应
\((Y{^\质数}_{ij})\)
并舍入到最接近的整数:
\[Y{^{素数\素数}}{ij}{=}Y{^素数}{ij}{+}{[}\mathrm{{varepsilon}}{j}^{Y{^\素数{{ij{}{]},{\,}\mathr{{varesilon}}{j},}^\素数}_{ij}}{10})
在设置S3和S4中未考虑噪音(.,用于设置S3和S4,
\(Y{^\素数}_{ij}{=}Y{^{\prime\prime}}_{ij}\)
). 车道效应通过泊松采样进行模拟
\(Y{^{\prime\prime}}_{1j}\)
\(Y{^{\prime\prime}}_{2j}\)
不同车道之间的速度不同:
\开始{eqnarray*}&{\tilde{Y}}_{ij}{\sim}\mathrm{Poisson}(Y{^{\prime\prime}}_{ij}\mathrm{{\delta}}_{j}{\sim}\mathrm{Discrete{\,}均匀{\sim}0.65,{\,}0.8,{\,}0.95 \mathrm{\}}}。\结束{eqnarray*}
对于无车道效应的设置(S2和S4),泊松采样率保持不变(
\(\mathrm{{delta}}{j}{=}0.8\)
). 自设计B和D(图7)包括技术复制,我们在每个生物复制中的基因计数没有深度损失的情况下分配了各自的采样率。

对于设计A(图7)我们使用Fisher精确检验(1)测试差异表达,将2×2表格的两列总计设置为3000000。对于设计B(图7)我们用技术复制模型拟合平衡块设计。我们将抵消项设置为c(c),而且由于这种设计没有任何生物复制品(,J型=1),我们没有估计离散度。将似然比与

\(\mathrm{{chi}}_{1}^{2}\)
分配。对于设计C,我们将模型(3)与c(c)作为偏移量,如(6)所示估计离散度,并使用如果-(7)中描述的测试。对于设计D,我们采用了平衡块设计,该设计承认技术复制c(c)作为偏移量。

我们在每个设置(S1–S4)下运行了10000个模拟

\(\mathrm{{lambda}}{1}\)
\(马瑟姆{\psi}})
.假阳性率(,I型错误率)计算为当LFC为零时,基因被宣布差异表达的时间比例。真阳性率(,统计功率)计算为当LFC不为零时,确定基因在正确方向上差异表达的时间比例。

结果:

接收机工作特性(ROC)曲线提供了一种比较假阳性率和真阳性率的有用方法。使用ROC曲线,真阳性率通常绘制在垂直轴上,假阳性率绘制在水平轴上。通过固定假阳性率(I类错误率)并对比相应的真阳性率(统计能力),可以比较得出的曲线。如果一条ROC曲线总是高于另一条,这表明它在将基因分类为差异表达基因方面具有优势。对角线表示使用完全随机猜测将基因分类为差异表达的性能(例如,猜测差异表达90%的时间会产生90%的真阳性和假阳性率)。

当治疗组的生物变异性不容忽视时,具有独立复制特征的设计(设计C和D)表现出比未复制设计(设计A和B)更好的性能(图8;支持信息,图S1图S2)跨仿真设置(S1–S4)。即使治疗组内的生物变异性很小(图S3),复制的设计仍然优于未复制的设计。

组内可变性设置$\batchmode\documentclass[fleqn,10pt,legalpaper]{article}\usepackage{amssymb}\userpackage{amsfonts}\usebackage{amath}\pagestyle{empty}\begin{document}\(\mathrm{{\psi}}{=}5\)\end{document}$的ROC曲线。x轴表示假阳性率,y轴表示真阳性率。图表的四个面板显示了四种模拟设置中每种设置的结果。未阻塞的未复制设计(A)的ROC曲线为红色实线,未阻塞的未复制设计(B)为红色虚线,未阻塞的复制设计(C)为蓝色实线,未阻塞的复制设计(D)为蓝色虚线。复制的设计总是优于未复制的设计,并且无论何时出现批量效应或车道效应,阻塞的设计都优于未阻塞的设计。
8.—

组内可变性设置的ROC曲线

\(\mathrm{{\psi}}{=}5\)
. Thex个-轴表示假阳性率-轴表示真阳性率。图表的四个面板显示了四种模拟设置中每种设置的结果。未阻塞的未复制设计(A)的ROC曲线为纯红色,阻塞的未重复设计(B)为点红色,未阻塞的复制设计(C)为纯蓝色,而阻塞的复制设(D)为点蓝色。复制的设计总是优于未复制的设计,并且无论何时出现批量效应或车道效应,阻塞的设计都优于未阻塞的设计。

评估哪种设计支持四种不同抽样率中每一种的典型0.05假阳性率

\((\mathrm{{lambda}}{1}{=}10^{{-}2},{\,}10^{{-}3},{\,}10^{{-}4},{\,}10^{{-}5})\)
,我们计算了一个基因被宣布差异表达的次数比例(使用P(P)-值截断0.05),当LFC为零时(表2;
\(\mathrm{{\psi}}{=}5\)
). 复制的设计(C和D)在整个模拟设置中保持了标称显著性水平(0.05),证明了具有独立复制和分析(估计组内变异性)的设计对批量效应、车道效应和噪声外变异性具有鲁棒性。无重复设计(A和B)的估计假阳性率在所有模拟设置下都会受到影响,特别是对于表达值较大的基因。尽管假阳性率随着批次效应和车道效应的消除而略有下降,但在没有批次效应或车道效应的情况下,I型错误率仍比表达水平最低的基因的标称显著性水平高出4至5倍(
\(\mathrm{{lambda}}{1}{=}10^{{-}5}\)
).

表2

设计A–D的假阳性率(在0.05标称水平下),考虑以下四种设置

\(\mathrm{{lambda}}{1}(10^{{-}2},{\,}10^{{-}3},{\,}10^{{-}4},{\,}10^{{-}5})\)
和四种模拟设置[批量效应和车道效应(S1)、批量效应和无车道效应(S2)、无批量效应和有车道效应(S3)、没有批量效应和没有车道效应(S4)]




模拟设置
采样率
\((\mathrm{{lambda}}{1})\)

设计
S1(第一阶段)
S2系列
第3章
第4页
\(10^{{-}2}\)
A类0.96550.95480.96300.9508
B类0.95240.95210.94960.9498
C类0.04940.04990.04850.0480
D类0.04760.04630.04820.0487
\(10^{{-}3}\)
A类0.87890.85950.87440.8434
B类0.84560.84790.84310.8481
C类0.04770.04800.05320.0499
D类0.05060.04910.04720.0489
\(10^{{-}4}\)
A类0.65210.58730.63250.5527
B类0.55510.56220.55830.5677
C类0.05220.05050.05270.0516
D类0.05380.05290.05220.0532
\(10^{{-}5}\)
A类0.26620.22990.24910.2111
B类0.24070.24520.24580.2411
C类0.04820.05240.05030.0461

D类
0.0488
0.0460
0.0494
0.0477



模拟设置
采样率
\((\mathrm{\lambda}}_{1})\)

设计
S1(第一阶段)
S2系列
第3章
第4页
\(10^{{-}2}\)
A类0.96550.95480.96300.9508
B类0.95240.95210.94960.9498
C类0.04940.04990.04850.0480
D类0.04760.04630.04820.0487
\(10^{{-}3}\)
A类0.87890.85950.87440.8434
B类0.84560.84790.84310.8481
C类0.04770.04800.05320.0499
D类0.05060.04910.04720.0489
\(10^{{-}4}\)
A类0.65210.58730.63250.5527
B类0.55510.56220.55830.5677
C类0.05220.05050.05270.0516
D类0.05380.05290.05220.0532
\(10^{{-}5}\)
A类0.26620.22990.24910.2111
B类0.24070.24520.24580.2411
C类0.04820.05240.05030.0461

D类
0.0488
0.0460
0.0494
0.0477
表2

设计A–D的假阳性率(在0.05标称水平下),考虑以下四种设置

\(\mathrm{{lambda}}{1}(10^{{-}2},{\,}10^{{-}3},{\,}10^{{-}4},{\,}10^{{-}5})\)
和四种模拟设置[批量效应和车道效应(S1)、批量效应和无车道效应(S2)、无批量效应和有车道效应(S3)、没有批量效应和没有车道效应(S4)]




模拟设置
采样率
\((\mathrm{{lambda}}{1})\)

设计
S1(第一阶段)
S2系列
第3章
第4页
\(10^{{-}2}\)
A类0.96550.95480.96300.9508
B类0.95240.95210.94960.9498
C类0.04940.04990.04850.0480
D类0.04760.04630.04820.0487
\(10^{{-}3}\)
A类0.87890.85950.87440.8434
B类0.84560.84790.84310.8481
C类0.04770.04800.05320.0499
D类0.05060.04910.04720.0489
\(10^{{-}4}\)
A类0.65210.58730.63250.5527
B类0.55510.56220.55830.5677
C类0.05220.05050.05270.0516
D类0.05380.05290.05220.0532
\(10)^{{-}5}\)
A类0.26620.22990.24910.2111
B类0.24070.24520.24580.2411
C类0.04820.05240.05030.0461

D类
0.0488
0.0460
0.0494
0.0477



模拟设置
采样率
\((\mathrm{{lambda}}{1})\)

设计
S1(第一阶段)
S2系列
第3章
第4页
\(10^{{-}2}\)
A类0.96550.95480.96300.9508
B类0.95240.95210.94960.9498
C类0.04940.04990.04850.0480
D类0.04760.04630.04820.0487
\(10^{{-}3}\)
A类0.87890.85950.87440.8434
B类0.84560.84790.84310.8481
C类0.04770.04800.05320.0499
D类0.05060.04910.04720.0489
\(10^{{-}4}\)
A类0.65210.58730.63250.5527
B类0.55510.56220.55830.5677
C类0.05220.05050.05270.0516
D类0.05380.05290.05220.0532
\(10^{{-}5}\)
A类0.26620.22990.24910.2111
B类0.24070.24520.24580.2411
C类0.04820.05240.05030.0461

D类
0.0488
0.0460
0.0494
0.0477

有趣的是,在假阳性率方面,被阻断的设计并没有优于未阻断的设计(表2). 然而,在模拟设置中,无论何时出现批次或车道效应,阻塞设计的真实阳性率都明显高于未阻塞设计。我们推测这一结果有两个原因。首先,模块化设计都包含在同一批次中,这样就消除了批次间的偏差。第二,尽管我们没有将车道作为一个阻碍因素,但车道效应在两个治疗组的每个生物复制中都是平衡的,从而减少了车道效应过度影响一个治疗组并产生误导性结果的可能性(,混淆)。通过包括车道上的块的统计模型来划分由于车道引起的变化,可以通过减少残差来进一步增强被阻塞设计的性能。

讨论

费希尔(1935a)是对的。复制、随机化和分块是任何精心规划和正确分析的设计的基本组成部分。RNA-Seq设计和分析也不例外。幸运的是,NGS平台的当前格式和属性很好地支持了随机化和分块的概念。然而,生物复制的决定仍然掌握在科学家手中。

我们撰写本文的目的是证明变异性(取决于生物体、实验室技术和调查中的生物因素)可能比预期的更大,如果估计不当,将对任何研究结果产生负面影响。这种变异性与生物受试者之间的总体变异性大小呈正相关,可以通过使用统计模型进行处理,该模型不仅适用于治疗组内生物变异性的估计,而且还忠实于标称显著性水平。毫无疑问,确保结果再现性和准确性的最佳方法是包括独立的生物复制品(技术复制品不能替代),并确认预期的干扰因素(例如、车道、批次和流细胞效果)。

对于复制和非复制场景,建议的平衡块设计从NGS平台设计和复用中受益。这些设计在功率和I型错误方面与未阻塞的同类设计一样好(如果不是更好的话),并且在存在批量和/或车道效应时要好得多。当然,意识到不可能确定是否存在批次和/或车道效应先验的,我们建议使用块设计来保护观察到的差异,这些差异可归因于这些潜在的变化源。由于我们了解与块设计相关的费用和多路复用的问题,因此我们提供了一些替代方案。当然,如果有足够的生物复制和测序通道,允许设计阻塞通道和/或流动细胞,就可以避免多路复用(参见图6). 然而,如果资源有限(,一个流动细胞),多路复用提供了一种替代方案,至少消除了混淆效应的可能性。撇开复用和阻塞不谈,底线是一样的:来自未复制数据的结果不能推广到测试样本之外(这里是微分表达式)。

尽管好的设计的好处远远超过任何缺点,但我们预计会有人反对与成本、测序深度损失和条形码偏差有关的多路复用设计。为了缓解这些担忧,我们提供了一些保证。首先,尽管增加的成本可能是一个问题,但与RNA测序所需的总时间和资源相比,增加的成本和时间可以忽略不计。其次,可能还有其他担心,即多路复用将导致测序深度的整体损失。只有当错误识别了足够多的条形码,从而影响了每个基因的读取计数时,这才是有问题的。最近,菲利普 . (2009)据估计,在Illumina平台上,一个20碱基的转录标签包含一个或多个测序错误的概率为0.0048。将此作为条形码包含一个或多个排序错误(条形码长度为6个碱基)的概率上限,在一条有1000万可用排序读取和10个不同抄本的车道上,错误的条形码将导致每个抄本的读取计数平均损失最多4.8次读取。第三,虽然多路复用可能存在技术问题,例如样本覆盖不均匀或条形码附近的基本调用中存在偏差,但只要每个样本中覆盖不均匀的问题是一致的,考虑到车道和样本特定覆盖的规范化方案可以纠正这一问题(例如将每个基因数除以样本覆盖率或车道覆盖率)。如果条形码对所有样本的影响都相同,那么与条形码相关的读取偏差就没有问题。具体来说,只要问题在样本内一致,适当的归一化方案将对偏差具有鲁棒性。

这里介绍的设计原则适用于涉及跨样本定量比较的各种应用,并且可以在应用于RNA-Seq的每个NGS平台上实施。然而,对于其他应用程序(例如、ChIP Seq和拷贝数变异研究等)在描述设计的具体细节之前,必须制定一个明确定义的统计模型,充分说明变异的来源。

脚注

脚注

通讯编辑:L.M。麦克Intyre公司

致谢

我们感谢匿名评审员的全面和发人深省的评审。我们还感谢Andrea Rau对手稿的有益评论,感谢Scott Jackson、Rob Martienssen及其各自的实验室提供丰富的测序数据和生物信息。这项工作得到了国家科学基金会植物基因组赠款(DBI-0733857)的支持,该赠款部分用于R.W.D。

工具书类

阿格雷斯蒂、A.、。,

2002
 分类数据分析第2版。新泽西州霍博肯威利。

阿尔坎、C.、J.M。基德,T。马尔克斯-发动机盖,G。阿克塞,F。安冬娜琪 等。,

2009
使用下一代测序技术的个性化拷贝数和分段重复地图。
自然遗传学。
 
41
: 
1061
–1067.

奥迪、S.和J。克拉弗里,

1997
数字基因表达谱的重要性。
基因组研究。
 
7
: 
986
–995.

巴格利、英国、洛杉矶。、J.S。莫里斯和C.M。奥尔达兹,

2004
SAGE的过度分散逻辑回归:建模多组和协变量。
BMC生物信息学
 
5
: 
144
.

巴尔维耶兹、P.J.、P。卡尼奇,首席执行官。涂抹、J。卡瓦伊,年。Hayashizaki公司 等。,

2009
分析深度测序表达数据的方法:利用深度CAGE数据构建人和小鼠启动子组。
基因组生物学。
 
10
: 
79兰特
.

宾利(Bentley)、D.R.、S。巴拉苏布拉曼尼亚语,高压。维尔德洛、G.P。史密斯、J。米尔顿 等。,

2008
使用可逆终止剂化学进行精确的全人类基因组测序。
性质
 
456
: 
53
–59.

布鲁姆、J.S.、Z。可汗,L。克鲁格利亚克,M。辛格和A.A。科迪,

2009
通过简短测序测量差异基因表达:与双通道基因表达微阵列的定量比较。
BMC基因组学
 
10
: 
221
.

切佩列夫、I.、G。世界环境学会,问。和K。,

2009
使用RNA-Seq检测人类基因组表达外显子中的单核苷酸变异。
核酸研究。
 
37
: 
e106(电子106)
.

丘吉尔总经理。,

2002
cDNA微阵列实验设计基础。
自然遗传学。
 
32
: 
490
–495.

科洛南、N.、A.R.R。福雷斯特,G。科尔,文学学士。加德纳、G.J。福克纳 等。,

2008
通过大规模mRNA测序进行干细胞转录组分析。
自然方法
 
5
: 
613
–619.

科洛南、N.、Q。、G.J。福克纳、D.F。泰勒、T.P。 等。,

2009
RNA-MATE:高通量RNA测序数据的递归映射策略。
生物信息学
 
25
: 
2615
–2616。

科克伦、W.G.和G.M。考克斯,

1957
 实验设计。纽约威利。

克雷格、D.W.、J.V。皮尔逊、S。斯林格,答:。谢卡尔,M。雷德曼 等。,

2008
使用条形码多重测序鉴定遗传变异。
自然方法
 
5
: 
887
–893.

埃夫兰德、A.L.、D.R。麦克卡蒂和K.E。科赫,

2008
通过3′-非翻译区测序进行转录谱分析可解决基因家族的表达。
植物生理学。
 
146
: 
32
–44.

远方、J.J.、。,

2006
 用R扩展线性模型。查普曼和霍尔,佛罗里达州博卡拉顿。

费希尔,R.A。,

1935
实验设计。第2版。爱丁堡Oliver&Boyd出版社。

费希尔、R.A.、。,

1935
b归纳推理的逻辑。
J.R.统计社会。
 
98
: 
39
–82.

费希尔、R.A.和F。耶茨,

1963
 生物、农业和医学研究统计表第6版。爱丁堡Oliver&Boyd出版社。

绅士、R.C.、V.J。凯里,博士。贝茨、B。博尔斯塔德,M。德特兰 等。,

2004
生物导体:用于计算生物学和生物信息学的开放软件开发。
基因组生物学
 
5
: 
80兰特
.

哈马迪、M.、J.J。散步的人、J.K。哈里斯,新泽西州。黄金和R。骑士,

2008
用于多重测序数百个样本的纠错条形码引物。
自然方法
 
5
: 
235
–237.

海登、电气控制、。,

2009
基因组测序:第三代。
性质
 
457
: 
769
.

卡尔、A.J.和A.J。厢式货车 拉维尔德,V。贝内斯,M。厢式货车 兽穴 伯格、M.G。Koerkamp公司 等。,

1999
通过对生长在两种不同碳源上的酵母的基因表达转录谱的系列分析进行比较,揭示了基因表达的动力学。
分子生物学。单元格
 
10
: 
1859
–1872.

克尔、M.K.和G.A。丘吉尔,

2001
a基因表达微阵列数据的统计设计和分析。
遗传学。物件。
 
77
: 
123
–128.

克尔、M.K.和G.A。丘吉尔,

2001
b基因表达微阵列的实验设计。
生物统计学
 
2
: 
183
–201.

克尔、M.K.、M。马丁和G.A。丘吉尔,

2000
基因表达微阵列数据的方差分析。
J.计算。生物。
 
7
: 
819
–837。

、麻省理工学院、F.C。,总经理。惠特莫尔和J。斯科拉,

2000
微阵列基因表达研究中复制的重要性:来自重复cDNA杂交的统计方法和证据。
程序。国家。阿卡德。科学。美国
 
97
: 
9834
–9839.

、J.、J.K。托姆福尔和T.B。开普勒,

2005
识别多个SAGE库中的差异表达:一种过度分散的对数线性模型方法。
BMC生物信息学
 
6
: 
165
.

男人、M.Z.、X。和Y。,

2000
POWER_SAGE:比较SAGE实验的统计测试。
生物信息学
 
16
: 
953
–959.

马里奥尼,J.C.,C.E。石匠,平方米。鬃毛,M。斯蒂芬斯和Y。吉拉德,

2008
RNA-Seq:技术再现性评估和与基因表达阵列的比较。
基因组研究。
 
18
: 
1509
–1517.

莫洛佐娃、O.、M。赫斯特和文学硕士。马拉,

2009
转录组分析中新测序技术的应用。
年。基因组学评论。
 
10
: 
135
–151.

莫塔扎维、A.、B.A。威廉姆斯,K。麦克提示,升。谢弗和B。沃尔德,

2008
通过RNA-Seq对哺乳动物转录体进行定位和量化。
自然方法
 
5
: 
621
–628.

那加拉克什米、美国、中国。,K。韦恩,C。寿,D。拉哈 等。,

2008
由RNA测序确定的酵母基因组转录图谱。
科学类
 
320
: 
1344
–1349.

Oehlert公司、G.W.、。,

2000
 实验设计与分析第一课程。W.H.Freeman,纽约。

公园、P.J.、。,

2009
ChIP-seq:成熟技术的优势和挑战。
Genet国家牧师。
 
10
: 
669
–680.

菲利普、N.、A。布勒,L。布勒厄兰、J。塔里奥,T。Commes公司 等。,

2009
使用读数来注释基因组:长度、背景分布和序列误差对预测能力的影响。
核酸研究。
 
37
: 
第104页
.

罗宾逊、M.D.和G.K。史密斯,

2007
用于评估标记丰度差异的适度统计测试。
生物信息学
 
23
: 
2881
–2887.

罗宾逊、M.D.和G.K。史密斯,

2008
负二项离散度的小样本估计及其在SAGE数据中的应用。
生物统计学
 
9
: 
321
–332.

罗宾逊、医学博士、法学博士。麦克卡西和G.K。史密斯,

2010
edgeR:用于数字基因表达数据差异表达分析的Bioconder软件包。
生物信息学
 
26
: 
139
–140.

罗穆阿尔迪、C.、S。博尔托卢齐和G。丹尼利,

2001
在多标签抽样实验中检测差异表达基因:统计测试的比较评估。
嗯,分子遗传学。
 
10
: 
2133
–2141.

罗杰蒙特、J.、A。阿姆扎拉格,C。伊塞利,L。法利内利、I。塞纳里奥斯 等。,

2008
Solexa测序数据的概率基数调用。
BMC生物信息学
 
9
: 
431
.

鲁伊特、J.M.、A.H.C.V。坎彭和F。Baas公司,

2002
SAGE库的统计评估:对实验设计的影响。
生理学。基因组学
 
11
: 
37
–44.

舍纳,米,天。沙龙,右。戴维斯和P.O。棕色,

1995
用互补DNA微阵列定量监测基因表达模式。
科学类
 
270
: 
467
–470.

申杜尔、J.、。,

2008
微阵列结束的开始?
自然方法
 
5
: 
585
–587.

史密斯、G.K.、。,

2004
用于评估微阵列实验中差异表达的线性模型和经验贝叶斯方法。
统计应用程序。遗传学。分子生物学。
 
: 
.

苏丹、M.、M.H。舒尔茨,H。理查德,答:。马根,答:。克林根霍夫 等。,

2008
通过人类转录组的深度测序对基因活性和选择性剪接的全局视图。
科学类
 
321
: 
956
–960.

蒂格森、H.H.和A.H。兹温德曼,

2006
用截断gamma-Poisson模型对Sage数据进行建模。
BMC生物信息学
 
7
: 
157
.

蒂诺、P.、。,

2009
用于分析cDNA阵列的Audic-Claverie统计的基本属性和信息理论。
BMC生物信息学
 
10
: 
310
.

Tjur公司、T.、。,

1998
广义线性模型中的非线性回归、拟似然和过度分散。
美国统计局。
 
52
: 
222
–227.

维库列斯库、V.E.、L。、B。沃格尔斯坦和K.W。金兹勒,

1995
基因表达的系列分析。
科学类
 
270
: 
484
–487.

维恩西奥,右Z,H。布伦塔尼、D.F。帕特拉(Patra)o和C.A。佩雷拉,

2004
基因表达序列分析(SAGE)中类内生物变异性的贝叶斯模型。
BMC生物信息学
 
5
: 
119
–131.

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)

补充数据