Efficient experimental design and analysis strategies for the detection of differential expression using RNA-Sequencing

Robles, José A; Qureshi, Sumaira E; Stephen, Stuart J; Wilson, Susan R; Burden, Conrad J; Taylor, Jennifer M

doi:10.1186/1471-2164-13-484

研究文章
开放式访问
出版：2012年9月17日

利用RNA-序列检测差异表达的有效实验设计和分析策略

BMC基因组学 体积 13，文章编号：484(2012)引用这篇文章

3.5万访问
141引文
24海拔高度
韵律学细节

摘要

背景

RNA测序（RNA-Seq）已成为检测差异基因表达的一种强有力的方法，具有高通量和高分辨率的能力，这取决于所选的实验设计。现在已经有了多种实验设计，可以利用这些设计来增加样本数量或重复分析，但代价是减少每个样本产生的测序深度。这些策略影响了该方法准确识别差异表达的能力。本研究详细分析了在一系列场景中检测差异表达的能力，包括模拟零表达和差异表达分布，以及不同数量的生物或技术复制、测序深度和分析方法。

结果

差异和非差异表达数据集是使用从实际RNA-Seq数据中导出的负二项式和指数分布组合进行模拟的。这些数据集用于评估三种常用差异表达分析算法的性能，并在模拟测序深度、生物复制和多重实验设计选择的变化时，量化真阳性率和假阳性率的功率变化。

结论

这项工作定量地探讨了当代分析工具和实验设计选择之间的比较，以使用RNA-Seq检测差异表达。我们发现，DESeq算法的性能比edgeR和NBPSeq更保守。关于各种实验设计的测试，这项工作强烈表明，相对于库（技术）复制和测序深度，通过使用生物复制可以获得更大的能力。引人注目的是，测序深度可以降低到15%，而不会对假阳性或真阳性率产生重大影响。

背景

RNA测序（RNA-Seq）允许以单碱基分辨率测量整个转录组，同时在基因组尺度上分析基因表达水平[1]. RNA-Seq是一种很有吸引力的方法，因为它通过测序直接描述转录组，因此不需要事先了解正在考虑的转录组。使用RNA-Seq作为高分辨率探索工具的一个例子是，尽管先前对小鼠进行了广泛的注释，但发现了数千个新的编码和非编码基因、已知基因的转录本和亚型[2–4]和人类基因组[5,6].

可以说，RNA-Seq最常用的用途是分析样本或差异表达（DE）之间的基因表达或转录丰度。使用RNA-Seq作为DE分析工具的效率、分辨率和成本优势促使许多生物学家放弃微阵列，转而使用RNA-Seq[7,8].

尽管使用RNA-Seq进行DE分析具有优势，但在使用这种方法时，需要考虑测序偏差和系统噪声的几个来源。显然，RNA-Seq分析容易受到其所基于的下一代测序（NGS）技术固有的一般偏见和错误的影响。这些错误和偏差包括：测序错误（错误的碱基调用）、序列质量偏差、核苷酸组成和相对于读取中碱基位置的错误率[9,10]、转录组序列深度的变异性，这是由于片段化的优先位点、可变引物和转录核苷酸组成的影响[11]最后，技术和生物复制样品生成的原始序列数据的覆盖范围和组成差异[1,12].

最近，有几项调查[13–15]影响RNA-Seq代表给定转录物绝对丰度的准确性的偏差，如Taqman RT-PCR等高精度方法测量[16]. 已经表明，这些丰度测量容易产生与核苷酸组成相关的偏差[14,17]和成绩单的长度[1,18]. 最近开发了几个样本内和样本间校正和归一化程序，以解决这些偏差（作为核苷酸组成影响）[17]或核苷酸、长度或文库准备偏差的各种组合[14,15]. 这些方法都提高了RNA-Seq读取计数与其他实验方法获得的表达估计值的对应性。

尽管存在已知的偏差，RNA-Seq仍被广泛且成功地用于分析样本间的相对转录物丰度，以识别差异表达的转录物[19]. 由于这些变量保持不变，生物群体中给定转录本的特征不太容易出现核苷酸组成和长度偏差。然而，为了准确检测样本中的DE，有必要了解技术和生物复制的变异来源，并在可能的情况下通过适当的实验设计和统计稳健的分析来应对这些变异[17,20]. 迄今为止，文献中很少有关于DE检测的有效实验设计的讨论，而且对于对抗RNA-Seq中存在的许多噪声源和偏见的标准和综合方法缺乏共识，这意味着一些生物界仍然对其可靠性持怀疑态度，也不确定如何设计具有成本效益的RNA-Seq实验（参见[19]).

良好的实验设计和适当的分析对于最大限度地发挥NGS研究的作用是不可或缺的。关于RNA-Seq，重要的实验设计决策包括选择测序深度和使用的技术和/或生物复制品的数量。对于有固定预算的研究人员来说，通常一个关键的设计问题是，是以减少样本数量为代价增加测序深度，还是以每个样本有限的测序深度增加样本量[20].

排序深度

在RNA-seq实验中，测序深度通常指目标序列上所有位点的预期平均覆盖率，假设所有转录物具有相似的表达水平。没有以往广泛的RNA-Seq研究的益处，在大多数情况下，很难在数据生成之前估计最佳测序深度或测序数据量，以充分增强感兴趣转录组中DE的检测。从实用角度来说，RNA-seq测序深度通常是根据总转录组长度（碱基）和预期的转录物丰度动态范围的估计来选择的。考虑到转录组的动态性质，这些估计的适用性可能因生物体、组织、时间点和生物背景而有很大差异。

Wang等人[21]发现当测序深度从160万次增加到1000万次时，观察到的基因转录本与生成的序列读取数之间的相关性显著增加，之后增益平台-1000万次读取检测到约80%的注释鸡转录本。尽管预计在不久的将来连续测序深度会增加，Łabaj等人[22]认为大多数额外的阅读将与已经广泛取样的文本子集一致。因此，即使在较高的读取深度下，使用当前的RNA-Seq协议，低到中等表达水平的转录物也很难精确量化。更大的测序深度也将提高检测相对表达中较小变化的灵敏度，但这并不保证这些变化对研究中的生物系统产生功能影响，而不是转录物丰度的可容忍波动[20]. 理想情况下，有效的实验设计将通过了解何时增加测序深度开始在转录检测和DE测试方面提供快速递减的回报。

复制

复制对于DE的稳健统计推断至关重要。在RNA测序的背景下，存在多个嵌套水平的技术复制，这取决于是序列数据生成、文库制备还是RNA提取技术过程从同一生物样本中复制。一些已发表的研究已将技术复制纳入其RNA-Seq实验设计[23–25]. 这些数据集中的技术变化程度似乎各不相同，技术变化的主要来源似乎是图书馆的准备工作[15]. 生物复制测量目标人群内的变异，同时可以抵消随机技术变异，作为独立样本制备的一部分[20].

研究表明，当生物复制次数增加时，检测DE的能力提高n个增加自n个=2至n个= 5[26]然而，迄今为止，很少有研究纳入了广泛的生物复制，需要对复制对功率的影响进行广泛的测试。最近，随着多重实验设计的实用性和可用性的增加，将测序深度降低的生物复制品合并成为一种更具吸引力和成本效益的策略。牺牲测序深度以增加复制的相对优点尚未得到严格探讨。

高效的实验设计

多路复用是一种越来越流行的方法，它允许在单个测序通道或反应中对多个样本进行测序，从而降低每个样本的测序成本[27,28]. 多路复用使用索引标签、“条形码”或短（≤20 bp）序列，这些序列在库准备步骤中连接到样本序列片段的开头。样本库之间的条形码是不同的，通过对已排序条形码的分析进行排序后，可以对排序进行池化，然后将读取的数据分配回各个样本。多路条形码设计通常可在同一泳道中获得多达12个样本，最近在单个泳道中分析了多达96个酵母DNA样本[28]. 新的方法不断涌现，以实现低成本的策略来复用RNA-Seq样本[29]. 随着当前化学和新平台测序产量的大幅提高，多路复用正成为提高样品吞吐量的首选方法。这些设计对产生的测序深度有直接影响，需要在实验设计中加以考虑。此外，当使用多重策略时，生物学家需要注意测序通道之间潜在的系统变化。这些变化可以通过随机或分块设计来解决，以在车道上分布样本，参见[30]讨论多重测序中的条形码偏差，以及[31]以替代条形码。在小RNA合成池中微阵列和NGS技术的比较中，Willenbrock等人[13]发现由于测序深度的减少和再现性的损失，多路复用导致灵敏度降低；然而，作者并没有在他们的研究中调查DE的检测能力。

方法

改进DE的检测不仅需要适当的实验设计，还需要适当的动力分析方法。最近专门开发了几种算法，以适当处理RNA-Seq实验引起的预期技术和生物变化。这些算法的一个不完整列表是：edgeR[32]，DESeq公司[25]，NBPSeq[33]、BBSeq[34]，立方英尺/平方米[35]、RSEM[36]、NOISeq[37]、Myrna[38]，袖口差异[2]. 将这些数据包的性能与不同属性的数据集进行彻底的比较超出了本研究的范围，然而，在考虑与功率和实验设计相关的问题之前，重要的是调查用于DE分析的数据包是否在无DE的零假设下给出了正确的I型错误率。为了进行这项评估，我们考虑了三种常用的RNA测序数据DE分析软件包。这些包基于读取计数的负二项分布模型[39]并包括edgeR[32]，DESeq公司[25]和NBPSeq[33].

为了量化不同测序深度和复制选择的影响，我们比较了一系列实际的实验设计，以确定其稳健检测DE的能力。使用已知DE转录物的模拟数据，我们可以估计DE调用的假阳性率（FPR）和真阳性率（TPR）。这些速率的变化用于比较每种生物复制次数和测序深度的选择所产生的检测能力。

在方法部分，我们概述了用于FPR和TPR的定义，并解释了用于构建合成数据的方法；包括诱导的差异表达、模拟生物复制引入的变异以及模拟测序深度的损失。

在我们的研究中，我们测试了一系列真实世界的实验设计场景在零假设和DE存在下的性能。在这些场景中，生物复制的数量n个测序深度不同。这为不同实验设计策略提供了全面的定量比较，对于那些使用现代多元化方法的人来说尤其有用。

结果

统计方法的比较：edgeR、DESeq和NBPSeq使用空值下的模拟数据

为了测试在零假设下每个包的性能，我们模拟了n个“控制”和n个根据“方法”一节中描述的程序，针对n个治疗之间无DE。对于的每个值n个对于每个包，模拟和测试重复100次。图1显示了三个数据包中每个数据包在1%显著性水平上差异表达的转录本百分比，其范围为n个每根杆的高度是从100次重复合成数据生成及其相关的90%置信区间中获得的中值。在零假设下，报告的百分比是由等式定义的假阳性率（FPR）。4，并且应与的显著性水平相匹配α= 1%如果包运行正常。此外，还显示了高计数转录物的FPR（在生物复制中平均>100计数）和低计数转录物（在生物重复中平均≤100计数）。图2显示了在n个=3个生物复制。理想情况下，如果包运行正常，p值应在区间[0,1]内均匀分布。

在p值直方图中可以立即注意到的是，对于低计数转录本，右手边的箱子中出现了一个尖锐的尖峰，观察到该尖峰通常出现在以下所有值中n个和所有包。这是使用中描述的方法计算离散随机变量p值的已知伪影[40]并在我们的方法小节“在零假设下”中总结：当两种条件下的计数和相等时，计算的p值正好为1。这种情况最有可能发生在计数极低的转录本上，在这种情况下，很难通过任何方法得出关于DE的有意义的结论。柱状图左端的行为，驱动图中绘制的FPR1生物复制品的包装和数量差异很大。它主要受用于估计色散参数的方法的影响ϕ_我每个成绩单我（请参阅“方法”部分）。

包edgeR在大量生物复制中表现良好(n个＝12），其中色散估计向公共色散的压缩是最小的，并且逐标签估计是合适的。对于少量的生物复制，由于无法在逐字基础上准确估计离散度，因此需要从完整的转录本集合中借用信息，以将估计值压缩为通用离散度估计值。特别是对于高计数转录本，挤压会导致最分散转录本的分散被低估，导致太多转录本被视为差异表达，导致FPR膨胀。

为了保守起见，DESeq选择了逐字估计的最大值和函数形式Eq作为其离散估计。2这符合所有成绩单的逐字估计。我们的结果表明，当生物复制次数较少时，该方法对高计数转录物表现良好(n个=2或3），但在其他方面过于保守。这通常比充气FPR更可取，因为有更多证据表明所谓的DE是真正的DE。

程序包NBPSeq施加了函数关系Eq。三对于一些相对高度分散的抄本来说，这似乎过于严格。对于这些转录物，分散参数被低估，导致显著性被高估，因此无论生物复制次数多少，FPR都会膨胀。

根据这些结果，我们选择了DESeq（v1.6.1）和edgeR（v2.4.0）用于随后的实验设计测试。在这些测试中，使用DESeq和edgeR获得的结果基本上相互兼容。然而，我们的比较显示，edgeR的FPR略有膨胀，而DESeq的表现则更为保守。因此，在下一节中，我们将重点介绍使用DESeq获得的结果，而使用edgeR获得的类似结果显示在附加文件中1：图S2。

统计方法的比较：DESeq和edgeR使用15%DE转录物的模拟数据

为了在存在替代假设的情况下测试包的性能，我们模拟了n个“控制”和n个根据方法一节中描述的程序，15%的转录本上调或下调的“治疗”计数通道。从这一点开始提供的所有结果都来自DESeq。

检测DE作为生物复制次数的函数n个

随着复制的增加，DESeq的DE调用百分比（调用率）稳步增加，从0.44%增加到5.12%n个从2增加到12（100%深度）。作为n个增加，FPR，由公式。5在显著性水平α= 1%，保持在0.1以下%对于的所有值n个和TPR，由公式。6具有α= 1%，从3.26%大幅增长至41.57%（见表1).

表1生物复制对使用DESeq检测DE能力的影响

全尺寸桌子

作为测序深度函数的DE检测

图三表示所有值的排序深度减小的组合结果n个可以看出，随着测序深度的降低，DESeq生成的TPR在所有情况下都单调降低n个而FPR保持在0.1以下%（使用edgeR获得的相应结果显示在附加文件中1：图S2）。

表2显示了所有生物复制的FPRn个测序深度的子集：25%、50%、75%和100%，FPR保持在0.1以下%在所有测序深度。表三显示了DESeq报告的相同测序深度子集的TPR，此处TPR随着测序深度的增加而强烈增加，适用于任何数量的生物复制n个.

表2不同测序深度对FPR的影响 n个 和深度

全尺寸桌子

表3不同测序深度对TPR的影响 n个 和深度

全尺寸桌子

跨多元化实验设计策略的DE检测

我们模拟了多路复用的各种场景n个-对照样品与。n个-将处理样品分为两条测序路线-每个对照样品和测序深度的处理样品 $= \frac{1}{n个} \times 100 %$ .以数字表示三和4，连接每个值的实心灰色线n个在其相应的排序深度提供了这些复用场景的性能的总结。我们将这一趋势称为“多重线”，它通过增加用于固定数量测序通道的生物复制数量（在这种情况下为2个测序通道）来深入了解所获得的结果。

图中的多路复用线三尽管测序深度降低导致检测能力下降，但随着复制的增加，TPR明显增加。也可以看出，FPR保持在0.1以下%对于所有测试的多路复用场景（图三B） ●●●●。注意，为了完整性，我们还为n个= 32 &n个=96，其结果符合趋势。尽管TPR的显著正斜率显示了测序深度的固有损失，但多重系强烈支持增加更多的生物复制，同时保持大致恒定的低FPR。

折叠式变换作为DE的指示器

生物学家通常使用折叠式变化而不是p值作为DE的指标。图4显示了与图中结果类似的结果三当fold-change≥2（而不是p值）的标准用于检测DE:as复制时n个增加，TPR和FPR都降低，因为更多的生物复制具有平均控制和处理通道之间差异的效果。注意，随着测序深度的降低，FPR增加，这是由于计数非常低的转录物数量的增加（图4B）在这种情况下，定序器的泊松散粒噪声很容易导致计数的虚假加倍或减半。通过在DE分析之前向所有转录本添加1个计数，这种效果得到了改善——这样做不会影响p值的计算（数据未显示）。

讨论

DE算法的比较：edgeR、DESeq和NBPSeq

我们在零假设下对这三种DE检测算法进行了比较，结果表明，当生物复制次数不同时，这三种算法的性能（通过其FPR来衡量）不同n个使用。DESeq在不同的n个生物复制场景。当仅使用高计数（计数>100）转录本时，DESeq的表现最接近预期显著性水平，而对于低计数（计数≤100）转录物，则表现出过度保守行为。edgeR高估了DE检测的小值n个而其性能随着n个增加。edgeR的检测级别恒定超过n个当只使用低计数转录本，而当只使用高计数转录本时，高估会增加。NBPSeq高估检测n个对于三种情况（所有转录本、高计数和低计数）。

这种比较使我们在整个复制和测序深度模拟过程中使用了DESeq和edgeR。我们最终选择了DESeq的结果^一因为这个包的行为稍微保守一些，对复制中的变化不太敏感（见图1). 在Tarazona等人的研究中[37]有人认为，基于负二项式的DE分析包，如DESeq和edgeR，对序列深度的增加高度敏感，因此无法随着序列深度的增加控制FPR。Tarazona等人提出了一种非参数算法（NOISeq），以根据折叠变化产生的噪声分布以及转录本控制和实验车道数之间的绝对差异计算DE。然而，Kvam和Liu[26]认为由于RNA-Seq实验通常使用的重复次数较少，非参数方法无法提供足够的检测能力，并建议基于RNA-Seq-数据参数模型（例如DESeq和edgeR）检测DE基因的当前统计方法仍然是一种更为合适的方法。在我们的研究中，我们还发现，随着测序深度的增加，DESeq和edgeR都会略微增加FPR，因为测序深度越高，DESeqandedgeR会将较小的p值分配给折叠变化较小的转录物^b条然而，在任何情况下，DESeq的FPR都不大于1%（edgeR为2%）–（见图1和三A） ●●●●。值得一提的是，DESeq（v1.6.1）和edgeR（v2.4.0）的最新更新在研究之后发布[37]和[26]将误报呼叫数减少约50%（未显示数据）。

复制对DE检测的影响

为了量化RNA-Seq DE实验中复制的影响，我们测试了n个-控制与。n个-处理生物复制（2、3、4、6、8和12），同时保持测序深度恒定。我们发现n个增加两种算法都会增加通话率和TPR，而FPR保持不变（表1).

我们的结果清楚地支持了一个简单的信息，即更多的生物复制不仅是可取的，而且是需要的，以提高使用RNA-Seq进行DE检测的质量和可靠性，然而，由于与RNA-Seq相关的成本，许多实验可能需要使用多重设计来实现这种复制水平。

本研究涉及对生物变异性引起的过度分散效应的模拟，这意味着技术变异性导致的过度分散被嵌套在该估算中（见方法部分）。值得一提的是，虽然生物变异性很重要，但技术变异对过度分散的贡献是不容忽视的，在所有覆盖水平上，表达估计值之间都可能出现分歧[41]. 理想情况下，具有生物复制功能的RNA-Seq实验设计还应旨在阻止技术变异的来源，如车道间变异，以限制RNA-Seq-实验的扩散。

测序深度对DE检测的影响

为了量化RNA-Seq-DE实验中测序深度的影响，我们模拟了每种情况下的广泛测序深度范围（100%至1%）n个-控制与。n个-处理生物复制。随着可用测序数据量的减少，两个包都降低了呼叫率和TPR，而FPR仍然很低。TPR随着测序深度的降低而缓慢降低，这表明测序深度可以降低到∼15%对TPR没有太大影响。

我们得出的结论是，用RNA-Seq进行的DE分析对测序数据的大量损失是稳健的，这表明随着测序深度的损失而FPR没有增加，TPR缓慢下降。这些发现似乎与Bashir等人报告的结果一致[42]世卫组织观察到，较低水平的转录组测序有足够的信息来估计由观察到的转录物产生的表达值的分布。Bashir等人没有直接测试DE的检测能力，但由于DE的测试依赖于与预期分布的良好一致性，因此DE对测序数据的丢失相当稳健。

多路复用实验设计

量化两者变化的影响n个和测序深度，我们模拟了多路复用n个-控制与。n个-治疗通道分为两个序列通道。我们观察到TPR随着n个尽管每个转录本的测序数据相应减少了1/n个类似地，对于DESeq和edgeR，DE调用数和TPR随着n个正如我们之前所观察到的，它不受数据减少的影响。对于DESeq，FPR大致保持不变，始终低于0.1%，而对于edgeR，FPR缓慢下降n个增加。

我们的模拟强烈支持多路复用的好处n个-生物复制进入一个测序通道（两个通道用于n个-控制与。n个-处理DE实验），远远超过每个样本可用数据减少1/n个这些多路复用实验设计提高了TPR和FPR，同时大大降低了实验成本。

虽然DE的检测对于可用的序列数据似乎很可靠，但仍然存在复用如何影响转录组的覆盖以及低丰度或罕见转录物的检测的问题。这一覆盖率问题将越来越多地通过单个测序实验数据生成能力的快速增长来抵消。在对马里奥尼的详细研究中[23]人类（肝脏和肾脏）数据集，Banshir等人[42]，报告称，超过90%的观察到的转录物是以100万次读取进行采样的。这应该在快速发展的测序技术的背景下考虑，如HiSeq 2000和HiSeq 2500，每个测序通道可以产生多达3亿次读取。在评估鸡转录组的覆盖深度时，Wang等人[21]发现虽然1000万次读取可以检测到80%的注释基因，但从1000万次增加到2000万次读取对转录组覆盖率或mRNA测量的可靠性没有显著影响。这就是说，目前对转录组覆盖率的估计以及本文分析的多路复用策略的影响都假设对转录本进行无偏抽样。检测DE的能力很可能因转录物的序列含量、异构体复杂性和丰度而异。方和崔[20]警告并讨论一些可能产生高测序覆盖率需求的测序偏差，以准确估计转录物丰度和变异。作者提到了在计划实验时，选择是增加每个样本的测序深度还是增加生物复制次数的重要性。在这里，我们定量地论证了给定一个固定的预算，增加生物复制数量的好处大于相应的测序深度的减少。这一建议得到了图中模式的支持三和4其中对于给定数量的n个-随着测序深度的降低，生物复制的TPR下降非常缓慢，而FPR则保持在较低水平。鉴于新的测序技术迅速增加了每条车道的可用测序深度，生物复制品的变异所提供的信息可能会成为优先于测序深度的信息。

结论

毫不奇怪，我们的结果表明，需要更多的生物复制来提高使用RNA-Seq检测DE的质量和可靠性。然而，重要的是，我们还发现，使用RNA-Seq进行DE分析对测序数据的大量丢失是稳健的，这表明TPR缓慢下降，而FPR没有增加。我们的模拟强烈支持多路复用实验设计提高了TPR和FPR，同时大大降低了实验成本，因为多路复用n生物复制的好处远远超过每个样本可用数据减少1/n个.

由于许多可用于DE分析的软件包变得越来越快速和容易使用，我们建议大多数RNA-Seq DE实验使用2个不同的软件包进行DE测试。其他文件2：图S4说明了DESeq和edgeR在测序深度和n个生物复制品的两个对比选择中的检测重叠：100%深度下n=2，25%深度下n=4。基于不同分布统计数据或不同假设集的数据包的组合使用可以生成有关给定数据包对特定感兴趣数据集可能存在的偏差敏感性的有用信息。

据我们所知，这是对DESeq和edgeR在一系列实验设计中检测DE能力的性能进行的最新比较。它直接测试了现代多元化实验设计策略的效率。我们的研究为目前相关的重要实验设计决策提供了信息，以最大限度地利用RNA-Seq研究可靠检测DE。

方法

负二项模型与生物变异模拟

我们的合成数据基于读取计数的负二项（NB）模型[39]和用于edgeR[32]，设计当量[25]和NBPSeq[33]. 该模型是一个分层模型，它考虑了由于以下原因而导致的制备的cDNA文库中每个转录物异构体的摩尔浓度的变异源i）文库准备步骤，如果是生物复制，ii）生物变异。这种变化由测序步骤产生的额外泊松散粒噪声复合而成。假设制备的cDNA文库中的摩尔浓度具有伽马分布，则得出计数数量的NB分布K（K）映射到序列器给定通道中感兴趣的特定转录本上：

K（K） \sim 注 (意思是 = μ, 无功功率，无功功率 = μ (1 + ϕ μ)) .

(1)

平均值μ与原始生物样本中感兴趣转录物的浓度成正比，最高可达定序器通道特有的归一化因子。该归一化因子的合适模型是Robinson-Oshlack TMM因子[32]. 数量ϕ称为色散参数[39]，并特定于转录亚型和文库制备。附加文件中给出了模型的更详细说明三.

RNA-Seq中DE的R包

所考虑的所有三个包都基于NB模型，并且在估计分散参数的方式上主要不同。除非另有说明，否则此处使用的这些包的测试使用默认设置。附加文件中给出了典型的编码顺序三.

edgeR（版本2.4.0，生物导体）

首先，edgeR[43]为每个转录物计算离散度的分位数调整的对数条件似然函数ϕ[39]. 这里，“分位数调整”是指调整计数数量，以调整每个生物复制中所有转录本的计数总数，“有条件”是指调节生物复制中给定转录本的总计数。edgeR定义的“共同分散”估计假设ϕ在测序器的一条通道中，对所有转录本保持不变，并通过最大化转录本的对数似然总和来获得。然而，edgeR推荐了一个“逐阶段分散”函数，该函数在逐个基因的基础上估计分散度，并实现了经验贝叶斯策略，用于将估计的分散度压缩到常见分散度。在默认设置下，挤压程度会进行调整，以适应每个条件下的生物复制数量：更多的生物复制将需要从完整的转录集借用更少的信息，并且需要更少的挤压。

DESeq（1.6.1版，生物导体）

在以前版本的包DESeq中[25],ϕ假设为的函数μ通过非参数回归确定。本文中使用的最新版本遵循了更通用的过程。首先，对于每个转录本，估计离散度，可能使用最大似然法。其次，将所有转录本的估计离散度拟合到功能形式：

ϕ = 一 + \frac{b条}{μ} （DESeq参数拟合）,

（2）

使用gamma族广义线性模型。当存在大量重复（≥4）时，per-transcript估计被认为更合适，而当存在少量重复（≤2）时，功能形式被认为更适合，在这种情况下，信息是从所有转录本的总体趋势中借来的。DESeq认识到功能拟合可能会低估离散度，从而导致高估检测DE的重要性，因此默认情况下为每个转录本选择两种方法中的最大值。默认情况下，DESeq假设模型中μ条件不同，但分散度不同ϕ在所有情况下都很常见。

NBPSeq（0.1.4版，CRAN）

对于edgeR，包NBPSeq[33]考虑以跨复制的计数总和为条件的per-transcript对数似然。然而，NBPSeq进一步规定了以下功能关系ϕ和μ:

ϕ = c（c） μ^{α 负极 2} （NBPSeq模型）,

（3）

也就是说，对数之间的线性关系ϕ和日志μ.案例α=1和α该函数的＝2（相当于公共色散）分别被称为NB1和NB2。全局参数α和c（c）通过最大化所有复制品和转录物的对数条件似然求和来估计。

合成数据集的构建

我们的每个合成数据集都由读取计数的“控制”数据集组成 ${K（K）}_{ij公司}^{控制}$ 和读取计数的“处理”数据集 ${K（K）}_{伊吉}^{对待}$ ，用于我= 1,…,t吨转录亚型序列来自j个= 1,…,n个生物复制cDNA文库。

对于每个转录亚型，我们首先提供一对NB参数 ${\hat{μ}}_{我}$ 和 ${\hat{ϕ}}_{我}$ .读取计数 ${K（K）}_{ij公司}^{控制}$ 对于每个生物复制中的每个亚型，通过从NB分布中随机抽样，使用这些估计参数从控制数据集中生成。为了创建治疗数据集，首先将亚型集划分为非调节子集、上调子集和下调子集。A调节因子θ_我= 1,…,t吨然后从适当的分布中选择等于1（非调节）、>1（上调）或<1（下调）的。治疗读取计数 ${K（K）}_{ij公司}^{对待}$ 然后根据NB分布为每个生物复制中的每个亚型生成平均值 $θ_{我} {\hat{μ}}_{我}$ 分散度不变 ${\hat{ϕ}}_{我}$ .

参数的依据 ${\hat{μ}}_{我}$ 和 ${\hat{ϕ}}_{我}$ 是Pickrell的子集[24]作为国际HapMap项目的一部分，序列cDNA文库的数据集来自来自尼日利亚个体的69个淋巴母细胞系的mRNA。对于每个个体，为Illumina GA2平台准备的库被分成两部分，一部分在Argonne测序中心测序，另一部分在耶鲁测序中心。在这两个中心，还为其中12人准备了第二个文库，并对其进行了拆分和测序。目前的研究仅使用了在阿贡测序的最初69个文库的数据。使用KANGA对准器将原始读取重新对准人类转录组（hg18，USCS）[44]. 每个泳道映射到注释基因的读数总数在2×10之间变化很大⁶至20×10⁶.提供一组统一的生物复制品，用于估计 ${\hat{μ}}_{我}$ 和 ${\hat{ϕ}}_{我}$ ，44个库的子集，每个通道到转录组的映射总数在10×10范围内⁶至16×10⁶被选中。最后，从数据集中筛选出总读取次数少于44次（即每条车道平均少于一次）的任何转录本，留下46446份转录本的列表。Pickrell数据集的结果子集被认为由于文库准备和生物变异而表现出过度分散。

请注意，对于合成数据的生成，没有必要提供μ_我和ϕ_我对于简化Pickrell数据集中的每个亚型，但只是为了提供这些参数值在转录组上的合理分布，这些转录组代表典型的亚型丰度及其因技术和/或生物过度分散而产生的变化。参数值 ${\hat{μ}}_{我}$ 和 ${\hat{ϕ}}_{我}$ ，从简化的Pickrell数据集中获得，如下所示。通过对每条车道中的计数进行采样，同时跟踪每个计数对应的转录本，首先将44条车道中每条车道的计数总数减少到计数最少的车道。这形成了一组标准化的计数我第个成绩单j个第条车道。

对于每个成绩单，最大似然估计（MLE） ${\hat{μ}}_{我}$ 和 ${\hat{ϕ}}_{我}$ ，然后由n个=44个生物复制。附加文件中给出了该估算的施工细节三。对于本文描述的每个模拟，构建了一个合成数据集，包括n个NB分布产生的“对照数据”的生物复制 ${\hat{μ}}_{我}$ 和 ${\hat{ϕ}}_{我}$ ，还有一个n个利用平均值对NB分布产生的治疗数据进行生物复制 $θ_{我} {\hat{μ}}_{我}$ 分散度不变 ${\hat{ϕ}}_{我}$ .

进行了两组模拟：

1
为了测试零假设下的性能，将调节因子设置为θ _我=所有成绩单为1。
2
为了测试在存在替代假设的情况下检测DE的能力，调节因子θ _我已设置为1+X（X） _我对于随机选择的7.5%的转录物（上调），（1+X（X） _我)⁻¹进一步7.5%（下调），剩余85%的转录本为1，其中X（X） _我均数为1的同分布独立指数随机变量。

真阳性率和假阳性率的计算

在零假设下

所有三个软件包在单因素实验中通过使用中描述的方法计算p值来测试DE[25]. 对于每份成绩单我，在假设上述NB模型的情况下，以两种条件下的计数之和为条件，计算两种条件控制和治疗中的每一种条件下的计数数量的概率。p值是在两种条件之间分配计数总和的所有方法的概率之和，这两种条件的概率低于观测计数。

为了测试在零假设下每个包的性能，我们模拟了n个-控制和n个-计数范围内的治疗车道n个FPR（以百分比引用）是在给定的显著性水平下计算的α作为：

\begin{matrix} FPR公司 = \frac{具有 100 \times p值 < α}{成绩单总数} \times 100 %. \end{matrix}

(4)

理想情况下，FPR应与α如果包运行正常。

在存在替代假设的情况下

所有三个包都提供了调整后的p值，第页_形容词，使用R函数p.adjust（）修正Benjamini-Hochberg程序的多假设检验。本文中存在替代假设的真阳性率和假阳性率的所有计算均使用调整后的p值。

从6966/46446（15%）由1以外的调节因子诱导的转录本中，我们选择了5726（12%）的调节因子满足以下任一条件θ_我≤0.83或θ_我≥ 1.20. 我们将其定义为“有效DE”转录本。这种最小折叠变化的附加过滤器旨在量化算法和实验设计的性能，以检测研究人员可能认为更具生物相关性的DE。同样，我们定义了剩余的转录本，即满足0.83的转录本<θ_我<1.20，作为“有效的非DE”。这些定义用于在显著性水平上估计FPR和TPRα通过以下公式：

\begin{matrix} FPR公司 = \frac{有效的非DE成绩单数量 100 \times {第页}_{形容词} < α}{有效非DE成绩单总数} \times 100 %. \end{matrix}

(5)

\begin{matrix} TPR公司 = \frac{有效DE成绩单数量 100 \times {第页}_{形容词} < α}{有效DE成绩单总数} \times 100 %. \end{matrix}

(6)

除了使用调整后的p值外，FPR的公式简化为方程式。4如果模拟DE成绩单的数量设置为零，因为在这种情况下，所有成绩单根据定义都是“有效的非DE”。1−FPR和TPR的量在文献中通常分别称为“特异性”和“敏感性”。

模拟可变级别的序列数据和复制

模拟可用测序数据中的变化是研究多重实验设计策略影响的基本部分。由于可用资源限制、机器错误或样本中存在的病原体转录组片段隔离的测序读取等原因，样本之间的序列数据量可能会发生变化。为了模拟测序深度的损失，我们从原始计数表中随机进行了亚抽样，没有对每个生物复制进行替代假设。对照样品和处理样品的测序深度均在原始数据的100%（完整序列）至1%范围内降低。在这一次抽样后，在DESeq（edgeR）中分析得出的计数表，并记录每次有效DE调用、TPR、FPR和fold-changes的总数n个我们模拟了n个-控件与。n个-处理生物复制n个=2、3、4、6、8和12。

多路复用实验设计

将不同的样本复用到一个测序通道中可以减少RNA-Seq DE分析的资金成本，尽管可以将可用的测序深度除以不同的样本。我们的策略包括模拟多路复用n个-对照样品与。n个将样本处理成两条测序路线。通过这种方式，总序列数据的数量受到限制，每个控制和处理样本预计以平均深度1表示/n个×100%。随着RNA-Seq技术的发展，序列车道（即100%深度）中产生的读取绝对值增加，目前该值可能高达1亿次读取。我们测试的多路实验装置包括：

50%测序深度下的2对2生物复制
33%测序深度下的3对3生物重复
在25%测序深度下进行4次与4次生物复制
在17%测序深度下进行6次与6次生物复制
在13%的测序深度下，8个生物重复与8个生物复制
在8%测序深度下进行12次与12次生物复制
32对32个生物重复，测序深度为3%
96对96个生物重复，测序深度为1%

尾注

^一我们使用edgeR获得的结果显示在附加文件中1：图S2。

^b条其他文件4：图S3显示了为抄本分配一个第页_形容词≤0.01每n个脚本。

^c（c）我们的负二项模型的详细信息可以在附加文件中找到三，包括附加文件5：图S1，显示了46446个转录物异构体的模型平均值和分散参数的最大似然估计。

参考文献

Mortazavi A，Williams BA，McCue K，Schaeffer L，Wold B：通过RNA-seq绘制和量化哺乳动物转录组。自然方法。2008, 5 (7): 621-628. 10.1038/nmeth.1226。
第条中国科学院公共医学谷歌学者
Trapnell C、Williams BA、Pertea G、Mortazavi A、Kwan G、van Baren MJ、Salzberg SL、Wold BJ、Pachter L：转录物组装和RNA-Seq量化揭示了细胞分化过程中未标记的转录物和亚型转换。国家生物技术。2010, 28: 511-515. 10.1038/nbt.1621。
第条公共医学中心中国科学院公共医学谷歌学者
Guttman M、Garber M、Levin JZ、Donaghey J、Robinson J、Adiconis X、Fan L、Koziol MJ、Gnirke A、Nusbaum C、Rinn JL、Lander ES、Regev A：小鼠细胞类型特异性转录体的从头重建揭示了lincRNAs的保守多元结构。国家生物技术。2010年，28:503-510。10.1038/nbt.1633。
第条公共医学中心中国科学院公共医学谷歌学者
Haas BJ，Zody MC：推进RNA-Seq分析。国家生物技术。2010, 28: 421-423. 10.1038/nbt0510-421。
第条中国科学院公共医学谷歌学者
Pan Q，Shai O，Lee LJ，Frey BJ，Blencowe BJ：通过高通量测序深入研究人类转录组中的选择性剪接复杂性。自然遗传学。2008, 40: 1413-1415. 10.1038/ng.259。
第条中国科学院公共医学谷歌学者
Lovci MT，Li HR，Fu XD，Yeo GW:通过双随机启动策略对基因表达和选择性剪接进行RNA-seq分析。方法分子生物学。2011, 729: 247-255. 10.1007/978-1-61779-065-2_16.
第条公共医学中心中国科学院公共医学谷歌学者
Bullard JH、Purdom E、Hansen KD、Dudoit S：mRNA-seq实验中归一化和差异表达的统计方法评估。BMC生物信息。2010, 11: 94-10.1186/1471-2105-11-94.
第条谷歌学者
Oshlack A，Robinson医学博士，Young医学博士：从RNA-seq读取到差异表达结果。基因组生物学。2010年11月：220-10.1186/gb-2010-11-12-220。
第条公共医学中心中国科学院公共医学谷歌学者
Dom JC、Lottaz C、Borodina T、Himmelbauer H：高通量DNA测序的超短读数据集中的重大偏差。《核酸研究》2008，36:e105-10.1093/nar/gkn425。
第条公共医学中心公共医学谷歌学者
Hansen KD，Brenner SE，Dudoit S：随机六聚体启动引起的Illumina转录组测序偏差。《核酸研究》2010，38:e131-10.1093/nar/gkq224。
第条公共医学中心公共医学谷歌学者
Sendler E、Johnson GD、Krawetz SA：影响RNA测序分析的本地和全球因素。分析生物化学。2011, 419: 317-322. 10.1016/j.ab.2011.08.013。
第条中国科学院公共医学谷歌学者
吕B，于杰，徐杰，陈杰，赖M：一种通过家政基因归一化从基于计数的数字数据库中检测差异表达基因的新方法。基因组学。2009, 94: 211-216. 2016年10月10日/j.ygeno.2009.05.003。
第条公共医学谷歌学者
Willenbrock H、Salomon J、Sökilde R、Barken KB、Hansen TN、Nielsen FC、Möller S、Litman T：定量miRNA表达分析：比较微阵列与下一代测序。RNA。2009, 15: 2028-2034. 10.1261/rna.1699809。
第条公共医学中心中国科学院公共医学谷歌学者
Zheng W，Chung LM，Zhao H：RNA测序数据中的偏差检测和校正。BMC生物信息。2011, 12: 290-10.1186/1471-2105-12-290.
第条中国科学院谷歌学者
Roberts A、Trapnell C、Donaghey J、Rinn JL、Pachter L：通过修正片段偏差改进RNA-Seq表达估计。基因组生物学。2011年12月：R22-10.1186/gb-2011-12-3-R22。
第条公共医学中心中国科学院公共医学谷歌学者
Canales RD、Luo Y、Willey JC、Austermiller B、Barbacioru CC、Boysen C、Hunkappiller K、Jensen RV、Knight CR、Lee KY、Ma Y、Maqsodi B、Papallo A、Peters EH、Poulter K、Ruppel PL、Samaha RR、Shi L、Yang W、Zhang L、Goodsaid FM:用定量基因表达平台评估DNA微阵列结果。国家生物技术。2006, 24: 1115-1122. 10.1038/nbt1236。
第条中国科学院公共医学谷歌学者
Risso D，Schwartz K，Sherlock G，Dudoit S:RNA-seq数据的GC含量标准化。BMC生物信息。2011, 12: 480-10.1186/1471-2105-12-480.
第条中国科学院谷歌学者
Oshlack A，Wakefield MJ：RNA-seq数据中的转录长度偏差混淆了系统生物学。生物直接。2009, 4: 14-10.1186/1745-6150-4-14.
第条公共医学中心公共医学谷歌学者
Auer PL、Srivastava S、Doerge RW：差异表达——下一代及以后。功能基因组学简介。2011年10月1093/bfgp/elr041日。数字对象标识：
谷歌学者
Fang Z，Cui X:RNA-seq实验中的设计和验证问题。生物信息简介。2011, 12: 280-287. 10.1093/bib/bbr004。
第条中国科学院谷歌学者
Wang Y，Ghaffari N，Johnson CD，Braga-Neto-UM，Wang H，Chen R，Zhou H：通过RNA-seq评估鸡转录组的覆盖率和深度。BMC生物信息。2011年12月（补充10）：S5-10.1186/1471-2105-12-S10-S5。
第条中国科学院谷歌学者
Łabaj PP、Leparc GG、Linggi BE、Markillie LM、Wiley HS、Kreil DP:定量转录表达谱中RNA-Seq精确度的表征和改进。生物信息学。2011年第27期：i383-391。10.1093/bioinformatics/btr247。
第条公共医学中心公共医学谷歌学者
Marioni JC、Mason C、Mane SM、Stephens S、Gilad Y:RNA-seq：技术可复制性评估和与基因表达阵列的比较。《基因组研究》2008，18:1509-1517。10.1101/gr.079558.108。
第条公共医学中心中国科学院公共医学谷歌学者
Pickrell JK、Marioni JC、Pai AA、Degner JF、Engelhardt BE、Nkadori E、Veyrieras JB、Stephens M、Gilad Y、Pritchard JK：通过RNA测序了解人类基因表达变异的机制。自然。2010, 464: 768-72. 10.1038/nature08872。
第条公共医学中心中国科学院公共医学谷歌学者
Anders S，Huber W：序列计数数据的差异表达分析。基因组生物学。2010年，11（10）：R106-10.1186/gb-2010-11-10-R106。
第条公共医学中心中国科学院公共医学谷歌学者
Kvam VM，Liu P，Si Y:从RNA-seq数据中检测差异表达基因的统计方法比较。《美国生物医学杂志》，2012，99（2）：248-256。10.3732/ajb.1100340。
第条公共医学谷歌学者
Porreca GJ、Zhang K、Li JB、Xie B、Austin D、Vassallo SL、LeProust EM、Peck BJ、Emig CJ、Dahl F、Gao Y、Church GM、Shendure J：人类外显子大集合的多重扩增。自然方法。2007, 4: 931-936. 10.1038/nmeth1110。
第条中国科学院公共医学谷歌学者
Smith AM、Heisler LE、St Onge RP、Farias Hesson E、Wallace IM、Bodeau J、Harris AN、Perry KM、Giaever G、Pourmand N、Nislow C：高度复用条形码测序：一种对合并样本进行并行分析的有效方法。《核酸研究》2010，38:e142-10.1093/nar/gkq368。
第条公共医学中心公共医学谷歌学者
Wang L，Si Y，Dedow LK，Shao Y，Liu P，Brutnell TP：基于Illumina的股特异性复合RNA-seq的低成本库构建协议和数据分析管道。《公共科学图书馆·综合》。2011年6月：e26426-10.1371/journal.pone.0026426。
第条公共医学中心中国科学院公共医学谷歌学者
Alon S、Vigneault F、Eminaga S、Christodoulou DC、Seidman JG、Church GM、Eisenberg E：miRNA高通量多重测序中的条形码偏差。《基因组研究》2011，21:1506-1511。10.1101/gr.121715.111。
第条公共医学中心中国科学院公共医学谷歌学者
Timmermans MJ、Dodsworth S、Culverwell CL、Bocak L、Ahrens D、Littlewood DT、Pons J、Vogler AP：为什么使用条形码？用于分子系统学的线粒体基因组高通量多重测序。《核酸研究》2010，38:e197-10.1093/nar/gkq807。
第条公共医学中心中国科学院公共医学谷歌学者
Robinson MD，Oshlack A：RNA-seq数据差异表达分析的标度归一化方法。基因组生物学。2010年11月：R25-10.1186/gb-2010-11-3-R25。
第条公共医学中心公共医学谷歌学者
Di Y，Schafer D，Cumbie J，Chang J：评估RNA-seq差异基因表达的NBP负二项模型。基因和分子生物学统计应用。2011年10月：第24条-
谷歌学者
周永华，夏克，赖特FA：一种强大而灵活的RNA序列计数数据分析方法。生物信息学。2011, 27: 2672-2678. 10.1093/bioinformatics/btr449。
第条公共医学中心中国科学院公共医学谷歌学者
Singh D，Orellana CF，Hu Y，Jones CD，Liu Y，Chiang DY，Liu J，Prins JF:FDM：利用RNA-seq数据检测差异转录的基于图形的统计方法。生物信息学。2011, 27: 2633-2640. 10.1093/bioinformatics/btr458。
第条公共医学中心中国科学院公共医学谷歌学者
Li B，Dewey CN:RSEM：基于RNA-Seq数据的准确转录定量，有或没有参考基因组。BMC生物信息学。2011, 12: 323-10.1186/1471-2105-12-323.
第条公共医学中心中国科学院公共医学谷歌学者
Tarazona S、Garcia-Alcalde F、Dopazo J、Ferrer A、Conesa A：RNA-seq的差异表达：深度问题。《基因组研究》2011，21:2213-2223。10.1101/gr.124321.111。
第条公共医学中心中国科学院公共医学谷歌学者
Langmead B，Hansen KD，Leek JT：用MYRNA进行云尺度RNA测序差异表达分析。基因组生物学。2010年11月：R83-10.1186/gb-2010-11-8-R83。
第条公共医学中心公共医学谷歌学者
Robinson M，Smyth G：评估标记丰度差异的中等统计检验。生物信息学。2007, 23 (21): 2881-2887. 10.1093/bioinformatics/btm453。
第条中国科学院公共医学谷歌学者
Anders S：使用DESeq软件包分析RNA-Seq数据。2010, [http://www.bioconductor.org/help/course-materials/2011/BioC2011/LabStuff/DESeq.pdf],
谷歌学者
McIntyre LM、Lopiano KK、Morse AM、Amin V、Oberg AL、Young LJ、Nuzhdin SV:RNA-seq：技术变异性和取样。BMC基因组学。2011, 12: 293-10.1186/1471-2164-12-293.
第条公共医学中心中国科学院公共医学谷歌学者
Bashir A，Bansal V，Bafna V：设计深度测序实验：检测结构变异和估计转录物丰度。BMC基因组学。2010年，11:385-10.1186/1471-2164-11-385。
第条公共医学中心公共医学谷歌学者
Robinson M，McCarthy D，Smyth G:edgeR：用于数字基因表达数据差异表达分析的生物导体包。生物信息学。2010, 26: 139-140. 10.1093/bioinformatics/btp616。
第条公共医学中心中国科学院公共医学谷歌学者
Stephen S、Cullerne D、Spriggs A、Helliwell C、Lovell D、Taylor JM:BioKanga：一套高性能生物信息学应用程序。2012年的筹备工作[http://code.google.com/p/biokanga/],
JabRef开发团队：JabRef。JabRef开发团队2010。[http://jabref.sourceforge.net/faq.php],
Muller A:TeXMed–PubMed 2002-2012的BibTeX接口。[http://www.bioinformatics.org/texmed/],
Chen H，Boutros PC:VennDiagram:在R.BMC Bioinf中生成高度可定制的维恩图和欧拉图的软件包。2011, 12: 35-10.1186/1471-2105-12-35.
第条谷歌学者

下载参考资料

致谢

JAR由OCE科学团队资助。该项目由澳大利亚研究委员会发现拨款DP1094699支持。我们使用[45]作为我们的Biptex参考资料经理。我们使用了TexMed数据库[46]正如我们的bibtex参考来源。其他文件2：图S4由Chen和Boutros使用基于R的“VennDiagram”包生成[47].

作者信息

作者和附属机构

澳大利亚堪培拉黑山实验室CSIRO工厂
JoséA Robles、Stuart J Stephen和Jennifer M Taylor
澳大利亚堪培拉澳大利亚国立大学数学科学研究所
Sumaira E Qureshi、Susan R Wilson和Conrad J Burden
澳大利亚悉尼新南威尔士大学威尔士亲王临床学院和数学与统计学院
苏珊·R·威尔逊

作者

何塞·A·罗伯斯
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
苏迈拉E库雷希
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
斯图亚特·斯蒂芬
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
苏珊·威尔逊
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
康拉德·J·伯顿
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
詹妮弗·泰勒
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

通讯作者

与的通信詹妮弗·泰勒.

其他信息

竞争性利益

作者声明，他们没有相互竞争的利益。

作者的贡献

所有作者都对手稿投稿。JAR、SEQ和SJS进行了统计和生物信息分析。CJB开发了数据模拟算法。CJB、SRW和JMT构思并设计了该研究。所有作者阅读并批准了最终手稿。

电子辅助材料

12864_2012_4667_MOESM1_ESM.pdf

附加文件1：图S2。edgeR检测到的FPR和TPR作为测序深度和复制的函数。不同的符号代表数字n个对照样品与治疗样品的对比(n个=2、3、4、6、8和12）跨层序深度[100%→1%].答：TPR公司第页_形容词≤ 0.01.B类：FPR公司第页_形容词≤ 0.01. 连接TPR值的实心灰色线（“多路复用线”）n个生物复制 $\frac{1}{n个} \times 100 %$ 测序深度表明，随着更多的生物复制，TPR增加n个尽管由于车道复用所需的排序深度减少而导致功率损失，但仍使用了。即使对于n个=32和n个=96例。（PDF 29 KB）

12864_2012_4667_MOESM2_ESM.pdf

附加文件2：图S4。维恩图显示了DESeq（左，蓝色圆圈）和edgeR（右，红色圆圈）发出的TP和FP调用，以及它们之间如何重叠，以及指定为真正DE（上，绿色圆圈）的总成绩单池。答：生物复制次数为n个=12，深度为100%。这种组合n个深度有点不切实际，因为24条车道的测序成本几乎令人望而却步；然而，它显示了一种“最佳情况”的情况，在5689个真正的DE转录本中，有2870个是由DESeq和edgeR联合检测到的。在这2870次TP检测中，大多数检测（2360次）都是由这两种算法检测到的，因此两种算法都足够了。B类：的维恩图n个=4，深度为25%。这种更现实的实验设计选择n个深度显示了使用这两种算法的价值；这两种算法只检测到5697个真正的DE转录本中的913个，其中只有三分之二（591个）的转录本被两种算法检测到。这些对比场景表明，使用这两种算法有助于以快速廉价的方式进一步限制可行DE候选列表。（PDF 281 KB）

附加文件3：负二项模型^c（c）.（PDF 44 KB）

12864_2012_4667_MOESM4_ESM.eps

附加文件4：图S3。转录本被称为DE所需的最小倍数变化(第页_形容词≤0.01）作为函数n个生物复制（使用DESeq）。可用的副本越多；成绩单被DESeq或edgeR称为DE所需的折页变化越小。（每股收益36 KB）

12864_2012_4667_MOESM5_ESM.pdf

附加文件5：图S1。NB平均值的最大似然估计 ${\hat{μ}}_{我}$ 和色散参数 $\hat{ϕ}$ 46446个转录亚型。绿线是以下各项的线性回归 ${日志}_{10} \hat{ϕ}$ 反对 ${日志}_{10} \hat{μ}$ ，与NBPSeq模型关系相对应 $\hat{ϕ} = c（c） {\hat{μ}}^{α 负极 2}$ 具有α= 1.700,c（c）= 0.364. （PDF 133 KB）