Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2

Love, Michael I; Huber, Wolfgang; Anders, Simon

doi:10.1186/s13059-014-0550-8

方法
开放式访问
出版：2014年12月5日

利用DESeq2对RNA-seq数据的折叠变化和离散度进行适度估计

基因组生物学 体积 15，物品编号：550(2014)引用这篇文章

5.42万访问
3.7万引文
158海拔高度
韵律学细节

摘要

在比较高通量测序分析中，一项基本任务是分析计数数据，例如RNA-seq中每个基因的读取计数，以获得实验条件下系统变化的证据。小的重复数、离散性、大的动态范围和异常值的存在需要合适的统计方法。我们现在DESeq2公司这是一种计数数据的差异分析方法，使用收缩率估计来估计离散和折叠变化，以提高估计的稳定性和可解释性。这使得可以进行更为定量的分析，重点放在强度上，而不仅仅是差异表达的存在。这个DESeq2公司程序包在http://www.bioconductor.org/packages/release/bioc/html/DESeq2.html.

背景

高通量测序（HTS）技术在基因组研究中的迅速采用，导致需要使用统计方法来评估实验之间的定量差异。这里的一项重要任务是分析RNA测序（RNA-seq）数据，目的是发现在样本组之间差异表达的基因。此任务是一般性的：其方法通常也适用于其他比较HTS分析，包括染色质免疫沉淀测序、染色体构象捕获或元基因组研究中观察到的分类群计数。

除了需要考虑计数数据的特殊性，如非正态性和方差对平均值的依赖性之外，一个核心挑战是典型HTS实验中的样本数量很少，通常每个条件下只有两三个重复。由于组内方差估计的高度不确定性，分别处理每个基因的推断方法在这里缺乏力量。在高通量分析中，可以通过跨基因汇集信息来克服这一局限性，特别是通过利用关于在同一实验中测量的不同基因方差相似性的假设[1].

许多用于RNA-seq数据差异表达分析的方法在基因间进行这种信息共享，以进行方差（或等效的离散度）估计。边缘R[2],[三]使用加权条件似然将每个基因的离散估计调整为所有基因的通用估计，或调整为具有类似表达强度的基因的局部估计。我们的DESeq公司方法[4]通过对所有样本的平均表达强度对离散度的依赖性进行建模，检测并纠正过于低的离散度估计。BBSeq公司[5]对平均值上的离散进行建模，使用离散估计的平均绝对偏差来减少离群值的影响。决策支持系统[6]使用贝叶斯方法对单个基因的离散度进行估计，以解释不同基因离散值的异质性。bay序列[7]和收缩贝叶斯[8]估计所有基因的贝叶斯模型的先验值，然后提供差异表达的后验概率或错误发现率（FDR）。

转录组学数据比较分析中最常见的方法是测试无效假设，即基因表达的治疗和控制之间的对数倍变化（LFC）恰好为零，即基因根本不受治疗的影响。通常，差异分析的目的是生成一个通过多重测试调整的基因列表，按P（P）值。然而，微小的变化，即使在统计上非常显著，也可能不是进一步调查的最有意思的候选者。另一方面，由于低计数基因的LFC估计值的噪声，按倍数变化进行排名变得复杂。此外，被称为显著差异表达的基因数量取决于样本大小和实验设计的其他方面，就像它取决于实验的生物学一样——而强有力的实验通常会产生一个非常长的点击列表[9]. 因此，我们开发了一个统计框架，以促进基于效应大小（LFC）稳定估计的基因排序和可视化，以及根据用户定义的生物学意义阈值测试差异表达。

我们现在介绍DESeq2公司，我们的继任者DESeq公司方法[4].DESeq2公司将方法学的进步与几个新特征相结合，以便于使用离散度和折叠变化的收缩估计器对比较RNA-seq数据进行更定量的分析。我们证明了DESeq2公司的新功能，描述了一些可能的应用，包括缩小的折叠变化及其标准误差估计，包括改进的基因排名和可视化，高于和低于阈值的假设检验，以及用于质量评估和过度分散计数数据聚类的正则对数变换。我们进一步比较DESeq2公司的统计能力与现有工具相比，表明我们的方法具有较高的灵敏度和精度，同时控制了假阳性率。DESeq2公司可用[10]作为R/生物导体包[11].

结果和讨论

模型和规范化

a的起点DESeq2公司分析是一个计数矩阵K（K）每个基因对应一行我每个样品一列j个.矩阵条目K（K） _ij公司指示已明确映射到样本中某个基因的测序读取数。请注意，尽管我们在本文中提到了基因读取计数，但这里介绍的方法也可以应用于其他类型的HTS计数数据。对于每个基因，我们拟合一个广义线性模型（GLM）[12]如下所示。

我们对读取计数建模K（K） _ij公司遵循负二项分布（有时也称为gamma-Poisson分布）μ _ij公司和分散α _我.取平均值作为数量q个 _ij公司，与样本中基因cDNA片段的浓度成正比，按归一化因子缩放秒 _ij公司即。，μ _ij公司=秒 _ij公司q个 _ij公司。对于许多应用，相同的常数秒 _j个可以用于样本中的所有基因，这就解释了样本之间测序深度的差异。要估计这些尺寸系数，的DESeq2公司该软件包提供了已在中使用的比率中值方法DESeq公司[4]. 然而，计算基因特异性标准化因子可能是有利的秒 _ij公司使用公布的方法解释技术偏差的进一步来源，例如对GC含量、基因长度等的不同依赖性[13],[14]，可以提供这些。

我们使用带有对数链接的GLM， $\underset{2}{日志} {q个}_{ij公司} = \sum_{第页} {x个}_{年少者} β_{红外}$ ，带有设计矩阵元素x个 _年少者和系数β _红外在比较两组样品（如处理样品和对照样品）的最简单情况下，设计矩阵元素指示样品是否j个处理与否，GLM拟合返回指示基因总体表达强度和对数的系数₂治疗和控制之间的折叠变化。然而，线性模型的使用也为分析更复杂的设计提供了灵活性，这在基因组研究中通常很有用[15].

离散估计的经验Bayes收缩

组内变异性，即重复之间的变异性，由离散参数建模α _我，它通过描述计数的方差 $变量 {K（K）}_{ij公司} = μ_{ij公司} + α_{我} μ_{ij公司}^{2}$ .色散参数的准确估计α _我对于微分表达式的统计推断至关重要。对于样本量较大的研究，这通常不是问题。然而，对于对照实验，样本量往往较小（只有两个或三个重复的实验设计是常见且合理的），导致每个基因的离散度估计值高度可变。如果直接使用，这些噪声估计会影响差异表达测试的准确性。

一个明智的解决方案是跨基因共享信息。在DESeq2公司，我们假设平均表达强度相似的基因具有相似的离散性。我们在这里以Bottomly的数据集为例解释我们的方法的概念等。[16]使用两种不同菌株小鼠的RNA-seq数据和Pickrell的数据集等。[17]人类淋巴母细胞系的RNA-seq数据。有关数学详细信息，请参见材质和方法。

我们首先分别处理每个基因并估计基因离散度估计值（使用最大似然法），该估计值仅依赖于每个基因的数据（图中的黑点1). 接下来，我们确定这些估计的分布的位置参数；为了考虑对平均表达强度的依赖性，我们拟合了一条平滑的曲线，如图中的红线所示1这为具有给定表达强度的基因的预期离散值提供了一个准确的估计，但并不代表单个基因与这一总体趋势的偏差。然后，我们将基因分散性估计值缩小到曲线预测的值，以获得最终分散值（蓝色箭头）。我们使用经验贝叶斯方法（材料和方法），该方法使收缩强度取决于（i）真实分散值与拟合的接近程度估计，以及（ii）自由度：随着样本大小的增加，收缩强度降低，最终可忽略不计。因此，我们的方法在数据提供这一信息的范围内解释了基因特异性变异，而拟合曲线有助于在信息较少的环境中进行估计和测试。

我们的方法与决策支持系统[6]在这两种方法中，依次估计拟合周围真实离散值的先验分布，然后提供最大值后部（MAP）作为最终估计。它不同于以前的DESeq公司，使用拟合曲线的最大值和基因离散度估计值作为最终估计值，并倾向于高估离散度（附加文件1：图S2）。方法DESeq2公司与的不同边缘R[三]，作为DESeq2公司根据数据估计先验分布的宽度，因此根据观察到的数据属性自动控制收缩量。相反，默认步骤边缘R需要用户可调整的参数前自由度，它衡量了个体基因估计和边缘R的离散拟合。

注意，在图中1一些基因离散度估计值低于曲线的基因，其最终估计值大幅提高。因此，收缩过程有助于避免潜在的误报，因为误报可能是由于低估了分散度。另一方面，如果单个基因的离散度远远高于其他基因的基因离散度估计值的分布，则收缩将导致离散度的最终估计值大大降低。我们推断，在许多情况下，基因高度分散的原因是它不符合我们的建模假设；由于生物或技术原因，一些基因可能比其他基因表现出更高的变异性，尽管它们的平均表达水平相同。在这些情况下，基于缩小的离散估计的推断可能会导致不希望出现的误报呼叫。DESeq2公司当前者在曲线上的剩余标准差大于2时，使用基因估计而不是收缩估计来处理这些情况。

折迭估计的经验Bayes收缩

HTS数据分析中的一个常见困难是低读取数基因的LFC估计值的强方差。我们使用Bottomly的数据集演示了这个问题等。[16]. 如图所示2A、与强表达基因相比，弱表达基因在比较的小鼠品系之间似乎表现出更强的差异。大多数HTS数据集中都存在这种现象，这是处理计数数据，当计数较低时，其中的比率天生就更具噪音。这种异方差性（LFC的方差取决于平均数）使下游分析和数据解释复杂化，因为它使得在数据的动态范围内难以比较效应大小。

DESeq2公司通过将LFC估计值缩小到零来克服这个问题，这样，当基因的可用信息较低时，收缩会更强，这可能是因为计数低、离散度高或自由度少。我们再次采用经验贝叶斯程序：我们首先进行普通GLM拟合以获得LFC的最大似然估计（MLE），然后将以零为中心的正态分布拟合到所有基因的MLE的观测分布。在第二轮GLM拟合中，此分布用作LFC的先验值，MAP估计值作为LFC的最终估计值保留。此外，还报告了每个估计值的标准误差，该误差是从最大后验曲率得出的（有关详细信息，请参见材料和方法）。这些收缩的LFC及其标准误差将用于下一节中描述的Wald差异表达式测试。

由此产生的MAP LFC偏向于零，从而消除了低计数放大LFC的问题。如图所示2B显示，最强的LFC不再由表达最弱的基因显示。相反，估计值更均匀地分布在零附近，对于非常弱表达的基因（每个样本的平均读数少于一），LFC几乎不会偏离零，这反映出这里不可能进行准确的LFC估计。

收缩强度不仅取决于平均数，还取决于可用于估算褶皱变化的信息量（如观察到的Fisher信息所示；参见材料和方法）。具有相同表达强度但不同分散度的两个基因将经历不同程度的收缩（图2C、 D）。LFC估计值的收缩可以描述为偏差-方差权衡[18]：对于LFC估计信息很少的基因，以接受零偏差为代价来减少强方差，这可能导致均方误差的整体减少，例如，与来自新数据集的LFC估计值进行比较时。在我们的方法中，具有用于LFC估计的高信息的基因将具有低偏差和低方差的LFC。此外，随着自由度的增加，实验为LFC估计提供了更多信息，收缩估计将收敛到非收缩估计。我们注意到贝叶斯在调节RNA-seq折叠变化方面的其他努力包括层次模型[8],[19]和GFOLD公司（或广义折叠变换）工具[20]，它使用LFC的后验分布。

与标准MLE LFC相比，缩小的MAP LFC提供了更具再现性的转录差异量化。为了证明这一点，我们将Bottomly等。将样本平均分为两组，即I组和II组，以便每组包含均衡的菌株分离，模拟一种场景，即执行、分析和报告实验（第一组样本），然后独立复制（第二组样本）。在每组中，我们估算了菌株之间的LFC，并使用MLE LFC（图三A）并使用MAP LFC（图三B） ●●●●。由于收缩将数据未很好支持的大型LFC移向零，因此两个独立样本组之间的一致性大大增加。因此，与正常的最大似然估计值相比，缩小的折迭估计值为定量结论提供了更可靠的依据。

这使得缩小的LFC也适合对基因进行排序，例如，为后续实验优先排序。例如，如果我们对图的两个样本组中的基因进行排序三通过未经筛选的LFC估计，并考虑到I组中具有最强上调或下调调节的100个基因，我们再次发现在II组中的前100个上调或下调基因中只有21个基因。然而，如果我们通过缩小的LFC估计对基因进行排序，重叠将提高到100个基因中的81个（附加文件1：图S3）。

一种更简单的常用方法是在形成比率之前将固定数（伪计数）添加到所有计数中。然而，这需要选择一个调谐参数，并且只对其中一个不确定性来源（低计数）作出反应，而不对基因特定的色散差异或样本大小作出反应。我们在基准第节。

差异表达的假设检验

在GLM适合每个基因后，可以测试每个模型系数是否与零显著不同。DESeq2公司报告每个缩小的LFC估计值的标准误差，该误差是从系数的后验曲率（图中的虚线2D）达到最大值。对于重要性测试，DESeq2公司使用Wald检验：LFC的缩小估计值除以其标准误差，得到z（z）-统计数据，与标准正态分布进行比较。（有关详细信息，请参见材料和方法。）Wald测试允许测试单个系数或系数对比，而无需像似然比测试一样拟合简化模型，尽管似然比检测也可以作为DESeq2公司Wald测试P（P）通过独立过滤步骤的基因子集的值，如下一节所述，使用Benjamini和Hochberg程序进行多重测试调整[21].

自动独立过滤

由于在RNA-seq分析和其他全基因组实验中进行了大量测试，因此需要解决多重测试问题。一个流行的目标是控制或估计FDR。多重测试调整往往与功率损失有关，即一组基因的FDR通常高于个体P（P）这些基因的价值。然而，如果在测试中省略了很少或没有机会被检测为差异表达的基因，则可以减少损失，前提是省略的标准独立于零假设下的测试统计数据[22]（见材料和方法）。DESeq2公司使用所有样本中每个基因的平均表达强度作为其过滤标准，并从多次测试调整中删除平均归一化计数低于过滤阈值的所有基因。DESeq2公司默认情况下将选择使在用户指定的目标FDR处发现的基因数量最大化的阈值。以数字表示2A、 B和三，以这种方式发现的在估计FDR为10%时显著的基因用红色表示。根据平均归一化计数的分布，功率的增加可能很大，有时会影响是否检测到任何差异表达的基因。

效应大小阈值的假设检验

指定最小效果大小

大多数差异表达式测试方法，包括DESeq2公司，针对的无效假设进行测试零利物浦俱乐部。然而，如果任何生物过程真的受到实验治疗差异的影响，这个无效假设意味着所考虑的基因是完美与这些过程解耦。由于细胞调控网络的高度互联性，这一假设实际上是不可信的，即使不是大多数基因，也可能是错误的。因此，在足够的样本量下，即使具有非常小但非零LFC的基因最终也将被检测为差异表达。因此，应考虑足够大的变化生物学意义重大对于小规模实验，统计显著性通常比生物学显著性更严格，因此研究人员无需确定生物学显著性的阈值。

然而，对于功能强大的实验，针对零LFC的传统零假设进行的统计测试可能会报告具有统计显著变化的基因，这些基因的影响强度很弱，可能会被视为无关或分散注意力。一个常见的程序是忽略估计LFC的基因β _红外低于某个阈值|β _红外|≤θ然而，正如报告所述，这种方法失去了易于解释的FDR的优势P（P）价值和调整P（P）值仍与测试相对应零利物浦俱乐部。因此，最好直接将阈值包括在统计测试程序中，也就是说，不要对报告的折叠变化进行事后过滤估计而是直接从统计上评估是否有足够的证据表明LFC高于所选阈值。

DESeq2公司为形式的复合零假设提供测试|β _红外|≤θ，其中β _红外是根据上述估算程序缩小的LFC。（详见材料和方法）图4A演示了这样一个阈值测试如何产生一个弯曲的决策边界：为了达到显著性，估计的LFC必须超过指定的阈值一个取决于可用信息的量。我们注意到，先前已经讨论过生成满足统计和生物学意义标准的基因列表的相关方法，用于微阵列数据[23]最近用于测序数据[19].

指定最大效果大小

有时，研究人员感兴趣的是寻找不受治疗或实验条件影响的基因，或者只是非常弱的基因。这相当于一个与刚才讨论的设置类似的设置，但零假设和替代假设的作用被互换了。我们在这里要求的是效果弱的证据，而不是效果为零的证据，因为后一个问题很少能处理。的含义虚弱的需要通过选择合适的阈值来量化手头的生物问题θ对于LFC。对于此类分析，DESeq2公司提供了复合零假设的测试|β _红外|≥θ，将报告有证据表明其LFC弱于θ.图4B显示了此类测试的结果。对于读取计数非常低的基因，即使是零LFC的估计也不重要，因为估计值的巨大不确定性不允许我们排除基因实际上可能受到实验条件的微弱影响。注意LFC收缩的缺失：为了找到差异表达较弱的基因，DESeq2公司要求已禁用LFC收缩。这是因为用于LFC收缩的零中心先验体现了先前的认为LFC往往很小，因此在这里是不合适的。

计数异常值的检测

检测差异表达的参数化方法可能会使LFC的全基因估计受到个别异常值的过度影响，这些异常值不符合模型的分布假设[24]. 这种异常值的一个例子是，所有样本中的基因都有一位数的计数，只有一个样本的计数为千。由于差异表达分析的目的通常是一贯地上调或下调基因，对于检测过度影响LFC估计和P（P）基因的值。标准的异常值诊断是库克距离[25]，在每个样本的每个基因内定义为系数向量的缩放距离， ${\vec{β}}_{我}$ 如果移除样品并重新安装模型，则GLM将移动。

DESeq2公司标记每个基因的库克距离大于0.99分位数的样本F类(第页,米−第页)分布，其中第页是包括截距在内的模型参数数量，以及米是样本数。使用F类分布的动机是启发式推理，即删除单个样本不应移动向量 ${\vec{β}}_{我}$ 在99%置信区间之外 ${\vec{β}}_{我}$ 使用所有样本进行拟合[25]. 然而，如果一个条件有两个或更少的重复，这些样本不会有助于异常检测，因为没有足够的重复来确定异常状态。

如何处理标记的异常值？在多次重复的实验中，丢弃离群值并继续处理剩余数据可能会充分利用可用数据。然而，在一个样本较少的小型实验中，异常值的存在可能会削弱对受影响基因的推断，而仅仅忽略异常值甚至可能被视为数据筛选，因此，将整个基因排除在下游分析之外更为谨慎。

因此，DESeq2公司为标记的异常值提供了两种可能的响应。默认情况下，六个或更少重复的条件下的异常值会导致标记整个基因并从后续分析中删除，包括P（P）多次测试的值调整。对于包含七个或更多重复的条件，DESeq2公司将离群值计数替换为插补值，即所有样本的修剪平均值，按大小因子缩放，然后重新估计离散度、LFC和P（P）这些基因的值。由于离群值被无差分表达式的零假设预测的值取代，这是一个比简单地忽略离群值更保守的选择。当存在多个自由度时，第二种方法避免丢弃可能包含真正差异表达的基因。

其他文件1：图S4显示了Bottomly七乘七比较中单个基因的异常值替换过程等。[16]数据集。虽然原始拟合平均值受单个样本的影响很大，但校正后的LFC对大多数样本的拟合效果更好。

正则对数变换

对于某些分析，转换数据以使其具有同态性是有用的。例如，考虑使用聚类或排序算法以无监督的方式评估样本相似性的任务。对于RNA-seq数据，出现了异方差的问题：如果将数据按原始计数尺度提供给这样的算法，结果将由高度表达、高度可变的基因控制；如果使用对数转换数据，则会过度重视弱表达基因，如上文所述，这些基因显示夸大的LFC。因此，我们使用收缩方法DESeq2公司实现正则对数转换（rlog），其行为类似于高计数基因的log2转换，同时将低计数基因的不同样本的值收缩在一起。因此，它避免了标准对数变换的一个常见观察特性，即低计数基因的数据分散，其中随机噪声很可能支配任何有生物学意义的信号。当我们考虑跨样本计算的每个基因的方差时，这些方差在rlog变换后是稳定的，即近似相同或同方差，而它们在其他方面则强烈依赖于平均数。因此，它有助于多元可视化和排序，如聚类或主成分分析，当变量具有类似的动态范围时，这些方法往往最有效。请注意，虽然rlog变换建立在我们的LFC收缩方法的基础上，但它与上述用于差分表达式分析的统计推断过程不同，而不是其一部分，后者使用原始计数，而不是变换后的数据。

rlog转换是通过使用与之前相同的经验贝叶斯程序（材料和方法），为每个基因拟合一个具有基线表达（即仅截距）的GLM，并计算每个样本相对于基线的收缩LFC来计算的。然而，这里没有使用样本协变量信息（例如处理或控制），因此所有样本都被平等对待。rlog转换解释了样本间测序深度的变化，因为它表示的是q个 _伊吉在考虑尺寸因素后秒 _ij公司这与中引入的过分散计数的方差稳定变换（VST）形成对比DESeq公司[4]：虽然VST在稳定方差方面也很有效，但它没有直接考虑大小因子的差异；在测序深度变化较大的数据集中（大小因子的动态范围 $≳$ 4）我们在VST的性能中观察到了不希望出现的伪影。然而，相对于VST而言，rlog变换的一个缺点是，如果相邻基因经历不同强度的收缩，则样本中的基因顺序将发生变化。与VST一样，rlog的值(K（K） _ij公司)对于大计数，近似等于log2(K（K） _ij公司/秒 _j个). rlog转换和VST都在DESeq2公司包裹。

我们演示了rlog变换在Hammer的RNA-seq数据集上的使用等。[26]其中，在结扎脊神经后2周和2个月，从接受脊神经结扎的大鼠和对照组的背根神经节中测序RNA。此数据集的计数矩阵是从ReCount联机资源下载的[27]. 此数据集提供了比Bottomly更细微的条件差异等。[16]数据集。图5提供了伪计数为1的普通对数和rlog变换下的归一化计数的诊断图，表明rlog既能稳定计数均值范围内的方差，又有助于在数据中找到有意义的模式。

基因水平分析

我们在这里DESeq2公司用于分析per-gene计数，即可以唯一分配给基因的读取总数。相比之下，有几种算法[28],[29]处理读取到转录本的概率分配，其中多个重叠的转录本可能来自每个基因。已经注意到，当事实上只有转录亚型长度改变时，总读取计数方法可能会导致差异表达的错误检测，甚至在极端情况下出现LFC的错误信号[28]. 然而，在下一节讨论的基准测试中，我们发现总读取计数和基于概率分配的方法之间的LFC符号差异对于根据任一方法差异表达的基因来说是罕见的（附加文件1：图S5）。此外，如果平均成绩单长度的估计值适用于这些条件，则可以将其纳入DESeq2公司框架作为基因和样本特异性标准化因子。此外DESeq2公司可以扩展到异构体特异性分析，也可以通过外显子水平的广义线性建模和基因特异性平均值，如DEXSeq公司包装[30]或通过计算剪接图中替代亚型的证据[31],[32]. 事实上，最新版本的DEXSeq公司现在使用DESeq2公司作为其推理引擎，so也为外显子分析提供了离散度和效应大小的收缩估计。

比较基准

评估进展情况DESeq2公司与其他当前方法相比，我们使用模拟和实际数据相结合的方法进行标准分析。基于阴性肿瘤的方法比较如下DESeq（旧）[4],边缘R[33],边缘R带有稳健选项[34],决策支持系统[6]和EB序列[35]. 其他比较方法包括声音归一化方法，然后使用利马包装[36]和SAMseq公司的置换方法萨姆包装[24]. 对于使用实际数据的基准袖口差异2[28]包括袖扣套件的方法。有关所用软件的版本号，请参阅附加文件1：表S3。对于所有返回的算法P（P）值P（P）使用Benjamini–Hochberg程序调整样本中读取计数总和非零的基因值[21].

通过模拟进行基准测试

灵敏度和精度我们用负二项分布计数模拟了10000个基因的数据集。为了用真实力矩模拟数据，从Pickrell的平均值和基因离散度估计值的联合分布中得出平均值和离散度等。数据，仅拟合截距项。这些数据集的总样本量不同(米∈{6,8,10,20}），并将样本分为两个大小相等的组；80%的模拟基因没有真正的差异表达，而对于20%的基因，使用2、3和4的真正折叠变化来生成两组的计数，折叠变化的方向是随机选择的。在整个平均计数范围内，在所有基因中随机选择模拟差异表达基因。附加文件中显示了模拟中使用的真实褶皱变化的MA-图以及其中一个模拟设置的模拟引起的观察褶皱变化1：图S6。

算法在模拟基准测试中的性能通过其灵敏度和精度进行评估。灵敏度计算为调整后的基因比例P（P）组间平均值有真正差异的基因间的值<0.1。精度计算为调整后的组平均值之间存在真正差异的基因的分数P（P）值<0.1。灵敏度绘制在1−精度或FDR上，如图所示6.DESeq2公司、以及边缘R在控制I类错误的算法中，通常具有最高的灵敏度，即实际FDR等于或低于0.1，即调整后的阈值P（P）用于调用差异表达基因的值。DESeq2公司与其他算法相比，具有更高的灵敏度，特别是对于小倍数变化（2或3），正如在Zhou执行的基准测试中发现的那样等。[34]. 对于较大的样本量和较大的折叠变化，各种算法的性能更加一致。

老年人过于保守的呼声DESeq公司可以观察到工具，与其他算法相比灵敏度降低，实际FDR小于标称值0.1。我们注意到EB序列默认情况下，1.4.0版在调用差异表达之前删除低计数基因，这些基因的标准化计数的75%分位数小于10。在“附加文件”中，比较了算法在计数平均值范围内对模拟数据的敏感性1：图S9。

异常灵敏度我们使用模拟来比较DESeq2公司的离群值处理方法边缘R，最近添加到软件中，并在审阅此手稿时发布。边缘R现在包括一种可选方法，在向下加权潜在异常值计数后，通过迭代重新调整GLM来处理异常值[34]. 模拟，总结在附加文件中1：图S10表明，这两种处理离群值的方法几乎恢复了无离群值数据集的性能，尽管边缘-圆形半身像实际FDR略高于标称FDR，如附加文件所示1：图S11。

褶皱变化估计的精度我们对DESeq2公司相对于两种相互竞争的方法，使用经验先验来实现LFC估计的收缩：g折叠无需复制即可分析实验的方法[20]也可以处理重复的实验边缘R该软件包提供了一种基于伪计数的收缩，称为预测LFC。结果总结在附加文件中1：图S12–S16。DESeq2公司在真实LFC分布的一系列样本大小和模型中，均具有持续较低的平方根误差和平均绝对误差。GFOLD公司具有类似的低误差DESeq2公司所有基因；然而，当关注差异表达的基因时，对于较大的样本量，它表现得更差。边缘R默认设置的错误率与DESeq2公司当只关注差异表达基因时，对所有基因的误差较大。

群集在恢复模拟集群时，我们将rlog变换的性能与其他变换或距离计算方法进行了比较。调整后的兰德指数[37]用于将基于不同距离的分层聚类与真实的聚类成员身份进行比较。我们测试了标准化计数、标准化计数的对数加上1的伪计数、rlog转换计数和VST计数的欧氏距离。此外，我们将这些欧几里德距离与波伊克拉克鲁包装[38]以及在内部实现的距离绘图MDS的功能边缘R（虽然不是默认距离，这类似于标准化计数的对数）。结果显示在附加文件中1：图S17显示，当所有样本的大小因子相等时，rlog-transformed或VST计数的泊松距离和欧氏距离优于其他方法。然而，当样本之间的大小因子不相等时，rlog方法通常优于其他方法。最后，我们注意到rlog转换提供了规范化数据，可用于各种应用，其中距离计算就是其中之一。

RNA测序数据基准

虽然仿真有助于验证算法在理想理论数据下的表现，因此可以验证算法在其自身假设下的表现是否符合预期，但仿真无法告诉我们理论与现实的吻合程度。对于RNA-seq数据，存在着不完全或直接了解潜在真相的复杂性；然而，我们可以通过使用更多的间接推断来绕过这个限制，如下所述。

在以下基准中，我们考虑了差异表达式调用的三个性能指标：假阳性率（或1减去特异性）、灵敏度和精确度。我们可以通过查看我们认为所有基因都处于无差异表达的无效假设下的数据集来获得有意义的特异性估计[39]. 敏感性和准确性更难估计，因为它们需要对差异表达的基因有独立的了解。为了避免这个问题，我们使用独立样本（尽管来自同一数据集）的实验再现性作为代理。我们使用了一个在两组中都有大量重复的数据集，我们期望在其中存在真正差异表达的基因。我们反复将该数据集拆分为一个评估集和一个更大的验证集，并将来自评估集的调用与来自验证集的调用进行了比较，这被视为事实。重要的是要记住，来自验证集的调用只是真实微分状态的近似，并且近似误差具有系统性和随机性成分。一旦验证集的样本量足够大，随机误差就会变小。对于系统误差，我们的基准假设这些误差或多或少地影响所有算法，并且不会显著改变算法的排名。

假阳性率为了评估算法的假阳性率，我们考虑了一个数据集的模拟比较，该数据集具有多个样本，并且没有已知条件将样本划分为不同的组。我们使用了皮克雷尔的RNA-seq数据等。[17]来自非亲缘尼日利亚人的淋巴母细胞系。我们从男性个体中选择了26个相同读取长度（46个碱基对）的RNA-seq样本。我们在不更换的情况下从样本集中随机抽取10个样本，将5个样本与5个样本进行比较，这个过程重复了30次。我们通过除以P（P）总试验次数小于0.01；排除了样本间读取计数之和为零的基因。30次复制的结果如图所示7，表明所有算法通常控制假阳性的数量。DESeq（旧）和袖口差异2在分析中显得过于保守，没有用完I类错误预算。

敏感为了了解算法的敏感性，我们考虑了Bottomly等。[16]数据集，其中包含两种不同的、基因同源的小鼠菌株的十个和十一个重复。这使得评估集可以分成三对三，验证集可以分成七对八，这在三个实验批次中是平衡的。随机分割重复30次。批信息未提供给DESeq（旧）,DESeq2公司,决策支持系统,边缘R或声音算法，能够适应复杂的实验设计，在所有算法中具有可比较的调用。

我们轮流使用每个算法来确定验证集的调用。对于给定算法的验证集调用，我们测试了每个算法的求值集调用。我们使用了这种方法，而不是基于共识的方法，因为我们不想赞成或反对任何特定的算法或算法组。灵敏度按照模拟基准进行计算，现在通过调整后的P（P）如附加文件中所示，较大验证集中的值<0.11：图S18。图8显示每个算法对的灵敏度估计。

无论选择哪种算法来确定验证集中的调用，算法的排名通常是一致的。DESeq2公司对边缘R和声音虽然小于决策支持系统所有算法的敏感性中位数估计值通常在0.2到0.4之间。所有算法都具有相对较低的中值灵敏度，这可以通过评估集的小样本量和增加验证集中的样本量增加功率的事实来解释。预计基于排列SAMseq公司这种方法很少会产生调整后的结果P（P）值<0.1，因为三对三的比较无法实现足够的排列。

精密度从研究者的角度来看，另一个重要的考虑因素是通过调整后的基因集合中的准确度或真阳性的分数P（P）值阈值。这也可以报告为1−FDR。同样，“true”差分表达式是由P（P）值<0.1。精度估计值如图所示9，在那里我们可以看到DESeq2公司中位数精度通常位居第二，仅次于DESeq（旧）我们还可以看到具有较高中值灵敏度的算法，例如。，决策支持系统通常与中位数精度较低相关。当袖口差异2用于确定验证集调用。这可能是由于其他步骤袖口差异2用于将异构体水平丰度的变化从基因水平丰度中分离出来，与自己的验证集调用相比，这显然是以较低的精度为代价的。

为了进一步比较灵敏度和精度结果，我们沿标称调整网格计算了算法的精度P（P）值（附加文件1：图S19）。然后我们发现名义调整值P（P）每个算法的值，其实际精度中值为0.9（FDR=0.1）。因此，在将每个算法校准为目标FDR后，我们评估了调用的灵敏度，如附加文件所示1：图S20。正如预期的那样，在这里，算法的执行情况更加相似。该分析表明，对于给定的目标精度，DESeq2公司虽然随机复制的变异性大于算法之间的差异，但按中位数敏感性来看，通常是最佳算法之一。

评估和验证集的绝对调用数可以在附加文件中查看1：图S21和S22，主要与图的灵敏度图中的顺序相匹配8.其他文件1：图S23和S24提供了基于Jaccard索引的热图和聚类，该索引针对评估和验证集的一个副本进行调用，表明不同算法之间的调用存在较大重叠。

总之，基准测试表明DESeq2公司有效地控制了I型错误，在模拟比较从更大的样本库中随机选择的样本组时，将中位假阳性率保持在略低于所选临界值的水平。对于真实数据的模拟和分析，DESeq2公司在那些控制FDR的算法中，通常达到了最高的灵敏度。

结论

DESeq2公司为RNA-seq数据的基因水平分析提供了全面而通用的解决方案。与基于极大似然的解决方案相比，收缩率估计器大大提高了分析结果的稳定性和再现性。经验贝叶斯先验根据数据中可用估计数量的信息量自动控制收缩量。这允许DESeq2公司在大量数据类型上提供一致的性能，并使其适用于重复次数少的小型研究以及大型观察研究。DESeq2公司的离群值检测启发式算法有助于识别建模假设不适合的基因，从而避免由这些假设引起的I型错误。将这些策略嵌入GLM框架中，可以处理简单和复杂的设计。

一个关键的进步是用于差异表达分析的折叠变化收缩估计器，它为在RNA-seq实验的大动态范围内比较折叠变化这一实际相关问题提供了一个可靠且具有统计基础的解决方案。这对于许多下游分析任务都很有价值，包括后续研究的基因排序以及折叠变化与其他感兴趣变量的关联。此外，rlog变换在每个样本的基础上实现了褶皱变化的收缩，有助于差异的可视化，例如在热图中，并允许应用需要同态输入数据的广泛技术，包括机器学习或排序技术，如主成分分析和聚类。

DESeq2公司因此，为从业者提供了一系列具有最先进推理能力的功能。其用例不限于RNA-seq数据或其他转录组学分析；相反，可以使用多种高通量计数数据。其他领域DESeq公司或DESeq2公司已用于染色质免疫沉淀测序分析（例如[40]; 另请参见差异绑定包装[41],[42])，基于条形码的分析（例如[43])，宏基因组数据（例如[44])，核糖体图谱[45]和CRISPR/Cas文库测定[46]. 最后DESeq2公司包在生物导体基础设施中集成良好[11]并附带了大量文档，包括一个小插曲，该小插曲逐步演示了完整的分析并讨论了高级用例。

材料和方法

附加文件中提供了以下章节中使用的符号摘要1：表S1。

模型和规范化

读取计数K（K） _ij公司对于基因我在样品中j个用带对数链接的负二项族的GLM描述：

\begin{matrix} {K（K）}_{ij公司} & \sim 注 (意思是 = μ_{ij公司}, 分散，分散 = α_{我}) \\ μ_{ij公司} & = 秒_{ij公司} {q个}_{ij公司} \end{matrix}

(1)

日志 {q个}_{ij公司} = \sum_{第页} {x个}_{年少者} β_{红外} .

（2）

为了简化符号，这里的方程式使用自然对数作为链接函数，尽管DESeq2公司软件在log2尺度上报告估计的模型系数及其估计的标准误差。

默认情况下，标准化常量秒 _ij公司在样品中被视为常数，秒 _ij公司=秒 _j个，并使用之前描述和使用的比率中位数方法进行估计DESeq公司[4]和DEX当量[30]:

秒_{j个} = \underset{我 : {K（K）}_{我}^{对} \neq 0}{中值的} \frac{{K（K）}_{伊吉}}{{K（K）}_{我}^{对}} 具有 {K（K）}_{我}^{对} = {(\prod_{j个 = 1}^{米} {K（K）}_{ij公司})}^{1 / 米} .

或者，用户可以提供标准化常数秒 _ij公司使用其他方法计算（例如，使用立方厘米[13]或EDASeq公司[14])这可能因基因而异。

扩展的设计矩阵

为了与我们的软件文档保持一致，在下面的文本中，我们将使用对统计语言。在线性建模中，分类变量或因素可以采用两个或多个值，或者水平在标准设计矩阵中，选择其中一个值作为参考值或基准面并被截获。在标准GLM中，基准水平的选择不会影响对比度（LFC）的值。然而，在我们的方法中，当设计矩阵中存在两个以上水平的因素时，系数（如下所述）上的脊状再回归收缩不再是这种情况，因为基准面不会收缩，而其他水平会收缩。

为了恢复所有级别之间所需的对称性，DESeq2公司使用扩展设计矩阵，其中包括一个用于每个除截距列外，每个因子的水平（即，没有任何水平被截距吸收）。虽然这样的设计矩阵不再具有满秩，但存在唯一的解决方案，因为以零为中心的先验分布（见下文）提供了正则化。对于色散估计和LFC先验宽度估计，使用标准设计矩阵。

对比

此类对比度的水平和标准误差之间的对比度可以按照标准设计矩阵的情况进行计算，即使用：

β_{我}^{c（c）} = \vec{c（c）}^{t吨} \vec{β_{我}}

(3)

东南方 (β_{我}^{c（c）}) = \sqrt{\vec{c（c）}^{t吨} Σ_{我} \vec{c（c）}},

(4)

哪里 $\vec{c（c）}$ 表示数值对比度，例如，1和−1指定简单两级对比度的分子和分母，以及 $Σ_{我} = Cov公司 ({\vec{β}}_{我})$ ，定义如下。

分散度估算

我们假设色散参数α _我遵循以趋势为中心的对数正态先验分布，该趋势取决于基因的平均标准化读取计数：

日志 α_{我} \sim N个 (日志 α_{tr公司} ({\bar{μ}}_{我}), σ_{d日}^{2}) .

(5)

在这里，α _tr公司是基因平均归一化计数的函数，

{\bar{μ}}_{我} = \frac{1}{米} \sum_{j个} \frac{{K（K）}_{ij公司}}{秒_{伊吉}} .

它描述了先验的均值相关期望。σ _d日是先验值的宽度，这是一个超参数，描述单个基因在趋势上的真实分散程度。对于趋势函数，我们使用的参数化与我们使用的相同DEXSeq公司[30]即，

α_{tr公司} (\bar{μ}) = \frac{一_{1}}{\bar{μ}} + α_{0} .

（6）

我们通过三个步骤从该模型中获得最终的离散度估计，这实现了对完全经验贝叶斯处理的计算快速近似。我们首先分别使用每个基因的计数数据来获得初步的基因离散度估计 $α_{我}^{千兆瓦}$ 通过最大似然估计。然后，我们拟合离散趋势α _tr公司最后，我们将可能性与趋势相结合，以获得最大值后部（MAP）值作为最终分散估计值。以下是三个步骤的详细信息。

基因离散度估计获得基因的基因离散度估计我，我们首先拟合一个负二项式GLM，在设计矩阵之前没有LFCX（X）基因计数数据。该GLM使用基于组内方差和平均值的离散度估计的粗略方法。初始GLM是获得初始拟合值集所必需的， ${\hat{μ}}_{ij公司}^{0}$ 然后，根据拟合值，我们将Cox–Reid调整后的离散可能性最大化 ${\hat{μ}}_{伊吉}^{0}$ 从初始拟合开始，得到全基因估计 $α_{我}^{千兆瓦}$ 即。，

α_{我}^{千兆瓦} = \underset{α}{arg最大值} ℓ_{CR公司} (α; {\vec{μ}}_{我 \cdot}^{0}, {\vec{K（K）}}_{我 \cdot})

具有

\begin{matrix} ℓ_{CR公司} (α; \vec{μ}, \vec{K（K）}) & = ℓ (α) - \frac{1}{2} 日志 (det（探测） ({X（X）}^{t吨} WX公司)) \\ ℓ (α) & = \sum_{j个} 日志 {（f）}_{注} ({K（K）}_{j个}; μ_{j个}, α), \end{matrix}

(7)

哪里（f） _注(k个;μ,α)是具有平均值的负二项分布的概率质量函数μ和分散α，第二项提供了Cox-Reid偏差调整[47]. 这种调整，首次用于SAGE数据的色散估计[48]然后针对HTS数据[三]英寸边缘R，修正了使用拟合值的最大似然估计值得出的色散估计值的负偏差 ${\hat{μ}}_{ij公司}^{0}$ （类似于常用样本方差公式中的贝塞尔修正；有关详细信息，请参见[49]，第10.6节）。它由拟合值的Fisher信息构成，此处计算为det(X（X） ^t吨W公司 X（X）)，其中W公司是标准迭代加权最小二乘算法的对角线权重矩阵。由于GLM的链接功能是克(μ)=对数(μ)其方差函数为V（V）(μ;α)=μ+α μ ²，对角矩阵的元素W公司 _我由以下人员提供：

{w个}_{日本} = \frac{1}{克^{'} {(μ_{j个})}^{2} V（V） (μ_{j个})} = \frac{1}{1 / μ_{j个} + α} .

方程中的优化(7)按对数的比例执行α对满足Armijo条件的已接受提案使用回溯线搜索[50].

分散趋势形状的参数曲线(6)通过回归基因离散度估计进行拟合 $α_{我}^{格温}$ 归一化计数的平均值， ${\bar{μ}}_{我}$ .围绕真值的基因离散估计的抽样分布α _我可以是高度扭曲的，因此我们不使用普通的最小二乘回归，而是使用γ族GLM回归。此外，离散异常值可能会扭曲拟合，因此使用了一种排除此类异常值的方案。

超参数一 ₁和α ₀第页，共页(6)通过迭代拟合γ族GLM获得。在每次迭代中，离散度与拟合值之比超出范围[10的基因⁻⁴，15]被忽略，直到新系数与旧系数的平方LFC之和小于10⁻⁶（与中的方法相同DEXSeq公司[30]).

参数化(6)是基于我们和其他人关于许多数据集中离散度对平均值依赖性降低的报告[三]-[6],[51]. 需要注意的是，要从估计偏差的影响中分离出真正的潜在依赖性，因为估计偏差可能会产生离散度对平均值的感知依赖性。考虑一个负二项分布的期望随机变量μ和分散α.其方差v（v）=μ+α μ ²有两个组件，v（v）=v（v） _P（P）+v（v） _D类，泊松分量v（v） _P（P）=μ独立于α和过分散分量v（v） _D类=α μ ².何时μ很小，μ≲1/α（附加文件中的垂直线1：图S1），泊松分量占主导地位，从某种意义上说 ${v（v）}_{P（P）} / {v（v）}_{D类} = 1 / (αμ) ≳ 1$ ，而观测数据提供的关于α因此α当μ≲1/α这导致了偏见的出现。为了简单起见，我们在不考虑尺寸因素影响的情况下陈述了上述论点，秒 _j个，关于的价值μ这是允许的，因为通过构造，我们的尺寸系数的几何平均值接近1，因此，非标准化读取计数的样本平均值， $\frac{1}{米} \sum_{j个} {K（K）}_{ij公司}$ ，以及标准化读取计数的平均值， $\frac{1}{米} \sum_{j个} {K（K）}_{ij公司} / 秒_{j个}$ ，将大致相同。

这种现象可能会导致明显的α在μ.弥散平均值的形状可能适合Bottomly数据（图1A）可以这样解释：渐近色散是α ₀≈0.01，平均离散图的非零斜率限制在平均计数的范围内，约为100α ₀然而，高估了α在这个低计数范围内，对推断几乎没有影响，因为在这个范围内，方差v（v）无论如何都是由α-独立泊松分量v（v） _P（P）Pickrell数据的情况有所不同：这里，对于明显高于渐近弥散倒数的计数，观察到弥散对平均值的依赖性α ₀（图1B），因此不仅仅是由于估计偏差。仿真（显示在附加文件中1：图S25）证实，观察到的估计分散度和平均值的联合分布与单个恒定分散度不兼容。因此，参数化(6)是一种灵活且适度保守的建模选择：如果存在色散均值依赖性，它能够拾取色散均值依赖性，而在低计数范围内，由于有高估色散的趋势，它可能会导致功率的轻微损失。

色散优先正如吴所观察到的等。[6]，对数正态先验拟合了典型RNA-seq数据集的观测弥散分布。我们使用以下参数解决了在处理非共轭数据之前的计算困难：趋势拟合的对数残差， $日志 α_{我}^{格温} - 日志 α_{tr公司} ({\bar{μ}}_{我})$ ，由两个贡献引起，即趋势周围真实对数离散度的散布，由方差先验给出 $σ_{d日}^{2}$ ，以及带方差的离散估计量对数的抽样分布 $σ_{低密度聚乙烯}^{2}$ 色散估计器的采样分布近似为按比例χ ²分配米−第页自由度，具有米样品数量和第页系数的数量。的对数方差 $χ_{（f）}^{2}$ -给出了分布随机变量[52]通过三角函数ψ ₁,

变量 日志 {X（X）}^{2} = ψ_{1} (（f） / 2) 对于 {X（X）}^{2} \sim χ_{（f）}^{2} .

因此， $σ_{低密度聚乙烯}^{2} \approx ψ_{1} ((米 - 第页) / 2)$ 也就是说，方差或离散估计量的对数的抽样方差在基因间近似为常数，并且仅取决于模型的自由度。

其他文件1：表S2比较了对数弥散估计方差的近似值与模拟负二项数据的对数Cox–Reid调整弥散估计的方差，在不同样本大小、参数数量和用于创建模拟数据的弥散值的组合上。近似值接近各种典型值的样本方差米,第页和α.

因此，先验方差 $σ_{d日}^{2}$ 通过从对数残差方差估计值中减去预期抽样方差得到， $秒_{爱尔兰}^{2}$ :

σ_{d日}^{2} = 最大值 \{秒_{爱尔兰}^{2} - ψ_{1} ((米 - 第页) / 2), 0.25\} .

先验方差 $σ_{d日}^{2}$ 将阈值设置为最小值0.25，以便分散估计值不会完全缩小到 $α_{tr公司} ({\bar{μ}}_{我})$ 如果对数残差的方差小于预期的抽样方差。

为了避免通货膨胀 $σ_{d日}^{2}$ 由于离散离群值（即该先验没有很好地捕捉到的基因；见下文），我们使用了标准偏差的稳健估计秒 _爱尔兰对数残差，

秒_{爱尔兰} = \underset{我}{疯狂的} (日志 α_{我}^{千兆瓦} - 日志 α_{tr公司} ({\bar{μ}}_{我})),

(8)

其中，mad代表绝对偏差中值，通常除以比例因子Φ ⁻¹（3/4）。

三个或更少的残余自由度当有三个或更少的剩余自由度（样本数减去要估计的参数数）时，先验方差的估计 $σ_{d日}^{2}$ 使用对数残差的观测方差 $秒_{爱尔兰}^{2}$ 倾向于低估 $σ_{d日}^{2}$ 在这种情况下，我们通过模拟来估计先验方差。我们将对数残差的分布与模拟对数残差密度相匹配。这些是的对数 $χ_{米 - 第页}^{2}$ -分布式随机变量添加到 $N个 (0, σ_{d日}^{2})$ 随机变量，以解释由于先验造成的价差。模拟分布被−log移位(米−第页)以说明χ ²分配。我们在数值网格上重复模拟 $σ_{d日}^{2}$ ，并选择从对数残差的观测密度到模拟密度的Kullback–Leibler发散最小化的值。

最终分散估算我们根据Cox–Reid调整后的对数似然形成了离散度的对数后验(7)和对数先验(5)并使用其最大值（即MAP值）作为离散度的最终估计，

α_{我}^{地图} = \underset{α}{arg最大值} (ℓ_{CR公司} (α; {\vec{μ}}_{我 \cdot}^{0}, {\vec{K（K）}}_{我 \cdot}) + Λ_{我} (α)),

(9)

哪里

Λ_{我} (α) = \frac{- {(日志 α - 日志 α_{tr公司} ({\bar{μ}}_{我}))}^{2}}{2 σ_{d日}^{2}},

是先验密度的对数，直到一个加法常数(5). 同样，使用回溯线搜索来执行优化。

分散离群值对于一些基因，基因的估计 $α_{我}^{千兆瓦}$ 远超预期 $α_{tr公司} ({\bar{μ}}_{我})$ 假设优先基因适用于该基因是不合理的。如果这些基因的离散估计值朝着拟合的趋势下调，这可能会导致假阳性。因此，如果趋势拟合的残差大于对数残差的两个标准差，我们使用将基因视为离散离群值的启发式方法，秒 _爱尔兰（见方程式(8))，即如果

日志 α_{我}^{千兆瓦} > 日志 α_{tr公司} ({\bar{μ}}_{我}) + 2 秒_{爱尔兰} .

对于这些基因，基因评估 $α_{我}^{千兆瓦}$ 不会缩小到趋势前均值。而不是MAP值 $α_{我}^{地图}$ ，我们使用基因估算 $α_{我}^{千兆瓦}$ 作为后续步骤中的最终分散值。此外，上述参数分散趋势的迭代拟合过程避免了此类分散离群值影响先验平均值。

对数褶皱变化的收缩率估计

为了合并LFC的经验Bayes收缩，我们假设系数的正态先验为零中心β _红外模型的(2)代表LFC（即，通常，除截距外的所有系数β _我0):

β_{红外} \sim N个 (0, σ_{第页}^{2}) .

(10)

正如使用微阵列的差异表达分析所观察到的那样，具有低强度值的基因往往遭受小的信噪比。可以找到比折叠变化的标准计算更稳定的替代估计值，作为每个条件的平均观测值的比率[53]-[55].DESeq2公司的方法可以看作是这些方法的扩展，用于稳定估计计数数据的基因表达倍数变化。

经验先验估计获取经验先验宽度值σ _第页对于模型系数，我们再次近似于完全经验贝叶斯方法，就像离散先验估计一样，尽管这里我们没有从最大似然估计的观测方差中减去预期抽样方差。LFC先验宽度的估计值计算如下。我们使用标准的迭代加权最小二乘算法[12]对于每个基因的模型，方程式(1)和(2)，以获得系数的MLE $β_{红外}^{MLE公司}$ 。然后，我们对每一列进行拟合第页设计矩阵（除截距外）的零中心正态分布到MLE折叠变化估计的经验分布 ${\vec{β}}_{第页}^{MLE公司}$ .

为了使拟合对具有极高绝对LFC值的异常值具有鲁棒性，我们使用分位数匹配：宽度σ _第页选择（1−第页)观测到的LFC绝对值的经验分位数， ${\vec{β}}_{第页}^{MLE公司}$ ，匹配（1−第页/2）先验的理论分位数， $N个 (0, σ_{第页}^{2})$ ，其中第页默认设置为0.05。如果我们把正态分布的理论上分位数写成问 _N个(1−第页)MLE LFC的经验上分位数为 $问_{| β_{第页} |} (1 - 第页)$ ，则先验宽度计算为：

σ_{第页} = \frac{问_{| β_{第页} |} (1 - 第页)}{问_{N个} (1 - 第页 / 2)} .

确保之前的宽度σ _第页将独立于基准水平的选择，分位数匹配过程中的估计值将在所有可能的因子水平对比中对每个因子进行平均。确定经验上分位数时，LFC极值( $|β_{红外}^{MLE公司}| > 日志 (2) 10$ ，或以2为基数的10）除外。

对数褶皱变化的最终估计向量的对数后验， ${\vec{β}}_{我}$ ，属于模型系数β _红外对于基因我是GLM的对数似然之和(2)和先验密度的对数(10)，并且其最大值产生最终MAP系数估计：

{\vec{β}}_{我} = \underset{\vec{β}}{arg最大值} (\sum_{j个} 日志 {（f）}_{注} ({K（K）}_{ij公司}; μ_{j个} (\vec{β}), α_{我}) + Λ (\vec{β})),

哪里

μ_{j个} (\vec{β}) = 秒_{ij公司} {e（电子）}^{\sum_{第页} {x个}_{年少者} β_{第页}}, Λ (\vec{β}) = \sum_{第页} \frac{- β_{第页}^{2}}{2 σ_{第页}^{2}},

和α _我是基因的最终离散估计我即。， $α_{我} = α_{我}^{地图}$ ，除了分散离群值，其中 $α_{我} = α_{我}^{千兆瓦}$ .

术语Λ(β)也就是说，正态先验密度的对数（直到一个加法常数）可以被视为岭惩罚项，因此，我们使用迭代重加权岭回归算法[56]，也称为加权更新[57]. 具体来说，给定基因的更新形式如下

\vec{β} \leftarrow {({X（X）}^{t吨} WX公司 + \vec{λ} 我)}^{- 1} {X（X）}^{t吨} W公司 \vec{z（z）},

具有 $λ_{第页} = 1 / σ_{第页}^{2}$ 和

{z（z）}_{j个} = 日志 \frac{μ_{j个}}{秒_{j个}} + \frac{{K（K）}_{j个} - μ_{j个}}{μ_{j个}},

其中当前拟合值 $μ_{j个} = 秒_{j个} {e（电子）}^{\sum_{第页} {x个}_{jr公司} β_{第页}}$ 根据当前估计值计算 $\vec{β}$ 在每个迭代中。

费希尔信息。以零为中心的正态先验的影响可以理解为基于实验为该系数提供的信息量收缩MAP LFC估计，我们在此简要阐述这一点。具体来说，对于给定的基因我，LFC的收缩率β _红外取决于观察到的Fisher信息，由提供

{J型}_{米} ({\hat{β}}_{红外}) = - {[\frac{\partial^{2}}{\partial β_{红外}^{2}} ℓ ({\vec{β}}_{我}; \vec{{K（K）}_{我}}, α_{我})]}_{β_{红外} = {\hat{β}}_{红外}},

哪里 $ℓ ({\vec{β}}_{我}; \vec{{K（K）}_{我}}, α_{我})$ 是似然的对数，对LFC进行偏导数β _红外对于负二项式GLM，观察到的Fisher信息或轮廓似然对数的峰值性受到许多因素的影响，包括自由度、估计的平均计数μ _ij公司和基因的离散估计α _我当似然密度和先验密度相乘以计算后验时，先验影响MAP估计。具有低估计平均值的基因μ _ij公司或高分散性估计α _我与剩余自由度很少的数据集一样，具有更平坦的轮廓可能性，因此在这些情况下，以零为中心的先验将MAP估计从高不确定性MLE拉近到零。

沃尔德试验

Wald测试比较了β估计值β _红外除以其估计标准误差SE(β _红外)达到标准正态分布。估计的标准误差是估计协方差矩阵对角元素的平方根，Σ _我，对于系数，即。， $东南方 (β_{红外}) = \sqrt{Σ_{我, rr（无线电频率）}}$ 。通过使用(三)和(4). 对于系数具有正态先验的GLM，我们使用以下公式计算系数协方差矩阵[56], [58]:

Σ_{我} = Cov公司 ({\vec{β}}_{我}) = {({X（X）}^{t吨} WX公司 + \vec{λ} 我)}^{- 1} ({X（X）}^{t吨} WX公司) {({X（X）}^{t吨} WX公司 + \vec{λ} 我)}^{- 1} .

将标准正态分布的尾部积分乘以2，以实现双尾检验。Wald测试P（P）使用Benjamini和Hochberg程序对通过独立筛选步骤的基因子集的值进行调整，以进行多次测试[21].

独立过滤

只要测试统计量的分布与过滤器统计量有一定的独立性，独立过滤就不会影响I类错误控制在零假设下[22]，我们在下面论证，这就是我们应用程序中的情况。中的筛选器统计信息DESeq2公司是基因归一化计数的平均值，而测试统计是第页，的P（P）Wald测试的值。我们首先考虑这样一种情况，即大小因子相等，并且对每个基因使用基因离散估计，即没有离散收缩。负二项分布族的参数化为θ=(μ,α). 除了离散性第页由于计数低，对于给定的μ，分布第页在零假设下是一致的（0,1），所以第页是一个辅助统计数据。基因计数的样本平均值我, ${\bar{K（K）}}_{我}$ ，有界完全足以μ然后根据巴苏定理， ${\bar{K（K）}}_{我}$ 和第页都是独立的。

而对于非常低的计数，可以观察到第页在零假设下，DESeq2公司不使用第页在其估算过程中-例如，DESeq2公司不使用以下分布估计无效基因的比例第页–所以这种依赖第页在μ不会导致I型错误增加。

如果样本中的尺寸系数不相等，但与条件无关，则以平均值为条件归一化的计数还应提供均匀分布第页就像对计数平均值的调节一样， ${\bar{K（K）}}_{我}$ 我们可以考虑一种病理情况，其中大小因子与条件完全混淆，在这种情况下，即使在无效假设下，平均数低的基因也会有不均匀的分布第页，因为一种情况可能有正计数，而另一种情况通常为零计数。这可能导致第页在零假设下；然而，这种病理情况会给许多平均值差异的统计检验带来问题。

我们通过仿真证明，对于色散收缩，测试统计量的零分布与滤波器统计量的独立性仍然成立。附加文件1：图S26显示了第页在平均归一化计数范围内。尽管由于数据的离散性，平均数最低的基因分布出现峰值，但这些密度在平均表达强度范围内几乎是一致的。

复合零假设

DESeq2公司为形式的复合零假设提供测试 $ℋ_{0} : | β_{红外} | \leq θ$ 寻找LFC显著超过阈值的基因θ>0.复合零假设被两个简单的零假设取代： $ℋ_{0 一} : β_{红外} = θ$ 和 $ℋ_{0 b条} : β_{红外} = - θ$ .双尾P（P）值是通过对以为中心的正态分布进行积分而生成的θ标准偏差SE(β _红外)来自|β _红外|朝向∞然后将积分的值乘以2，并以1为阈值。此程序控制I类错误，即使在β _红外=±θ，与标准相当DESeq2公司 P（P）值，当θ=0.

相反，当搜索绝对LFC显著低于阈值的基因时，即当测试无效假设时 $ℋ_{0} : | β_{红外} | \geq θ$ ，的P（P）值被构造为简单零假设的两个单侧测试的最大值： $ℋ_{0 一} : β_{红外} = θ$ 和 $ℋ_{0 b条} : β_{红外} = - θ$ .片面P（P）值是通过对以θ标准偏差SE(β _红外)来自β _红外朝向−∞，并积分以−为中心的正态分布θ标准偏差SE(β _红外)来自β _红外朝向∞.

请注意，虽然LFC上的以零为中心的先验与测试小型LFC的零假设是一致的，但在测试大型LFC的无效假设时不应使用它，因为先验会支持替代假设。DESeq2公司要求在测试大型LFC的零假设时没有使用先验信息，因此数据本身必须提供证据来反对零假设。

互动

默认情况下的两个例外DESeq2公司LFC估计步骤用于带有交互项的实验设计。首先，当设计中包含任何交互项时，主效应项的LFC先验宽度不是从数据中估计的，而是设置为一个宽值( $σ_{第页}^{2} = {(日志 (2))}^{2} 1000$ ，或以2为基数的1000）。这确保了主效应项的收缩不会导致对交互作用意义的错误肯定。第二，当包含交互项且所有因素都有两个水平时，则使用标准设计矩阵而不是扩展模型矩阵，以便仅使用一个项来测试无效假设，即两种效应的组合在对数尺度上只是相加的。

正则对数

rlog转换计算如下。实验设计矩阵X（X）用设计矩阵替换，除了截距列外，每个样本都有一个指示变量。方程式中描述的模型(1)和(2)在非干扰项之前使用以零为中心的法线拟合，并使用拟合的离散值 $α_{tr公司} (\bar{μ})$ ，它捕获数据集的总体方差-依赖性。真正的实验设计矩阵X（X）然后仅用于估计所有基因的方差-均值趋势。对于非监督分析，例如样品质量评估，实验设计最好对转换没有影响，因此DESeq2公司默认情况下，忽略设计矩阵，并重新估计将所有样本作为复制品处理的分散度，即使用失明的色散估计。rlog转换值是拟合值，

rlog日志 ({K（K）}_{ij公司}) \equiv \underset{2}{日志} {q个}_{伊吉} = β_{我 0} + β_{ij公司},

哪里β _ij公司是以2为基数的收缩LFCj个第个样本。通过将以零为中心的正态分布与观测LFC相匹配，使用与微分表达式类似的方法设置先验方差。首先，通过取归一化计数的对数（以2为底）加上伪计数来计算LFC矩阵 $\frac{1}{2}$ 每个样本除以归一化计数平均值加上伪计数 $\frac{1}{2}$ 。的伪计数 $\frac{1}{2}$ 允许计算所有基因的对数比，并且对之前或最终rlog变换的方差估计几乎没有影响。然后，LFC矩阵表示每个样本与仅使用截距的拟合值的共刻度对数比。通过将以零为中心的正态分布的97.5%分位数与LFC矩阵中绝对值的95%分位数相匹配，可以找到先验方差。

用于异常值检测的库克距离

的MLE ${\vec{β}}_{我}$ 用于计算库克距离。考虑一个基因我和样品j个，库克对GLM的距离由下式给出[59]:

{D类}_{ij公司} = \frac{对_{ij公司}^{2}}{τp} \frac{{小时}_{日本}}{{(1 - {小时}_{日本})}^{2}},

哪里对 _ij公司是样本的皮尔逊残差j个,τ是过度分散参数（在负二项式GLM中，τ设置为1），第页是包括截距在内的参数数量，以及小时 _日本是j个hat矩阵的第个对角元H（H）:

H（H） = {W公司}^{1 / 2} X（X） {({X（X）}^{t吨} WX公司)}^{- 1} {X（X）}^{t吨} {W公司}^{1 / 2} .

皮尔逊残差对 _ij公司计算为

对_{ij公司} = \frac{({K（K）}_{ij公司} - μ_{伊吉})}{\sqrt{V（V） (μ_{ij公司})}},

哪里μ _ij公司由负二项GLM估计，无需LFC先验，并使用方差函数V（V）(μ)=μ+α μ ².动量估计方法 $α_{我}^{抢劫}$ ，使用稳健的方差估计 $秒_{我, 抢劫}^{2}$ 为了对异常值提供鲁棒性，这里使用了：

α_{我}^{抢劫} = 最大值 (\frac{秒_{我, 抢劫}^{2} - {\bar{μ}}_{我}}{{\bar{μ}}_{我}^{2}}, 0) .

R/生物导体组件

DESeq2公司作为R统计环境的包实现，并且可用[10]作为生物导体项目的一部分[11]. 计数矩阵和元数据，包括基因模型和样本信息，存储在从总结性实验的类基因组范围包装[60].总结性实验使用summarizeOverlaps（摘要重叠）的功能基因组比对包装[61]. 此工作流自动将基因模型存储为元数据以及其他信息，例如基因组和基因注释版本。获取计数矩阵的其他方法包括htseq计数脚本[62]和生物导体包easyRNA序列[63]和功能计数[64].

这个DESeq2公司软件包附带了一个详细的vignette，它通过对真实数据集的一些示例差分表达式分析，以及使用rlog转换进行质量评估和可视化。单个函数，称为DESeq公司，用于运行默认分析，而低级功能也可用于高级用户。

读取底部对齐等。和皮克雷尔等。数据集

使用TopHat2校准仪校准读数[65]，并使用summarizeOverlaps（摘要重叠）的功能基因组范围包装[60]. Pickrell的序列读取存档fastq文件等。[17]数据集（登录号[SRA:SRP001540]）与智人参考序列GRCh37于2013年3月从Illumina iGenomes下载。读取数计算在Illumina iGenome中包含的Ensembl GTF文件70版定义的基因中。Bottomly的序列读取存档fastq文件等。[16]数据集（登录号[SRA:SRP004777]）与小家鼠参考序列NCBIM37于2013年3月从Illumina iGenomes下载。读取数计算在Illumina iGenome中包含的Ensembl GTF文件（版本66）定义的基因中。

可复制代码

在一个包中可以找到用于复制本文中所有图形和表格的Sweave渐晕图，包括用于上述实验的数据对象，以及用于对齐读取和基准测试的代码DESeq2纸张[66].

其他文件

缩写

财务总监：: 错误发现率
GLM公司：: 广义线性模型
HTS（高温超导）：: 高通量测序
利物浦足球俱乐部：: 对数褶皱变化
地图：: 最大值后部
MLE公司：: 最大似然估计
RNA-seq：: RNA测序
VST（垂直变速箱）：: 方差稳定变换

工具书类

Lönnstedt I，速度T：复制微阵列数据。中国统计局。2002, 12: 31-46.
谷歌学者
Robinson MD，Smyth GK：评估标记丰度差异的中等统计检验。生物信息学。2007, 23: 2881-2887. 10.1093/bioinformatics/btm453。
第条公共医学谷歌学者
McCarthy DJ，Chen Y，Smyth GK：关于生物变异的多因子RNA-seq实验的差异表达分析。《核酸研究》2012，40:4288-4297。10.1093/nar/gks042。
第条公共医学公共医学中心谷歌学者
Anders S，Huber W：序列计数数据的差异表达分析。基因组生物学。2010年11月11日：106-10.1186/gb-2010-11-10-r106。
第条谷歌学者
Zhou Y-H，Xia K，Wright FA:一种强大而灵活的RNA序列计数数据分析方法。生物信息学。2011, 27: 2672-2678. 10.1093/bioinformatics/btr449。
第条公共医学公共医学中心谷歌学者
Wu H，Wang C，Wu Z：一种新的离散收缩估计器改进了RNA-seq数据中的差异表达检测。生物统计学。2013, 14: 232-243. 10.1093/生物统计/kxs033。
第条公共医学公共医学中心谷歌学者
Hardcastle T，Kelly K:baySeq：识别序列计数数据中差异表达的经验贝叶斯方法。BMC生物信息学。2010, 11: 422-10.1186/1471-2105-11-422.
第条公共医学公共医学中心谷歌学者
Van De Wiel MA、Leday GGR、Pardo L、Rue H、Van Der Vaart AW、Van Wieringen WN：通过估计多重收缩先验对RNA测序数据进行贝叶斯分析。生物统计学。2013, 14: 113-128. 10.1093/生物统计/kxs031。
第条公共医学谷歌学者
Boer JM、Huber WK、Sültmann H、Wilmer F、von Heydebreck A、Haas S、Korn B、Gunawan B、Vente A、Füzesi L、Vingron M、Poustka A：通过在全球人类31500元件cDNA阵列上的表达谱确定和分类肾细胞癌差异表达基因。《基因组研究》2001，11:1861-1870。
公共医学公共医学中心谷歌学者
设计2[http://www.bioconductor.org/packages/release/bioc/html/DESeq2.html]
RC、Carey VJ、Bates DM、Bolstad B、Dettling M、Dudoit S、Ellis B、Gautier L、Ge Y、Gentry J、Hornik K、Hothorn T、Huber W、Iacus S、Irizarry R、Leich F、Li C、Maechler M、Rossini AJ、Sawitzki G、Smith C、Smiths G、Tierney L、Yang JY、Zhang J：生物导体：计算生物学和生物信息学的开放软件开发。基因组生物学。2004年，5:R80-10.1186/gb-2004-5-10-R80。
第条公共医学公共医学中心谷歌学者
McCullagh P，Nelder JA：广义线性模型。统计学和应用概率专著。1989年，查普曼和霍尔/CRC，英国伦敦，
谷歌学者
Hansen KD，Irizarry RA，Wu Z:使用条件分位数归一化消除RNA-seq数据中的技术变异性。生物统计学。2012, 13: 204-216. 10.1093/生物统计/kxr054。
第条公共医学公共医学中心谷歌学者
Risso D、Schwartz K、Sherlock G、Dudoit S：RNA-seq数据的GC-内容标准化。BMC生物信息学。2011, 12: 480-10.1186/1471-2105-12-480.
第条公共医学公共医学中心谷歌学者
Smyth GK：用于评估微阵列实验中差异表达的线性模型和经验贝叶斯方法。统计应用基因分子生物学。2004, 3: 1-25.
谷歌学者
Bottomly D、Walter NAR、Hunter JE、Darakjian P、Kawane S、Buck KJ、Searles RP、Mooney M、McWeeney SK、Hitzemann R：使用RNA-seq和微阵列评估C57BL/6J和DBA/2J小鼠纹状体中的基因表达。《公共科学图书馆·综合》。2011年6月：17820-10.1371/journal.pone.0017820。
第条谷歌学者
Pickrell JK、Marioni JC、Pai AA、Degner JF、Engelhardt BE、Nkadori E、Veyrieras J-B、Stephens M、Gilad Y、Pritchard JK：通过RNA测序了解人类基因表达变异的机制。自然。2010年，464:768-772。10.1038/nature08872。
第条公共医学公共医学中心谷歌学者
Hastie T、Tibshirani R、Friedman J：统计学习的要素：数据挖掘、推断和预测。2009年，美国纽约市斯普林格
书谷歌学者
Bi Y，Davuluri R：NPEBseq：RNA-seq数据差异表达分析的非参数经验贝叶斯方法。BMC生物信息学。2013, 14: 262-10.1186/1471-2105-14-262.
第条公共医学公共医学中心谷歌学者
Feng J，Meyer CA，Wang Q，Liu JS，Liu XS，Zhang Y:GFOLD：根据RNA-seq数据对差异表达基因进行排序的广义倍数变化。生物信息学。2012, 28: 2782-2788. 10.1093/生物信息学/bts515。
第条公共医学谷歌学者
Benjamini Y，Hochberg Y：控制错误发现率：一种实用且强大的多重测试方法。J R Stat Soc Ser B方法。1995, 57: 289-300.
谷歌学者
Bourgon R，Gentleman R，Huber W：独立滤波提高了高通量实验的检测能力。美国国家科学院院刊2010，107:9546-9551。10.1073/pnas.0914005107。
第条公共医学公共医学中心谷歌学者
McCarthy DJ、Smyth GK：相对于折叠式变化阈值的测试显著性是一个TREAT。生物信息学。2009, 25: 765-771. 10.1093/bioinformatics/btp053。
第条公共医学公共医学中心谷歌学者
Li J，Tibshirani R：寻找一致模式：识别RNA-seq数据差异表达的非参数方法。统计方法医学研究，2013年，22:519-536。10.1177/0962280211428386.
第条公共医学公共医学中心谷歌学者
Cook RD：线性回归中影响观察的检测。技术计量学。1977, 19: 15-18. 10.2307/1268249.
谷歌学者
Hammer P、Banck MS、Amberg R、Wang C、Petznick G、Luo S、Khrebtukova I、Schroth GP、Beyerlein P、Beutler AS:mRNA-seq，用于慢性疼痛中神经系统转录组学的不可知剪接位点发现。《基因组研究》2010，20:847-860。10.1101/gr.101204.109。
第条公共医学公共医学中心谷歌学者
Frazee A、Langmead B、Leek J：ReCount：一种分析成熟RNA-seq基因计数数据集的多实验资源。BMC生物信息学。2011, 12: 449-10.1186/1471-2105-12-449.
第条公共医学公共医学中心谷歌学者
Trapnell C、Hendrickson DG、Sauvageau M、Goff L、Rinn JL、Pachter L：用RNA-seq进行转录解析时基因调控的差异分析。国家生物技术。2012, 31: 46-53. 10.1038/nbt.2450。
第条公共医学谷歌学者
Glaus P，Honkela A，Rattray M：从具有生物变异的RNA-seq数据中识别差异表达转录物。生物信息学。2012, 28: 1721-1728. 10.1093/生物信息学/bts260。
第条公共医学公共医学中心谷歌学者
Anders S，Reyes A，Huber W：从RNA-seq数据中检测外显子的差异使用。《基因组研究》2012，22:2008-2017。10.1101/gr.133744.111。
第条公共医学公共医学中心谷歌学者
Sammeth M：完整的可选拼接事件是拼接图中的气泡。计算机生物学杂志。2009, 16: 1117-1140. 10.1089/cmb.2009.0108。
第条公共医学谷歌学者
Pagès H、Bindreither D、Carlson M、Morgan M：拼接图：创建、操作、可视化拼接图，并将RNA-seq读取分配给它们2013。生物导体组件[http://www.bioconductor.org]
Robinson医学博士、McCarthy DJ、Smyth GK:edgeR：用于数字基因表达数据差异表达分析的生物导体包。生物信息学。2009, 26: 139-140. 10.1093/bioinformatics/btp616。
第条公共医学公共医学中心谷歌学者
Zhou X，Lindsay H，Robinson MD:使用观察权重稳健检测RNA测序数据中的差异表达。核酸研究，2014，42:e91--10.1093/nar/gku310。
第条公共医学公共医学中心谷歌学者
Leng N、Dawson JA、Thomson JA、Ruotti V、Rissman AI、Smits BMG、Haag JD、Gould MN、Stewart RM、Kendziorski C:EBSeq：RNA-seq实验中推理的经验贝叶斯层次模型。生物信息学。2013, 29: 1035-1043. 10.1093/bioinformatics/btt087。
第条公共医学公共医学中心谷歌学者
Law CW，Chen Y，Shi W，Smyth GK：Voom：精确权重解锁RNA-seq读取计数的线性模型分析工具。基因组生物学。2014年第15期：29-10.1186/gb-2014-15-2-r29。
第条谷歌学者
Hubert L，Arabie P：比较分区。J分类。1985, 2: 193-218. 2007年10月10日/BF01908075。
第条谷歌学者
Witten DM：使用泊松模型对测序数据进行分类和聚类。Ann Appl Stat.2011，5:2493-2518。10.1214/11-AOAS493。
第条谷歌学者
Irizarry RA，Wu Z，Jaffee HA：affymetrix基因芯片表达测量的比较。生物信息学。2006, 22: 789-794. 10.1093/bioinformatics/btk046。
第条公共医学谷歌学者
Asangani IA、Dommeti VL、Wang X、Malik R、Cieslik M、Yang R、Escara-Wilke J、Wilder-Romas K、Dhanireddy S、Engelke C、Iyer MK、Jing X、Wu Y-M、Cao X、Qin ZS、Wang S、Feng FY、Chinnaiyan AM：抗去势前列腺癌中BET溴代主要蛋白的治疗靶向。自然。2014, 510: 278-282. 10.1038/nature13229。
第条公共医学公共医学中心谷歌学者
Stark R，Brown G：DiffBind：2013年ChIP-seq峰值数据的差异结合分析。生物导体组件[http://www.bioconductor.org]
Ross-Innes CS、Stark R、Teschendorff AE、Holmes KA、Ali HR、Dunning MJ、Brown GD、Gojis O、Ellis IO、Green AR、Ali S、Chin S-F、Palmieri C、Caldas C、Carroll JS：不同雌激素受体结合与乳腺癌临床结局相关。自然。2012, 481: 389-393.
公共医学公共医学中心谷歌学者
Robinson DG、Chen W、Storey JD、Gresham D：酒吧实验的设计和分析。G3（贝塞斯达）。2013年4月11日至18日。10.1534/g3.113.008565。
第条谷歌学者
McMurdie PJ，Holmes S：不浪费，不想要：为什么稀少的微生物组数据是不可接受的。公共科学图书馆计算生物学。2014年10月10日，编号：1003531-10.1371/journal.pcbi.1003531。
第条谷歌学者
Vasquez J，Hon C，Vanselow JT，Schlosser A，Siegel TN:核糖体比较分析揭示了布氏锥虫不同生命周期阶段的广泛翻译复杂性。《核酸研究》2014，42:3623-3637。10.1093/nar/gkt1386。
第条公共医学公共医学中心谷歌学者
Zhou Y，Zhu S，Cai C，Yuan P，Li C，Huang Y，Wei W:人类细胞功能基因组学CRISPR/Cas9文库的高通量筛选。自然。2014年，509:487-491。10.1038/nature13166。
第条公共医学谷歌学者
Cox DR，Reid N：参数正交性和近似条件推理。J R Stat Soc Ser B方法。1987年，49:1-39。
谷歌学者
Robinson MD，Smyth GK：负二项离散度的小样本估计，及其在SAGE数据中的应用。生物统计学。2007年，9:321-332。10.1093/生物统计/kxm030。
第条公共医学谷歌学者
Pawitan Y：在所有可能性中：使用可能性的统计建模和推断。2001年，牛津大学出版社，美国纽约市
谷歌学者
Armijo L：具有Lipschitz连续一阶偏导数的函数的最小化。太平洋数学杂志。1966, 16: 1-3. 10.2140/pjm.1966.16.1。
第条谷歌学者
Di Y，Schafer DW，Cumbie JS，Chang JH：评估RNA-seq差异基因表达的NBP负二项模型。统计应用基因分子生物学。2011, 10: 1-28.
谷歌学者
Abramowitz M，Stegun I：数学函数手册。1965年，多佛出版公司，美国纽约
谷歌学者
Newton M、Kendziorski C、Richmond C、Blattner F、Tsui K：关于表达比率的差异可变性：改进微阵列数据中关于基因表达变化的统计推断。计算机生物学杂志。2001, 8: 37-52. 10.1089/106652701300099074.
第条公共医学谷歌学者
Huber W，von Heydebreck A，Sultmann H，Poustka A，Vingron M：用于微阵列数据校准和差异表达量化的方差稳定。生物信息学。2002, 18: 96-104. 10.1093/bioinformatics/18.suppl_1.S96。
第条谷歌学者
Durbin BP、Hardin JS、Hawkins DM、Roke DM：基因表达微阵列数据的方差稳定转换。生物信息学。2002, 18: 105-110. 10.1093/bioinformatics/18.suppl_1.S105。
第条谷歌学者
Park MY：带正则化的广义线性模型。博士论文。斯坦福大学统计系；2006
Friedman J，Hastie T，Tibshirani R：通过坐标下降广义线性模型的正则化路径。J统计软件。2010, 33: 1-22.
第条公共医学公共医学中心谷歌学者
Cule E，Vineis P，De Iorio M：遗传数据岭回归的显著性检验。BMC生物信息学。2011, 12: 372-10.1186/1471-2105-12-372.
第条公共医学公共医学中心谷歌学者
Cook RD，Weisberg S：回归中的残差和影响。1982年，Chapman和Hall/CRC，美国纽约
谷歌学者
Lawrence M、Huber W、Pagès H、Aboyoun P、Carlson M、Gentleman R、Morgan MT、Carey VJ：计算和注释基因组范围的软件。公共科学图书馆计算生物学。2013年9月9日，编号：1003118-10.1371/journal.pcbi.1003118。
第条谷歌学者
Pagès H，Obenchain V，Morgan M：基因组比对：短基因组比对的表示和操作2013。生物导体组件[http://www.bioconductor.org]
Anders S、Pyl PT、Huber W:HTSeq—一个用于处理高通量测序数据的Python框架。生物信息学。2015年，31:166-10.1093/bioinformatics/btu638。
第条公共医学公共医学中心谷歌学者
Delhomme N、Padioleau I、Furlong EE、Steinmetz LM:easyRNASeq：用于处理RNA-seq数据的生物导体软件包。生物信息学。2012, 28: 2532-2533. 10.1093/bioinformatics/bts477。
第条公共医学公共医学中心谷歌学者
Liao Y，Smyth GK，Shi W:featureCounts：一个有效的通用程序，用于将序列读取分配给基因组特征。生物信息学。2014, 30: 923-930. 10.1093/bioinformatics/btt656。
第条公共医学谷歌学者
Kim D、Pertea G、Trapnell C、Pimentel H、Kelley R、Salzberg S:TopHat2：在插入、缺失和基因融合的情况下转录组的精确比对。基因组生物学。2013年，14:36-10.1186/gb-2013-14-4-r36。
第条谷歌学者
DESeq2纸张。[http://www-huber.embl.de/DESeq2paper网站]

下载参考资料

致谢

作者感谢所有提供宝贵反馈的DESeq和DESeq2用户。我们感谢朱迪思·扎格对手稿的有益评论。MIL通过国际马克斯·普朗克计算生物学和科学计算研究院的津贴和美国国立卫生研究院的拨款（5T32CA009337-33）确认了资金。WH和SA通过项目确认欧盟第七框架计划（健康）的资金辐射我们感谢一位匿名评论员提出了离散平均趋势拟合中的估计偏差问题。

作者信息

作者和附属机构

美国马萨诸塞州波士顿布鲁克林大道450号达纳法伯癌症研究所生物统计与计算生物学系和哈佛公共卫生学院生物统计系，邮编02215
迈克尔我爱
德国海德堡Meyerhofstrasse 1号欧洲分子生物学实验室基因组生物学单元，邮编69117
Michael I Love、Wolfgang Huber和Simon Anders
德国柏林伊内斯特拉斯马克斯·普朗克分子遗传学研究所计算分子生物学系，63-7314195
迈克尔我爱

作者