baySeq: Empirical Bayesian methods for identifying differential expression in sequence count data

Hardcastle, Thomas J; Kelly, Krystyna A

doi:10.1186/1471-2105-11-422

研究文章
开放式访问
出版：2010年8月10日

baySeq：识别序列计数数据中差异表达的经验贝叶斯方法

BMC生物信息学 体积 11，物品编号：422(2010)引用这篇文章

3.2万访问
512引文
7海拔高度
韵律学细节

摘要

背景

高通量测序已成为研究多种基因组，尤其是转录组数据中表达水平的重要技术。分析这些数据的一个关键方法是寻找显示差异表达特定模式的数据元素，以便将这些元素用于进一步的分析和验证。

结果

我们提出了一个定义差异表达模式的框架，并开发了一种新的算法baySeq，该算法使用经验Bayes方法检测一组测序样本中的差异表达模式。该方法假设数据为负二项分布，并从整个数据集推导出经验确定的先验分布。我们在实际和模拟数据上检验了该方法的性能。

结论

我们的方法在分析真实数据和模拟数据中的两两微分表达式时，至少与现有方法一样好，而且往往更好。当我们比较涉及多个样本组的实验设计数据的分析方法时，我们的方法再次显示出显著的性能提升。我们认为，这种方法因此代表了对测序实验计数数据的分析向前迈出的重要一步。

背景

近年来高通量测序技术的发展[1–4]导致基因组数据的大量增加计数这些计数数据与使用珠子和阵列技术获得的计数数据不同，因为它们本质上是离散的，而不是连续的。我们不是测量强度，而是获取在文库中观察到特定序列的次数，无论源是基因组DNA、免疫沉淀产生的DNA片段、mRNA还是小RNA。对此类序列数据的分析通常涉及检测差异表示，即发现在生物复制集之间差异表示的数据，特别是但不限于转录组数据的分析。由于测序实验的成本相对较高，可用的样本量较小，因此这些分析通常具有挑战性。

这类数据首先来自基因表达的系列分析（SAGE）[5]并提出了若干分析方法。大多数早期的方法都不允许复制，或者，当它们复制时，只能用于比较两组。巴格利等[6]和Lu等[7]介绍了分别基于超分散logistic分布和超分散对数线性分布的建模方法，这些方法能够处理组间的重复数据和多次比较。Robinson和Smyth基于负二项分布导出了一种“精确检验”方法[8]，并进一步开发了这种方法，使用一种温和的测试统计信息，在基因组位置共享信息，以稳定小样本中的离散度估计[9]. 与过度分散的逻辑和对数线性方法相比，该方法的准确性有所提高，但这些方法仅限于两两比较。最近开发的一种方法，DEGseq公司[10]采用另一种方法，假设来自不同生物样本的数据的对数比率的正态性取决于数据的对数几何平均值。另一种最近的方法DESeq公司[11]还提出了负二项分布的假设，但增加了过度分散和数据平均表达水平之间的局部线性关系的假设。这些后来的方法还没有完全描述，但似乎严格限制于成对比较。

我们在此开发了一种经验贝叶斯方法，该方法能够通过跨数据集借用信息来提高预测的准确性，但它消除了仅考虑两两比较的限制，并允许我们分析更复杂的实验设计。我们能够证明，与现有的在两两比较中发现差异表达的方法相比，我们的方法在模拟数据和生物数据中的性能相当或有所改进，并为更复杂的设计提供了性能改进。

为了解决涉及多组样本的更复杂实验设计的问题，我们首先建立了一个框架来描述数据集中不同的差异表达模式，从而以一种非常通用的形式开发了我们的方法。使用这个框架定义一组模型，我们寻求建立每个模型的后验概率。最后，我们通过模拟数据证明了我们的方法对这些实验设计的适用性，并且能够使用我们的方法显示性能的实质性改进。

方法

我们采用并修改了Robinson和Smyth的命名法[9]描述SAGE数据，因为这似乎普遍适用于高通量测序技术的数据。通过cDNA测序获得的一组数据图书馆包含多个序列标记。因为在SAGE数据中，每个mRNA分子只有一个标签，即Robinson和Smyth[9]检查用于检测样本之间差异表达标签的方法。然而，在通过高通量测序实现的许多应用中，我们可能希望将多个标签分组在一起，并获取该分组的单个计数。例如，对于整个转录组mRNA或小RNA数据，我们可能希望考虑来自定义位点的所有标记的计数总数。在这两种情况下，对于每个不同的标签或标签组，我们都有一个有序的列表，或者元组离散计数，每个元组中的样本顺序相同。因此，在接下来的工作中，我们简单地提到元组，而无需指定这些是单独排序的标记计数还是多个标记的聚合计数。这个库大小是对给定库中计数总数的度量，或者是Bullard所讨论的库大小的替代度量等[12]，并用作观测数据的比例因子。

方法

我们采用经验贝叶斯方法来估计一组模型中每个模型的后验概率，这些模型定义了每个元组的差分表达模式。这种方法首先根据样本之间的相似性和差异定义每个模型。对于给定的模型，我们试图定义哪些样本的行为彼此类似，以及哪些样本集存在可识别的差异。为了评估每个元组的每个模型的后验概率，我们考虑由一组基本参数定义的元组的分布，其中存在一些先验分布。行为相似的样本应该在元组的基本参数上具有相同的先验分布，而行为不同的样本应该具有不同的先验分配。我们基于元组数据的负二项分布开发了我们的方法，并从整个数据集中导出了一个关于基础参数集的经验分布。

我们的方法的一个重要优点是可以简单地实现对多个模型的后验概率的评估。因此，所描述的技术是以非常通用的形式开发的。

模型定义

在为数据建立一组模型时，我们会考虑哪些模式在生物学上是可能的。在两两比较的最简单情况下，我们有来自两种情况下的一些样本的计数数据A类和条件B类。如果我们假设每个条件有两个生物复制，那么有四个库，A类₁,A类₂,B类₁,B类₂，其中A类₁,A类₂和B类₁,B类₂是复制品。在大多数情况下，可以合理地假设至少一些元组可能不受我们的实验条件的影响A类和B类。然后，这些元组中每个样本的计数数据将共享相同的基础参数。然而，一些元组可能会受到不同实验条件的影响A类和B类。对于这样的元组，来自示例的数据A类₁和A类₂将共享相同的基础参数集，即来自样本的数据B类₁和B类₂将共享相同的基本参数集，但关键是，这些参数集将不相同。因此，我们可以将模型视为非重叠的样本集。因此，我们的第一个无差异表达模型由样本集定义{A类₁,A类₂,B类₁,B类₂}. 我们的第二个模型，条件之间的差异表达A类和条件B类由集合定义{A类₁,A类₂}和{B类₁,B类₂}.

更复杂的模型

在所描述的简单示例中，只有两个模型是合理的，并且该框架似乎过于复杂。然而，在涉及多个样本组的实验设计中，可能会有更多的模型。作为一个例子，我们考虑下一个最复杂的实验设计，涉及来自三种不同条件的样本A类,B类和C类在这种情况下，对于给定的元组，要么数据在所有样本中相等分布，要么在两个条件下相等分布，但在第三个条件下不相等，要么在所有三个条件中分布不同。因此，我们需要考虑五种模型。

在第一种情况下，所有样本都是等价分布的，因此模型是由集合定义的{A类₁,A类₂。。。，B类₁,B类₂, ...,C类₁,C类₂, ...}. 然后我们需要考虑三个模型，在这三个模型下，在两个条件下存在等效分布，但第三个条件下不存在。这些模型中的第一个可以用集合来描述{A类₁,A类₂, ...,B类₁,B类₂，…}，{C类₁,C类₂, ...}, 其中数据来自条件A类和条件B类条件C的数据分布不同。同样，我们需要考虑其他两个模型，其中单个条件与其他两个不同{A类₁,A类₂, ...,C类₁,C类₂, ...}, {B类₁,B类₂, ...} 和{B类₁,B类₂。。。，C类₁,C类₂, ...}, {A类₁,A类₂, ...}. 最后，我们需要考虑集合定义的模型{A类₁,A类₂, ... }, {C类₁,C类₂, ... }, {A类₁,B类₂, ...}, 其中来自所有三种条件的数据分布不同。

即使考虑到这个相对简单的例子，也可以清楚地看到，随着不同实验条件数量的增加，潜在模型的数量迅速增加。然而，我们还应该注意到，在许多情况下，我们将能够排除基于生物知识的特定模型（例如，如果我们知道该条件B类是条件的子类型A类，我们可能会排除由{A类₁,A类₂。。。，C类₁,C类₂, ...}, {B类₁,B类₂, ...}), 因此，系统的复杂性不必增长得太快。我们现在的任务是在给定数据的情况下，确定每个元组的每个模型的后验概率。这将允许我们形成元组的排序列表，按特定模型的后验概率排序（例如，实验条件之间的差异表达模型）。

确定后验概率而非显著性值的一个有趣优点(第页-值），因为我们获取每个模型和每个元组的后验概率，并且由于这些模型是互斥的，所以通过对后验概率求和来组合感兴趣的模型是微不足道的。例如，如果我们对任何特定类型的差异表达都不感兴趣，而只是对我们的数据中是否存在任何类型的差异表示感兴趣，那么我们可以通过求所有差异表达的后验概率（生物学上似乎合理）来获得任何类型差异表达的概率描述差异表达的模型。然后，我们可以根据这些概率以及单个模型的概率对元组进行排序。

分布的等价性

假设我们有一组n个样品 $A类$ = {A类₁, ...,A类_n个}，以便特定元组的观测数据，c（c），由给出(u个_1c（c）。。。，u个_数控)其中u个_集成电路是特定元组的计数c（c）用于样品我.对于每个样品A类_我，我们还有库大小比例因子我_我。对于每个元组，我们可以将数据视为

{D类}_{c（c）} = {({u个}_{我 c（c）}, \dots {u个}_{n个 c（c）}), (我_{1}, \dots, 我_{n个})}

现在我们考虑一些模型M（M）关于集合定义的这些数据{E类₁。。。，E类_米}. 如果在此模型中，样本A类_我和A类_j个都在同一组E类_q个，然后我们知道它们具有相同的基础分布参数θ_q个。我们可以定义一个集合K（K）= {θ₁, ...,θ_米}. 为了简化符号，我们还将定义与集合关联的数据E类_q个作为D类_质量控制= {(u个_集成电路:A类_我∈ E类_q个), (我_我:A类_我∈ E类_q个)}给定一个模型M（M）对于数据，则为每个元组的关注量c（c）是模型的后验概率M（M）给定数据D类_c（c），这是

ℙ (M（M） | {D类}_{c（c）}) = \frac{ℙ ({D类}_{c（c）} | M（M）) ℙ (M（M）)}{ℙ ({D类}_{c（c）})}

(1)

然后我们可以尝试计算ℙ(D类_c（c）|M（M）)通过考虑边际似然

ℙ ({D类}_{c（c）} | M（M）) = \int ℙ ({D类}_{c（c）} | K（K）, M（M）) ℙ (K（K） | M（M）) d日 K（K）

(2)

负二项分布数据

有许多可能的分布可以用于D类_c（c）|K（K）,M（M）和K（K）|M（M）一种似乎很自然的方法是假设数据是泊松分布的，参数是伽马分布的，从而对测序的任何单个分子的稀有性进行建模，并允许在计算中使用一种形式的泊松-伽马共轭ℙ(D类_c（c）|M（M）). 然而，正如Robinson和Smyth[8]指出，该模型没有考虑到生物复制带来的额外变异性。可以使用数据为负二项分布（过分散泊松）的假设来解释这种可变性。罗宾逊和史密斯[9]显示了实际数据中存在过度分散，我们也可以在下面介绍的数据集中看到这一点。此外，Lu等[7]在模拟数据中表明，即使数据不是真正的负二项分布，负二项式分布的假设也是可靠的。

在库大小相等的情况下，可以在负二项分布的假设下，对观察给定非微分表达式的数据的可能性进行精确测试。通过生成与实际数据大致相同但具有相同库大小的“伪数据”，可以解决库大小不相等的问题。这是罗宾逊和史密斯采取的方法[9]. 作为此方法的替代方法，我们在经验贝叶斯方法中使用数值方法，该方法允许我们保留真实数据，并使用库大小作为缩放因子。我们考虑一个样本A类_我属于集合E类_q个具有库大小我_我。我们现在假设此示例中元组的计数c（c）,u个_集成电路为负二项分布，平均值为μ_q个我_我和分散ϕ_q个，其中θ_q个= (μ_q个,ϕ_q个). 然后可以将一个参数化定义为

ℙ ({u个}_{我 c（c）}; 我_{我}, ϕ_{q个}, μ_{q个}) = \frac{Γ ({u个}_{我 c（c）} + ϕ_{q个}^{- 1})}{Γ (ϕ_{q个}^{- 1}) {u个}_{我 c（c）}!} {(\frac{1}{1 + 我_{我} μ_{q个} ϕ_{q个}})}^{ϕ_{q个}^{- 1}} {(\frac{我_{我} μ_{q个}}{ϕ_{q个}^{- 1} + 我_{我} μ_{q个}})}^{{u个}_{我 c（c）}}

不幸的是，没有明显的共轭性可以像泊松-伽马情形那样应用。然而，如果我们可以定义一个经验分布K（K）然后我们可以估计ℙ(D类_c（c）|M（M）)数字上。我们首先假设θ_q个∈ K（K）在以下方面是独立的q个.然后

\begin{array}{l} ℙ ({D类}_{c（c）} | M（M）) = \int ℙ ({D类}_{c（c）} | K（K）, M（M）) ℙ (K（K） | M（M）) d日 K（K） \\ = \prod_{q个} \int ℙ ({D类}_{q个 c（c）} | θ_{q个}) ℙ (θ_{q个}) d日 θ_{q个} \end{array}

这种假设降低了积分的维数，从而提高了积分数值逼近的精度。

接下来，我们假设每个θ_q个∈ K（K）我们有一组值θ_q个从θ_q个.然后我们可以导出近似值[13]

ℙ ({D类}_{c（c）} | M（M）) \approx \prod_{q个} \frac{1}{| Θ_{q个} |} \sum_{Θ_{q个}} [\prod_{{我 : {A类}_{我} \in {E类}_{q个}}} \frac{Γ ({u个}_{我 c（c）} + ϕ_{q个}^{- 1})}{Γ (ϕ_{q个}^{- 1}) {u个}_{我 c（c）}!} {(\frac{1}{1 + 我_{我} μ_{q个} ϕ_{q个}})}^{ϕ_{q个}^{- 1}} {(\frac{我_{我} μ_{q个}}{ϕ_{q个}^{- 1} + 我_{我} μ_{q个}})}^{{u个}_{我}}]

(3)

接下来剩下的任务是导出集合θ_q个从数据中。

经验导出的K分布

我们可以得出一个经验分布K（K）通过检查整个数据集。对于每组样品E类_q个，我们希望找到对单个元组数据下分布的平均值和离散度的一些估计，D类_质量控制通过类似地发现大量元组的平均值和离散度的估计值，我们将获得采样θ_q个这里的主要困难在于正确估计离散度。例如，假设来自给定元组的数据显示真正的差异表达式。如果我们正在测试的模型假设没有差异表达式，那么这个元组的离散度将被大大高估。由于我们事先不知道哪些元组是真正差异表达的，哪些不是，因此我们需要考虑数据的复制结构，以便正确估计离散度。我们通过考虑集合来定义复制结构{F类₁, ...F类_秒}其中我,j个 ∈ F类_第页当且仅当样本A类_j个是的复制A类_我.

给定数据的这种结构，我们可以估计数据在元组中的离散度D类_c（c）通过拟似然方法[14]. 在这种情况下，准似然方法可以很好地估计单个元组的离散度[8]. 我们首先定义 ${\overset{\land}{μ}}_{第页 c（c）} = 〈 {\frac{{u个}_{我 c（c）}}{我_{我}} : 我 \in {F类}_{第页}} 〉$ ，然后选择ϕ_c（c）这样的话

\begin{array}{l} 2 \sum_{第页} \sum_{我 \in {F类}_{第页}} {{u个}_{我 c（c）} 日志 [\frac{{u个}_{我 c（c）}}{我_{我} {\overset{\land}{μ}}_{第页 c（c）}}] - ({u个}_{我 c（c）} + ϕ_{c（c）}^{- 1}) 日志 [\frac{{u个}_{我 c（c）} + ϕ_{c（c）}^{- 1}}{我_{我} {\overset{\land}{μ}}_{第页 c（c）} + ϕ_{c（c）}^{- 1}}]} & = n个 - 1 \end{array}

(4)

将此值用于ϕ_c（c）然后我们可以重新估计这些值 ${\hat{μ}}_{我 c（c）}$ 通过最大似然法，为 ${\overset{\land}{μ}}_{我 c（c）}$ 使可能性最大化

ℙ ({{u个}_{我 c（c）} : 我 \in {F类}_{第页}}; 我_{我} : 我 \in {F类}_{第页}, ϕ_{c（c）}, {\overset{\land}{μ}}_{第页 c（c）}) = \prod_{我 \in {F类}_{第页}} \frac{Γ ({u个}_{我 c（c）} + ϕ_{c（c）}^{- 1})}{Γ (ϕ_{c（c）}^{- 1}) {u个}_{我 c（c）}!} {(\frac{1}{1 + 我_{我} {\overset{\land}{μ}}_{第页 c（c）} ϕ_{c（c）}})}^{ϕ_{c（c）}^{- 1}} {(\frac{我_{我} {\overset{\land}{μ}}_{第页 c（c）}}{ϕ_{c（c）}^{- 1} + 我_{我} {\overset{\land}{μ}}_{第页 c（c）}})}^{{u个}_{我 c（c）}}

对于每个第页.

然后，我们对ϕ_c（c）和 ${\hat{μ}}_{我 c（c）}$ 直到我们实现融合。

这为我们提供了一个值ϕ_c（c）然后，我们需要估计数据下分布的平均值D类_质量控制，即，对于中的样本集E类_q个我们可以通过固定为ϕ_c（c）并估计平均值μ_质量控制通过最大似然法，为μ_质量控制使可能性最大化

ℙ ({D类}_{q个 c（c）}, ϕ_{c（c）}, μ_{q个 c（c）}) = \prod_{{我 : {A类}_{我} \in {E类}_{q个}}} \frac{Γ ({u个}_{我 c（c）} + ϕ_{c（c）}^{- 1})}{Γ (ϕ_{c（c）}^{- 1}) {u个}_{我 c（c）}!} {(\frac{1}{1 + 我_{我} μ_{q个 c（c）} ϕ_{c（c）}})}^{ϕ_{c（c）}^{- 1}} {(\frac{我_{我} μ_{q个 c（c）}}{ϕ_{c（c）}^{- 1} + 我_{我} μ_{q个 c（c）}})}^{{u个}_{我 c（c）}}

对于每个q。

然后我们可以形成集合θ_q个= {(μ_质量控制,ϕ_c（c）)}通过多次重复此过程小时，然后能够计算ℙ(D类_c（c）|M（M）)根据公式3。

这种估计离散度的方法假设元组在不同样本集之间的离散度是恒定的。在大多数情况下，如果样本数量较少，这可能是最好的方法。如果有人预计重复组之间的离散度将有实质性差异，则单独估计每个模型中不同组样品的离散度可能会有好处，同时仍然考虑这些组内的重复结构。通过将数据（和相应的复制结构）限制为D类_质量控制在估算公式4中的离散度时。我们在模拟研究（未发表的数据）中发现这些方法之间没有实质性差异，因此仅显示了假设每个元组的离散度不变时获得的结果。

每个模型的先验概率估计

当考虑每个模型的先验概率时，有许多选项可用ℙ(M（M）)公式1中要求。如果我们能够从其他来源进行估算，这可能会提供最佳解决方案。然而，在许多情况下，我们可能无法合理估计先验概率。我们建议使用Smyth建议的方法[15]用于在微阵列实验的分析中估计差异表达基因的比例可以合理地适于估计这些先验。我们首先选择（理想情况下基于我们对模型的先前知识）一些值第页用作模型的先验概率M（M）为了估计后验概率ℙ(M（M）|D类_c（c）)对于c（c）第个元组。然后我们可以得出一个新的估计

{第页}^{'} = {〈 ℙ (M（M） | {D类}_{c（c）}) 〉}_{c（c）}

模型的先验概率M（M）通过迭代直至收敛，我们获得了每个模型的先验概率估计。实际上，我们发现第页s对它们最终收敛到的值没有实质性影响。这种方法很容易实现，但可能允许正反馈，从而过高估计模型的先验概率（以及相应地低估其他模型的先例概率）。

这种方法的另一种选择是，在我们模型的先验概率上建立一些分布，并基于此分布找到数据的边际后验概率。一种方法可能是使用后验概率的分布作为先验分布的近似值。然后，我们可以使用数值积分方法重新估计后验概率，并像以前一样迭代。然而，在实践中，这种方法计算量极大，对预测的准确性（未发布的数据）几乎没有改进。

比例因子ℙ(D类_c（c）)

最后，我们需要考虑比例因子ℙ(D类_c（c）)在等式中。1.由于上可能的型号数量M（M）在 $A类$ 比例因子是有限的，虽然可能很大ℙ(D类_c（c）)可以通过所有可能的求和来确定M（M），给出适当的先验信息ℙ(M（M）). 实际上，模型的数量可能会受到限制，因为只考虑那些生物学上合理的模型，或者通过对中的集合数量施加一些分布M（M）以与Lönnstedt相似的方式等的方法[16]用于微阵列数据的方差分析。

结果和讨论

我们使用模拟数据和实际数据将我们开发的方法与之前开发的Robinson和Smyth方法进行比较[9]如在边缘R[17,18]（1.4.7版）生物导体[19]包，Lu的过分散对数线性模型等[7]Baggerly的过度分散逻辑模型等[6]，以及最近发布的方法DEGseq公司[10]（版本1.2.2）和DESeq公司[11]（版本1.0.4）。我们将这些方法与R包中实现的经验贝叶斯方法进行了比较bay序列（版本1.1.23），默认设置用于bay序列和边缘R包装。总的来说，我们发现边缘R这个包裹似乎表现很好。对默认设置的更改，特别是对“适度”参数的更改，导致某些模拟的性能略有提高，但在其他模拟中略有下降。因此，我们在这里使用了默认设置，因为在实际应用程序中，很难确定如何更改这些设置以优化性能。推荐的操作方法DESeq公司包是从数据推断库大小。然而，我们观察到，这在模拟中表现极为糟糕，在模拟中，很大一部分数据在单个方向上表现不同。因此，我们在实现DESeq公司方法，就像我们对所有其他方法所做的那样，除了DEGseq公司，它不接受库大小作为参数。这个DEG序列包装具有多种操作模式；我们发现，基于MA plot的随机抽样方法（MARS）在模拟数据（未发布的数据）上表现最佳，因此在比较研究中使用了这种方法（默认设置除外）。

两两比较方法的比较：模拟数据

我们首先将评估的方法应用于Robinson和Smyth中描述的模拟研究[9]. 我们选择复制这些模拟研究以及结果的呈现方式，以便直接比较我们的方法和以前解决此问题的方法。这些模拟的目的是建立这些方法的能力，以便按照差分表达式的顺序对元组进行排序，并评估顶部的真阳性和假阳性数N个元组。

随机色散模拟

罗宾逊和史密斯[9]建议对高通量测序计数数据进行一种可能的模拟。库大小，我_我从30000到90000之间的均匀分布中抽样。这些库的大小比当前一代测序技术中可用的库小得多。然而，增加库大小以更好地反映当前水平并不会显著改变得出的结论，因为“库大小”实际上是一个比例因子。所有元组都是从负二项分布模拟的，我们通过改变采样分布的平均值来模拟差分表达式。

对于非差异表达的元组c（c），我们用平均值模拟数据λ_c（c）我_我其中λ_c（c）从一组由边缘R来自由正常细胞和癌细胞组成的SAGE数据集的方法[20].

在一万个模拟元组中，有百分之十是差异表达的。为了在模拟数据中产生过表达和欠表达，我们用两种方法之一模拟差异表达的数据，其中为每个元组随机选择替代项。我们可以第一次模拟数据n个₁带平均值的样本 $λ_{c（c）} 我_{我} / \sqrt{b条}$ 而剩余数据n个₂用平均值模拟样本 $λ_{c（c）} 我_{我} \sqrt{b条}$ 或者，我们可以模拟第一个n个₁带平均值的样本 $λ_{c（c）} 我_{我} \sqrt{b条}$ 而剩余数据n个₂用平均值模拟样本 $λ_{c（c）} 我_{我} / \sqrt{b条}$ .

小型(n个₁=n个₂=2）和中等(n个₁=n个₂=5）比较图书馆数量(b条=8）和中等(b条=4）差异表达。色散是从形状为0.85、比例为0.5的伽马分布中随机采样的。

对于bay序列方法，计算两个模型中每个元组的后验概率，其中一个定义了第一个模型之间的差异表达n个₁图书馆与第二n个₂库和一个不定义任何库之间差异表达式的库。图1显示了针对单个模拟的估计对数倍变化绘制的微分表达式的估计后验概率b条=8和n个₁=n个₂= 5. 我们看到一个“酒杯”形状的情节，这是分析的特点。

高脚杯的“柄”由具有低折叠变化和相当高表达水平的元组组成。有了这些元组，就很容易将它们识别为非差异表达，因此这些元组具有较低的差异表达后验概率。然而，一些具有低倍变化的元组也具有非常低的绝对值。当元组中的绝对值较低时，很难确定元组是否真正差异表达，因此这些值往往比绝对值较高但倍数变化较低的元组具有稍高的差异表达后验概率。因此，茎的顶部由在任何样本中只观察到一个或两个计数的元组组成，其差异表达的后验概率约为0.2。对于这些非常低的表达式元组，一个样本中仅更改一个或两个计数可能会导致相对较大的折叠变化差异。然而，这些微小的变化并没有实质性地影响后验概率，因此，尽管我们看到茎顶部折叠变化的扩展，但这些元组差异表达的后验概率仍然很低。由于这些元组往往具有较高的表达量，因此在靠近茎基的元组中，我们往往看不到类似的扩散。对于具有高表达式的元组显示高倍数变化，但仍然具有低的差分表达式的后验概率，必须存在与这样的元组相关联的非常高的离散度，这将不会经常发生。

在酒杯臂部，我们可以看到，随着折叠变化的增加，差异表达的后验概率也会增加，尽管（例如）折叠变化为4时，后验概率范围很广。我们看到，对于给定的折叠变化，差异表达的后验概率的范围很大程度上取决于数据中观察到的离散度和元组的表达水平，因为与之前一样，很容易判断一个高度表达的元组是否真的是差异表达的。对于差异表达的高后验概率，我们看到元组密度增加，主要由真正差异表达的元组组成。

就像罗宾逊和史密斯[9]错误发现率（FDR）曲线用于评估这些方法对元组进行成功排序的能力。这些数据的错误发现率由以下公式计算[9]在一次模拟的基础上。为了提高鲁棒性，我们估计了顶层的平均错误发现率N个100个模拟的元组（图2). 对于海湾序列方法根据差异表达的后验概率对元组进行排序，并在此基础上计算真、假阳性率，DESeq公司和DEGseq公司方法，元组是根据第页-每种方法估计的值。

在这些模拟中bay序列方法的性能似乎与现有方法一样好或更好。The performance of thebay序列对于少量库，该方法实际上与edgeR相同(n个₁=n个₂= 2). 对于数量较多的库，bay序列与edgeR相比，性能似乎有所提高。对于小型b条，过度分散的对数线性方法似乎显示出与edgeR和bay序列.对于较大的b条然而，特别是对于更高数量的所选元组，edgeR和bay序列方法的性能比对数线性方法要好得多。日志逻辑，DESeq公司和DEGseq公司与edgeR方法和海湾序列方法。

为了确定这些方法的性能差异在实际意义上是否有意义，我们从这些分析中估计，如果我们要验证edgeR识别的前200个元组，bay序列，以及过度分散的对数线性模型拟合n个₁=n个₂= 2,b条=4，我们预计92.66个假阳性bay序列方法，edgeR中的91.13和过分散对数线性方法中的98.65。对于n个₁=n个₂= 2,b条=8，我们预计会出现36.88、36.46和64.43个假阳性bay序列，edgeR和过分散对数线性方法。然而，对于数量较多的库n个₁=n个₂=5，用于b条=4，我们预计为18.60、29.44和24.74个假阳性，而对于b条=8，我们预计1.33、3.25和5.42个假阳性bay序列方法、edgeR和过分散对数线性方法。因此，对于数量较多的库，我们通过使用bay序列方法。

固定色散模拟

为了与以前的方法进行比较的完整性，我们还考虑了由Lu首先开发的不太真实的模拟等[7]. 我们像以前一样模拟了十种库大小。元组再次从负二项分布模拟，但现在具有固定的离散度ϕ0.17、0.42或0.95。用平均值模拟了5000个非差异表达的元组λl_我，选择5000个元组进行差异表示；库1-5中的数据再次用平均值进行模拟λl_我而来自库6-10的那些是用平均值模拟的bλl_我，因此我们在数据中只看到库6-10的过度表达。这些模拟应用于λ=0.0002和b条= 4.

就像罗宾逊和史密斯[9]，我们通过考虑所有分析的接收器工作特性（ROC）曲线来检查结果（图三). The performance of theDEGseq公司方法差得惊人。进一步的研究表明，这种性能损失与在同一方向上差异表达的元组的很大比例有关，即在库6-10中都上调了元组。如果差异表达元组的比例被充分降低，或者如果数据中存在类似的上调和下调比例，那么性能DEGseq公司该方法大大改进。由于DEGseq公司方法是样本间对数比率的平均值近似为零。在这种情况下，由于微分表达式总是发生在同一方向上，因此该假设失败。如果大量的基因组特征都受到类似的影响，这在实际应用中可能是一个问题。

在剩下的方法中，我们看到随着色散的增加，所有方法的性能都会下降；然而bay序列对于所有的ϕ因此，对于低假阳性率bay序列该方法具有较高的真阳性率。对于涉及更高色散的模拟，这种效果尤其明显。过度分散的逻辑模型通常比过度分散的对数线性方法表现差。反过来，过度分散的对数线性方法的性能优于DESeq公司方法的性能优于edgeR方法。这大致对应于这些方法在更真实的模拟上的相对性能。

两两比较方法的比较：生物数据

接下来，我们将这些方法应用于Illumina对来自拟南芥（基因表达综合登录号GSE16959）。实验数据取自两个野生型样本和两个RDR6（RNA依赖性RNA聚合酶6）敲除样本。众所周知，RDR6是生产tasRNAs（反作用小RNA）所必需的[21]. 因此，我们期望在野生型和突变型样本之间的比较中看到tasRNAs的差异表达；特别是，在RDR6敲除中tasRNA相关小RNA序列的表达不足。

我们只考虑那些与拟南芥拟南芥信息资源（TAIR）定义的基因组[22]（版本9）。使用PatMaN算法对序列进行匹配[23]. 数据中共观察到70619个与基因组匹配的独特小RNA序列，用于定义文库大小的基因组匹配读取总数分别为1840563、594356、1477155和276006个野生型和两个RDR6突变敲除样本。我们通过拟合泊松模型和另一种负二项模型，对每个序列的读取进行相似比率测试，以检查数据是否存在过度分散，同时考虑到库大小和两种样本类型之间的差异。尽管许多序列与泊松模型没有显著差异，但有大量序列表现出非常显著的差异（图4). 这种影响在平均计数较高的序列中尤其明显，可能是因为对于这些序列，可以合理地检测到过度分散。

我们鉴定了678个不同的小RNA序列，它们与tasRNA位点（TAS1a、TAS1b、TAS1c、TAS2、TAS3b和TAS3b）完全匹配，而在基因组中没有其他匹配。其中21个小RNA序列在RDR6突变体中的表达高于野生型样本，这些被排除，留下657个潜在的真阳性。我们将这些方法应用于每个小RNA序列的计数数据，寻找野生型样本和RDR6敲除样本之间的差异表达。然后，我们根据每种方法报告的差异表达程度对序列进行排序。我们预计657个潜在真阳性中有相当一部分会出现在列表顶部。

图5显示了通过各种方法识别的tasRNA相关序列的数量，与为前3000个小RNA序列选择的差异表达的小RNA序列的数量相比。边缘R和bay序列识别出比DESeq公司方法以及过度分散的logistic和过度分散的对数线性方法，而过度分散的逻辑模型表现尤其差。这个海湾序列对于给定数量的选定小RNA序列，该方法通常比edgeR识别更多与tasRNA相关的小RNA序列。也许令人惊讶的是，DEGseq公司在这个比较中做得很好，发现的与tasRNA相关的小RNA比bay序列和用于低数量的所选小RNA的edgeR，以及一旦所选小RNA的数量大于500，则稍微更多的tasRNA相关的小RNA。

多组实验设计

接下来，我们将说明我们的方法在涉及多个实验条件的更复杂的实验设计中的应用。我们回到方法部分中讨论的示例，其中我们有来自三个条件的序列数据；条件A类，条件B类和条件C类，带有n个每个条件下的库。这些数据有五种不同的模型；一个模型中没有任何类型的微分表达式，三个模型中一个条件与其他两个条件相比显示出微分表达式，还有一个模型的所有三个条件的数据彼此不同。

通过采用Robinson和Smyth提出的更真实的模拟，我们研究了我们的方法检测此类差异表达模式的能力[9]. 总的来说，数据来自3n个对库进行了模拟，其中2000个元组以某种方式进行了差异表示。库大小和每个元组的离散度都像以前一样进行了模拟，就像没有真正的差异表达式的元组一样。

500个元组被模拟为在条件之间具有等效分布的数据A类和条件B类，使用来自条件的数据C类分布不同。为了模拟数据中的过表达和欠表达，我们用两种方法之一模拟数据，其中为每个元组随机选择备选方案。我们可以从条件中模拟数据A类和条件B类从平均值分布 $λ_{c（c）} 我_{我} / \sqrt{b条}$ 和来自条件的数据C类从平均值分布 $λ_{c（c）} 我_{我} \sqrt{b条}$ 。或者，我们模拟来自条件的数据A类和条件B类从平均值分布 $λ_{c（c）} 我_{我} \sqrt{b条}$ 和来自条件的数据C类来自具有平均值的分布 $λ_{c（c）} 我_{我} / \sqrt{b条}$ .

另外500个元组也进行了类似的模拟，以便元组在条件下具有相等的分布数据A类和C类，但在条件下分布的数据不同B类，而模拟第三个500个元组时，元组在条件B和C中具有相等的分布数据，但在条件B中具有不同的分布数据A类.

再模拟500个元组，以使来自所有三种条件的数据分布不同。对于给定的元组，我们模拟来自条件的数据X（X）₁来自具有平均值的分布λ_克莱.对于条件X（X）₂，我们从平均值分布进行模拟 $λ_{c（c）} 我_{我} 2 \sqrt{b条}$ 、和条件X（X）_三我们用平均值模拟分布 $λ_{c（c）} 我_{我} 2 \sqrt{b条}$ 条件A类,B类和C类随机分配为条件X（X）_1,X（X）₂,X（X）_三对于每个元组，我们可以看到这些样本之间不同的差异表达模式。

我们再次通过查看错误发现率来评估这些方法。在这项分析中，我们对我们的方法通过同时考虑数据的所有可能模型来准确识别每种不同类型的差异表达的能力感兴趣。我们还可以考虑我们的方法通过对每个元组取描述差分表达式的所有五个模型的后验概率的和来检测任何类型的差分表达式的能力。因此，对于数据中存在的每种类型的差异表达，我们可以考虑四条FDR曲线，对于显示任何类型差异表达的数据，可以考虑一条额外的FDR曲线。

对于预先存在的方法，在过度分散的对数线性和过度分散的逻辑方法中，我们能够形成线性模型，描述数据中存在的所有可能的差异表达模式。对于边缘R，DEGseq公司和DESeq公司方法中，我们只能进行两两比较，因此我们对每个数据集进行了三次分析，一次针对微分表达式的每种模式，其中一个实验条件与另两个实验条件进行了比较。我们无法通过成对比较的方法直接考虑微分表达式的模式，其中所有三个实验条件都是微分表示的，因此我们不使用edgeR，DEGseq公司或DESeq公司用于标识此类型元组的方法。

我们展示了数据（图6)的b条=8和n个=2或n个= 5. 同样，为了增强鲁棒性，我们估计了顶层的平均错误发现率N个对所有模型进行100多次模拟。正如预期的那样，对于所有方法，三个模型的错误发现率几乎相同，其中一个实验条件与其他两个条件相比表现不同。因此，我们仅显示条件微分表达式的结果A类和B类与条件相比C类，以及三种实验条件差异表达的情况下的结果。在这个更复杂的实验设计中，bay序列性能优于所有现有方法，尤其是可用库的数量增加时。也许令人惊讶的是，edgeR方法在发现可通过两两比较表示的差异表达式方面比过分散的对数线性或过分散的逻辑方法做得更好，正如DESeq公司方法。这个DEG序列然而，该方法在这些比较中的表现不如任何其他方法。

图7展示了如何bay序列针对不同的模型执行。所有三种实验条件都不同的模型的错误发现率远高于两两比较，这表明拟合这个更复杂的模型的额外困难。如果我们考虑方法一节中描述的建议，即通过对描述差异表达式的所有模型的后验概率求和来找到任何类型的差异表达式，我们可以看到，以这种方式识别的元组的错误发现率非常低，特别是当可用库的数量增加时。这可能表明，个别模型的某些错误发现可能是由于一种类型的差异表达有时被误认为是另一种类型。

结论

我们提出了一种经验贝叶斯方法，bay序列它可以同时建立多个差异表达模型的后验概率，并且在识别计数数据中成对差异表达方面的性能与现有的任何技术一样好或更好。更重要的是，该方法能够分析涉及多个样本组的实验设计，同时使用整个数据集来建立现有分散水平的参数。这使得对更复杂的实验设计的分析比以前可能的精度高得多，因此在分析高通量测序技术产生的数据方面向前迈出了重要一步。该方法产生差异表达模型的后验概率，而不是显著性值，在下游分析中具有许多优势；例如，找到预期数量的差异表达元组，或者组合多个模型的后验概率，就变得很简单。

在开发这种方法的过程中，我们建立了一个定义良好的框架，用于描述样本之间不同的差异表达模式。然后，我们采用经验贝叶斯方法来建立每个元组的每个模型的后验概率。我们通过假设每个元组的数据是负二项分布来实现这一点。真实数据中存在的过度分散支持了这一假设（图4)和卢的作品等[7]表明即使数据不是真正的负二项分布，负二项分配的假设也可能是稳健的。然后，我们估计这些负二项分布参数的经验先验分布。这是一种非常自然的方法，因为高通量测序提供了大量数据，可以从中估计先验分布。这种方法的一个有趣的特点是我们在选择如何估计负二项分布的参数时获得了灵活性。我们选择在这里使用拟似然方法，因为它们似乎比最大似然方法（未公布的数据）具有更好的性能。然而，估计这些参数的其他方法（例如Robinson和Smyth的[9]缓和条件最大似然[11]将负二项分布的方差与平均值联系起来的方法）可能会被改进，以进一步提高我们的方法的性能。我们还可以轻松处理不同库大小的问题，因为此参数可以直接构建到有关数据分布的假设中。

我们的方法计算量相对较大，但已经实现，以利用并行处理的优势，因此对来自十个样本的一万个元组的成对差分表达式进行分析，在一台具有八个2 GHz处理器的机器上运行大约需要7.5分钟。我们比较bay序列到edgeR包中实现的方法，因为据报道这优于其他现有的成对比较方法[9]，是最常用的计数数据分析方法（基于Bioconductor下载统计数据）。我们还比较了两种最近开发的成对比较方法，DESeq公司和DEGseq公司以及旧的过度分散逻辑和过度分散对数线性方法，因为后者允许分析更复杂的实验设计。

在先前开展的仿真研究的基础上，对两两数据的方法进行了比较[9]以及真实的生物数据海湾序列这里开发的方法的性能与任何现有方法相当，在某些情况下优于任何现有方法。我们还看到最近开发的一种方法，DEGseq公司，在单向微分表达式比例较高时显示出极低的性能，尽管它与edgeR和bay序列在其他情况下。当数据的离散度不变时，差异表达元组的比例很高，并且差异表达是单向的，通过bay序列与使用默认参数的所有其他方法相比（图三).

用于分析随机分散的数据（图2),bay序列对于少量库，其性能几乎与edgeR相同，但对于大量库，性能有显著提高。过分散对数线性方法的性能几乎与bay序列对于低水平的差异表达，但对于较高水平的差异表达显示出更差的性能。这个DESeq公司和DEGseq公司与bay序列随着差异表达式级别和库数量的增加DEGseq公司表现特别差。过度分散的物流方法总是表现最差的方法之一。

对真实生物数据的分析再次表明，我们的方法的性能至少与edgeR一样好，而且可能更好，而这两种方法似乎都大大优于过度分散的对数线性和逻辑方法。这个DESeq公司与bay序列然而，在这些数据中DEGseq公司显示的性能与bay序列.

然而，这里开发的经验贝叶斯方法的主要优点是它可以适用于更复杂的实验设计，尽管目前这些方法仍然局限于涉及多组的比较，并且无法解释例如配对样本。因此，这项工作的一个可能扩展是将这些方法推广到某种形式的广义线性模型方法。然而，我们的方法能够从单个实验中同时识别多种类型的差异表达。在使用涉及多组的实验设计模拟进行方法比较时（图6)，的海湾序列该方法似乎比现有方法有了实质性的改进。图7，它比较了bay序列识别不同差异表达模式的方法表明，我们应该预期bay序列用于更复杂的差分表达式模式的方法。然而，我们也可以看到，结合模型来获取任何类型的差异表达的后验概率是一种有价值的方法。

因此，我们的方法提供了与以前方法一样好或更好的性能，同时使实验者能够在单个测序实验中同时考虑许多不同的样本类型。我们认为，这是一种有价值的方法，代表着对测序实验计数数据的分析向前迈出了重要一步。

可用性和要求

本文开发的经验贝叶斯方法在软件包中实现bay序列[24]对于跨平台计算环境R[25]（2.3或更高版本）。bay序列根据GPL-3许可证发布，作为生物导体项目的一部分[19]在http://www.bioconductor.org/packages/2.6/bioc/html/baySeq.html

工具书类

Margulies M、Egholm M、Altman WE、Attiya S、Bader JS、Bemben LA、Berka J、Braverman MS、Chen YJ、Chen Z、Dewell SB、Du L、Fierro JM、Gomes XV、Godwin BC、He W、Helgesen S、Ho CH、Ho CH、Irzyk GP、Jando SC、Alenquer ML、Jarvie TP、Jirage KB、Kim JB、Knight JR、Lanza JR、Leamon JH、Lefkowitz SM、Lei M、Li J、Lohman KL、Lu H、Makhijani VB、McDade KE、，McKenna MP、Myers EW、Nickerson E、Nobile JR、Plant R、Puc BP、Ronan MT、Roth GT、Sarkis GJ、Simons JF、Simpson JW、Srinivasan M、Tartaro KR、Tomasz A、Vogt KA、Volkmer GA、Wang SH、Wang Y、Weiner MP、Yu P、Begley RF、Rothberg JM：微加工高密度微晶反应器中的基因组测序。自然2005, 437: 376–380.
中国科学院公共医学公共医学中心谷歌学者
Bentley DR：全基因组重新排序。当前操作基因开发2006, 16: 545–552. 2016年10月10日/j.gde.2006.10.009
第条中国科学院公共医学谷歌学者
Schuster SC：下一代测序改变了今天的生物学。Nat方法2008, 5: 16–18. 10.1038/nmeth1156
第条中国科学院公共医学谷歌学者
Mardis ER：下一代测序技术对遗传学的影响。趋势Genet2008, 24: 133–141.
第条中国科学院公共医学谷歌学者
Velculescu VE，Zhang L，Vogelstein B，Kinzler KW:基因表达的系列分析。科学1995年，第270页：484–487页。10.1126/科学.270.5235.484
第条中国科学院公共医学谷歌学者
Baggerly KA，Deng L，Morris JS，Aldaz CM：SAGE的过度分散逻辑回归：建模多组和协变量。BMC生物信息学2004, 5: 144. 10.1186/1471-2105-5-144
第条公共医学公共医学中心谷歌学者
Lu J，Tomfohr JK，Kepler TB：识别多个SAGE库中的差异表达：过度分散的对数线性模型方法。BMC生物信息学2005年，6:165。10.1186/1471-2105-6-165
第条公共医学公共医学中心谷歌学者
Robinson MD，Smyth GK：负二项离散度的小样本估计，及其在SAGE数据中的应用。生物统计学2008, 9: 321–332. 10.1093/生物统计/kxm030
第条公共医学谷歌学者
Robinson MD，Smyth GK：评估标记丰度差异的中等统计检验。生物信息学2007, 23: 2881–2887. 10.1093/生物信息学/btm453
第条中国科学院公共医学谷歌学者
Wang L，Feng Z，Wang X，Wang X-，Zhang X:DEGseq：用于从RNA-seq数据中识别差异表达基因的R包。生物信息学2010, 26: 136–138. 10.1093/生物信息学/btp612
第条公共医学谷歌学者
Anders S，Huber W：序列计数数据的差异表达分析。自然先例2010. [http://proceedings.nature.com/documents/4282/version/2]
谷歌学者
Bullard JH、Purdom E、Hansen KD、Dudoit S：mRNA-Seq实验中归一化和差异表达的统计方法评估。BMC生物信息学2010, 11: 94. 10.1186/1471-2105-11-94
第条公共医学公共医学中心谷歌学者
Evans M，Swartz T：统计学中近似积分的方法，特别强调贝叶斯积分问题。统计科学1995, 10(3):254–272. 10.1214/ss/1177009938
第条谷歌学者
Nelder J：准利基伍德和伪利基伍德不是一回事。应用统计学杂志2000, 27(8):1007–1011. 10.1080/02664760050173328
第条谷歌学者
Smyth GK：用于评估微阵列实验中差异表达的线性模型和经验贝叶斯方法。遗传学和分子生物学中的统计应用2004., 3: 10.2202/1544-6115.1027
谷歌学者
Lönnstedt IM，Rimini R，Nilsson P：经验贝叶斯微阵列方差分析和按等表达水平分组细胞系。遗传学和分子生物学中的统计应用2005., 4: 10.2202/1544-6115.1125
谷歌学者
Robinson M:edgeR：数字基因表达数据集中的差异表达方法。生物导体2009
谷歌学者
Robinson MD、McCarthy DJ、Smyth GK:edgeR：数字基因表达数据差异表达分析的生物导体包。生物信息学2010, 26: 139–140. 10.1093/生物信息学/btp616
第条中国科学院公共医学公共医学中心谷歌学者
RC、Carey VJ、Bates DM、Bolstad B、Dettling M、Dudoit S、Ellis B、Gautier L、Ge Y、Gentry J、Hornik K、Hothorn T、Huber W、Iacus S、Irizarry R、Leich F、Li C、Maechler M、Rossini AJ、Sawitzki G、Smith C、Smiths G、Tierney L、Yang JY、Zhang J：生物导体：计算生物学和生物信息学的开放软件开发。基因组生物学2004年5月：R80。10.1186/gb-2004-5-10-r80
第条公共医学公共医学中心谷歌学者
Zhang L，Zhou W，Velculescu VE，Kern SE，Hruban RH，Hamilton SR，Vogelstein B，Kinzler KW：正常细胞和癌细胞中的基因表达谱。科学1997, 276: 1268–1272. 10.1126/科学.276.5316.1268
第条中国科学院公共医学谷歌学者
Peragine A、Yoshikawa M、Wu G、Albrecht HL、Poohig RS:SGS3和SGS2/SDE1/RDR6是拟南芥幼年发育和产生反式siRNA所必需的。基因开发2004, 18: 2368–2379. 10.1101/gad.1231804
第条中国科学院公共医学公共医学中心谷歌学者
Swarbreck D、Wilks C、Lamesch P、Berardini TZ、Garcia Hernandez M、Foerster H、Li D、Meyer T、Muller R、Ploetz L、Radenbaugh A、Singh S、Swing V、Tissier C、Zhang P、Huala E：拟南芥信息资源（TAIR）：基因结构和功能注释。核酸研究2008年，36:D1009–1014。10.1093/nar/gkm965
第条中国科学院公共医学公共医学中心谷歌学者
Prüfer K、Stenzel U、Dannemann M、Green RE、Lachmann M和Kelso J：PatMaN：短序列与大型数据库的快速比对。生物信息学2008, 24: 1530–1531. 10.1093/生物信息学/btn223
第条公共医学公共医学中心谷歌学者
哈德卡斯尔TJ：baySeq：离散数据中的差异表达模式. 2009. [http://www.bioductor.org][软件手册]
谷歌学者
R开发核心团队：R：统计计算语言与环境.R统计计算基金会，奥地利维也纳；2007年。[ISBN 3–900051–07–0][http://www.R-project.org网站][ISBN 3-900051-07-0]
谷歌学者

下载参考资料

致谢

作者感谢埃里卡·哈维克（Ericka R.Havecker）和大卫·鲍尔孔贝（David C.Baulcombe）的宝贵讨论。David C.Baulcombe和Nataliya Yelina提供了生物数据。我们要感谢两位匿名评论员提出的有益建议。

托马斯·哈德卡斯尔（Thomas J.Hardcastle）得到了欧盟委员会第七框架计划（Seventh Framework Program）第233325号赠款的支持。这项工作得到了欧盟委员会第六框架计划综合项目SIROCCO的支持；合同编号：LSHG-CT-2006-037900。

作者信息

作者和附属机构

英国剑桥大学植物科学系
Thomas J Hardcastle和Krystyna A Kelly

作者

托马斯·哈德卡斯尔
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
克里斯蒂娜·A·凯利
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

通讯作者

与的通信托马斯·哈德卡斯尔.

其他信息

作者的贡献

TJH设计并实施了bay序列打包并起草手稿。KAK起草了手稿。所有作者阅读并批准了最终手稿。

作者提交的原始图像文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

图2的作者原始文件

图3的作者原始文件

图4的作者原始文件

图5的作者原始文件

图6的作者原始文件

图7的作者原始文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品，前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Hardcastle，T.J.，Kelly，K.A.baySeq：识别序列计数数据中差异表达的经验贝叶斯方法。BMC生物信息学 11, 422 (2010). https://doi.org/10.1186/1471-2105-11-422

下载引文

收到:2010年4月30日
认可的:2010年8月10日
已发布:2010年8月10日
内政部:https://doi.org/10.1186/1471-2105-11-422