我们采用并修改了Robinson和Smyth的命名法[9]描述SAGE数据,因为这似乎普遍适用于高通量测序技术的数据。通过cDNA测序获得的一组数据图书馆包含多个序列标记。因为在SAGE数据中,每个mRNA分子只有一个标签,即Robinson和Smyth[9]检查用于检测样本之间差异表达标签的方法。然而,在通过高通量测序实现的许多应用中,我们可能希望将多个标签分组在一起,并获取该分组的单个计数。例如,对于整个转录组mRNA或小RNA数据,我们可能希望考虑来自定义位点的所有标记的计数总数。在这两种情况下,对于每个不同的标签或标签组,我们都有一个有序的列表,或者元组离散计数,每个元组中的样本顺序相同。因此,在接下来的工作中,我们简单地提到元组,而无需指定这些是单独排序的标记计数还是多个标记的聚合计数。这个库大小是对给定库中计数总数的度量,或者是Bullard所讨论的库大小的替代度量等[12],并用作观测数据的比例因子。
方法
我们采用经验贝叶斯方法来估计一组模型中每个模型的后验概率,这些模型定义了每个元组的差分表达模式。这种方法首先根据样本之间的相似性和差异定义每个模型。对于给定的模型,我们试图定义哪些样本的行为彼此类似,以及哪些样本集存在可识别的差异。为了评估每个元组的每个模型的后验概率,我们考虑由一组基本参数定义的元组的分布,其中存在一些先验分布。行为相似的样本应该在元组的基本参数上具有相同的先验分布,而行为不同的样本应该具有不同的先验分配。我们基于元组数据的负二项分布开发了我们的方法,并从整个数据集中导出了一个关于基础参数集的经验分布。
我们的方法的一个重要优点是可以简单地实现对多个模型的后验概率的评估。因此,所描述的技术是以非常通用的形式开发的。
模型定义
在为数据建立一组模型时,我们会考虑哪些模式在生物学上是可能的。在两两比较的最简单情况下,我们有来自两种情况下的一些样本的计数数据A类和条件B类。如果我们假设每个条件有两个生物复制,那么有四个库,A类1,A类2,B类1,B类2,其中A类1,A类2和B类1,B类2是复制品。在大多数情况下,可以合理地假设至少一些元组可能不受我们的实验条件的影响A类和B类。然后,这些元组中每个样本的计数数据将共享相同的基础参数。然而,一些元组可能会受到不同实验条件的影响A类和B类。对于这样的元组,来自示例的数据A类1和A类2将共享相同的基础参数集,即来自样本的数据B类1和B类2将共享相同的基本参数集,但关键是,这些参数集将不相同。因此,我们可以将模型视为非重叠的样本集。因此,我们的第一个无差异表达模型由样本集定义{A类1,A类2,B类1,B类2}. 我们的第二个模型,条件之间的差异表达A类和条件B类由集合定义{A类1,A类2}和{B类1,B类2}.
更复杂的模型
在所描述的简单示例中,只有两个模型是合理的,并且该框架似乎过于复杂。然而,在涉及多个样本组的实验设计中,可能会有更多的模型。作为一个例子,我们考虑下一个最复杂的实验设计,涉及来自三种不同条件的样本A类,B类和C类在这种情况下,对于给定的元组,要么数据在所有样本中相等分布,要么在两个条件下相等分布,但在第三个条件下不相等,要么在所有三个条件中分布不同。因此,我们需要考虑五种模型。
在第一种情况下,所有样本都是等价分布的,因此模型是由集合定义的{A类1,A类2。。。,B类1,B类2, ...,C类1,C类2, ...}. 然后我们需要考虑三个模型,在这三个模型下,在两个条件下存在等效分布,但第三个条件下不存在。这些模型中的第一个可以用集合来描述{A类1,A类2, ...,B类1,B类2,…},{C类1,C类2, ...}, 其中数据来自条件A类和条件B类条件C的数据分布不同。同样,我们需要考虑其他两个模型,其中单个条件与其他两个不同{A类1,A类2, ...,C类1,C类2, ...}, {B类1,B类2, ...} 和{B类1,B类2。。。,C类1,C类2, ...}, {A类1,A类2, ...}. 最后,我们需要考虑集合定义的模型{A类1,A类2, ... }, {C类1,C类2, ... }, {A类1,B类2, ...}, 其中来自所有三种条件的数据分布不同。
即使考虑到这个相对简单的例子,也可以清楚地看到,随着不同实验条件数量的增加,潜在模型的数量迅速增加。然而,我们还应该注意到,在许多情况下,我们将能够排除基于生物知识的特定模型(例如,如果我们知道该条件B类是条件的子类型A类,我们可能会排除由{A类1,A类2。。。,C类1,C类2, ...}, {B类1,B类2, ...}), 因此,系统的复杂性不必增长得太快。我们现在的任务是在给定数据的情况下,确定每个元组的每个模型的后验概率。这将允许我们形成元组的排序列表,按特定模型的后验概率排序(例如,实验条件之间的差异表达模型)。
确定后验概率而非显著性值的一个有趣优点(第页-值),因为我们获取每个模型和每个元组的后验概率,并且由于这些模型是互斥的,所以通过对后验概率求和来组合感兴趣的模型是微不足道的。例如,如果我们对任何特定类型的差异表达都不感兴趣,而只是对我们的数据中是否存在任何类型的差异表示感兴趣,那么我们可以通过求所有差异表达的后验概率(生物学上似乎合理)来获得任何类型差异表达的概率描述差异表达的模型。然后,我们可以根据这些概率以及单个模型的概率对元组进行排序。
分布的等价性
假设我们有一组n个样品= {A类1, ...,A类
n个
},以便特定元组的观测数据,c(c),由给出(u个1c(c)。。。,u个
数控
)其中u个
集成电路
是特定元组的计数c(c)用于样品我.对于每个样品A类
我
,我们还有库大小比例因子我
我
。对于每个元组,我们可以将数据视为
现在我们考虑一些模型M(M)关于集合定义的这些数据{E类1。。。,E类
米
}. 如果在此模型中,样本A类
我
和A类
j个
都在同一组E类
q个
,然后我们知道它们具有相同的基础分布参数θ
q个
。我们可以定义一个集合K(K)= {θ1, ...,θ
米
}. 为了简化符号,我们还将定义与集合关联的数据E类
q个
作为D类
质量控制
= {(u个
集成电路
:A类
我
∈ E类
q个
), (我
我
:A类
我
∈ E类
q个
)}给定一个模型M(M)对于数据,则为每个元组的关注量c(c)是模型的后验概率M(M)给定数据D类
c(c)
,这是
(1)
然后我们可以尝试计算ℙ(D类
c(c)
|M(M))通过考虑边际似然
(2)
负二项分布数据
有许多可能的分布可以用于D类
c(c)
|K(K),M(M)和K(K)|M(M)一种似乎很自然的方法是假设数据是泊松分布的,参数是伽马分布的,从而对测序的任何单个分子的稀有性进行建模,并允许在计算中使用一种形式的泊松-伽马共轭ℙ(D类
c(c)
|M(M)). 然而,正如Robinson和Smyth[8]指出,该模型没有考虑到生物复制带来的额外变异性。可以使用数据为负二项分布(过分散泊松)的假设来解释这种可变性。罗宾逊和史密斯[9]显示了实际数据中存在过度分散,我们也可以在下面介绍的数据集中看到这一点。此外,Lu等[7]在模拟数据中表明,即使数据不是真正的负二项分布,负二项式分布的假设也是可靠的。
在库大小相等的情况下,可以在负二项分布的假设下,对观察给定非微分表达式的数据的可能性进行精确测试。通过生成与实际数据大致相同但具有相同库大小的“伪数据”,可以解决库大小不相等的问题。这是罗宾逊和史密斯采取的方法[9]. 作为此方法的替代方法,我们在经验贝叶斯方法中使用数值方法,该方法允许我们保留真实数据,并使用库大小作为缩放因子。我们考虑一个样本A类
我
属于集合E类
q个
具有库大小我
我
。我们现在假设此示例中元组的计数c(c),u个
集成电路
为负二项分布,平均值为μ
q个
我
我
和分散ϕ
q个
,其中θ
q个
= (μ
q个
,ϕ
q个
). 然后可以将一个参数化定义为
不幸的是,没有明显的共轭性可以像泊松-伽马情形那样应用。然而,如果我们可以定义一个经验分布K(K)然后我们可以估计ℙ(D类
c(c)
|M(M))数字上。我们首先假设θ
q个
∈ K(K)在以下方面是独立的q个.然后
这种假设降低了积分的维数,从而提高了积分数值逼近的精度。
接下来,我们假设每个θ
q个
∈ K(K)我们有一组值θ
q个
从θ
q个
.然后我们可以导出近似值[13]
(3)
接下来剩下的任务是导出集合θ
q个
从数据中。
经验导出的K分布
我们可以得出一个经验分布K(K)通过检查整个数据集。对于每组样品E类
q个
,我们希望找到对单个元组数据下分布的平均值和离散度的一些估计,D类
质量控制
通过类似地发现大量元组的平均值和离散度的估计值,我们将获得采样θ
q个
这里的主要困难在于正确估计离散度。例如,假设来自给定元组的数据显示真正的差异表达式。如果我们正在测试的模型假设没有差异表达式,那么这个元组的离散度将被大大高估。由于我们事先不知道哪些元组是真正差异表达的,哪些不是,因此我们需要考虑数据的复制结构,以便正确估计离散度。我们通过考虑集合来定义复制结构{F类1, ...F类
秒
}其中我,j个 ∈ F类
第页
当且仅当样本A类
j个
是的复制A类
我
.
给定数据的这种结构,我们可以估计数据在元组中的离散度D类
c(c)
通过拟似然方法[14]. 在这种情况下,准似然方法可以很好地估计单个元组的离散度[8]. 我们首先定义,然后选择ϕ
c(c)
这样的话
(4)
将此值用于ϕ
c(c)
然后我们可以重新估计这些值通过最大似然法,为使可能性最大化
对于每个第页.
然后,我们对ϕ
c(c)
和直到我们实现融合。
这为我们提供了一个值ϕ
c(c)
然后,我们需要估计数据下分布的平均值D类
质量控制
,即,对于中的样本集E类
q个
我们可以通过固定为ϕ
c(c)
并估计平均值μ
质量控制
通过最大似然法,为μ
质量控制
使可能性最大化
对于每个q。
然后我们可以形成集合θ
q个
= {(μ
质量控制
,ϕ
c(c)
)}通过多次重复此过程小时,然后能够计算ℙ(D类
c(c)
|M(M))根据公式3。
这种估计离散度的方法假设元组在不同样本集之间的离散度是恒定的。在大多数情况下,如果样本数量较少,这可能是最好的方法。如果有人预计重复组之间的离散度将有实质性差异,则单独估计每个模型中不同组样品的离散度可能会有好处,同时仍然考虑这些组内的重复结构。通过将数据(和相应的复制结构)限制为D类
质量控制
在估算公式4中的离散度时。我们在模拟研究(未发表的数据)中发现这些方法之间没有实质性差异,因此仅显示了假设每个元组的离散度不变时获得的结果。
每个模型的先验概率估计
当考虑每个模型的先验概率时,有许多选项可用ℙ(M(M))公式1中要求。如果我们能够从其他来源进行估算,这可能会提供最佳解决方案。然而,在许多情况下,我们可能无法合理估计先验概率。我们建议使用Smyth建议的方法[15]用于在微阵列实验的分析中估计差异表达基因的比例可以合理地适于估计这些先验。我们首先选择(理想情况下基于我们对模型的先前知识)一些值第页用作模型的先验概率M(M)为了估计后验概率ℙ(M(M)|D类
c(c)
)对于c(c)第个元组。然后我们可以得出一个新的估计
模型的先验概率M(M)通过迭代直至收敛,我们获得了每个模型的先验概率估计。实际上,我们发现第页s对它们最终收敛到的值没有实质性影响。这种方法很容易实现,但可能允许正反馈,从而过高估计模型的先验概率(以及相应地低估其他模型的先例概率)。
这种方法的另一种选择是,在我们模型的先验概率上建立一些分布,并基于此分布找到数据的边际后验概率。一种方法可能是使用后验概率的分布作为先验分布的近似值。然后,我们可以使用数值积分方法重新估计后验概率,并像以前一样迭代。然而,在实践中,这种方法计算量极大,对预测的准确性(未发布的数据)几乎没有改进。
比例因子ℙ(D类
c(c)
)
最后,我们需要考虑比例因子ℙ(D类
c(c)
)在等式中。1.由于上可能的型号数量M(M)在比例因子是有限的,虽然可能很大ℙ(D类
c(c)
)可以通过所有可能的求和来确定M(M),给出适当的先验信息ℙ(M(M)). 实际上,模型的数量可能会受到限制,因为只考虑那些生物学上合理的模型,或者通过对中的集合数量施加一些分布M(M)以与Lönnstedt相似的方式等的方法[16]用于微阵列数据的方差分析。