通用贝叶斯模型
一般来说,假设感兴趣的随机变量的概率密度函数(pdf)为“表达式丰度”π ∈某些基因的[0;1]G公司通过参数向量在模型族中建立索引θ因此,遵循通常的贝叶斯框架后部描述该类的pdf为:
哪里:X(X)= (x个1,...,x个
n个
)是总数的矢量n个同类库,M(M)= (米1,...,米
n个
)是所有观测值的矢量n个同类库,克(·)是先验的pdf格式,以及L(左)是每种情况的可能性我-第次观察。注意,所有观察值的所有似然函数的乘积就是所谓的似然函数。
自动排序的计数过程通常建模为二项式。由于事先不知道样本大小和停止规则,因此模型严格来说不是二项模型。我们在模型中不需要组合常数,但我们写它只是因为它很常用,并且会在后验的无论如何都要表达。
“伪库”方法作为特例
将来自同一类库的所有观察结果合并,并用其组件的总和构造“伪线性代数”,是使用复制的标准过程。如果使用的话,我们的通用模型将简化为这个(不切实际的)模型(f)(·)作为等式1中的狄拉克三角:
哪里:1{·}是指示符函数。
在公式3中使用公式4,得出:
其中:g(θ)=1,非格式化制服先验的分配。
专家承认θ~β(1+Σ x个
我
, 1 +Σ 米
我
-Σ x个
我
)观测值之和是“伪线性”结构的数学翻译。
特殊情况下的贝塔-二项式方法
在SAGE分析中,唯一允许非零类内方差的公开解决方案是贝塔二项模型[12]. 使用(f)(·)作为等式1中的Beta,我们得到了Beta-二项式模型作为一般模型的特殊情况:
哪里:B类(·)是beta特殊函数,并且:
专家再次承认θ= (θ1,θ2)作为Beta随机变量的平均值和标准偏差(stdv)。我们更喜欢贝塔分布的这种参数化,而不是常见的(α,β)一个原因是:(i)生物学家处理平均值和性病病毒比处理抽象值直观得多α和β和(ii)作为α,β>0,域θ={(θ1,θ2): 0 ≤θ1≤ 1, 0 ≤θ22<θ1(1-θ1)≤1/4}是有界的,更容易进行必要的数值计算。
在等式3中使用等式6得出:
哪里:克(θ1,θ2)是先验的pdf格式。
先验分布定义
要完成贝叶斯模型,必须选择先验的pdf格式。我们在θ上使用均匀分布。另一方面,我们事先知道,如果不考虑课内变异性,该模型的方差不可能小于最终获得的方差。即使类内变异性很小,也不能估计为小于简单抽样误差,因为它们是不可分割的,抽样误差是下限[12]. 举个例子,如果用一把普通的尺子对一个折叠的纸球和一个完美的球体进行几次直径测量,也会出现同样的情况。在第一种情况下,被测物体的固有性质决定了测量的可变性,但在第二种情况下我们无法以比尺子更高的精度来测量完美球体的直径。
这种知识通过以下方式自然地纳入贝叶斯统计先验的分配。为了匹配我们想要的特征,在θ参数空间上定义一个统一的,但约束在最小stdvσ的条件下就足够了,该条件是从类内无方差模型的结果中获得的:
域上θ={(θ1,θ2): 0 ≤θ1≤ 1, 0 ≤θ22<θ1(1 -θ1) ≤ 1/4}.
因为我们证明了(等式5),类内无方差模型是θ~β(1+∑x个
我
, 1 + Σ米
我
-∑x个
我
),很容易从Beta方差中获得标准偏差下限:
因此,使用等式8中的等式9和等式10后验的已完全定义。
差异表达检测
我们使用贝叶斯错误率检测差异表达的标签E类[15]在两个预测Beta pdf中:
哪里:
请注意(f)(·)是Beta pdf,如等式6所示。“帽子”盖上了θ= (θ1,θ2)指示导致公式8达到最大值的值。通常,根据前面定义的约束θ,最大化是在后部的核心,因为它给出了与后验的自身:
图5显示了此过程的一个示例。请参阅“结果”部分,以直观地了解此证据度量。
实施——数值分析
该方法以R语言实现[27,28]根据GPL/GNU版权许可在补充网站上免费提供的脚本[23]. 在这个网页上有关于如何在本地运行它的详细信息。
我们的方法是计算机密集型的,主要是因为需要一些数值最大化和积分。我们使用高效的R内置例程来执行此类数字任务。记住,等式12中所需的最大化是有约束的,因此我们简单地使用辅助重新参数化来获得线性约束,并使用constrOptim R例程。对于数值积分,我们使用了一维高斯正交积分R内置函数。虽然等式9的数值积分应该在所有[0;1]支持下进行,但此积分的相关贡献集中在一个更小的区域。超过形式极限的积分将导致严重的数值错误,为了避免这个问题,我们将积分区域近似为由每个Beta pdf的0.005分位数和0.995分位数分隔的区间,因为相关密度位于该区间。
如我们最近的工作所述,获得了有趣标签表达率的可信度区间(“错误条”)[16]. 我们任意选择了68%的可信区间。
实施–基于Web的界面
我们还开发了一个易于使用的基于web的服务,该服务在我们的服务器上执行所有计算,并提供密码保护的结果。尽管需要,为了与SAGE Genie数据库自动建立web超链接,但无需明确识别分析的标签,而是任何(自定义)身份证字符串。这可能会增加隐私,或使我们的web界面对“数字北方”、MPSS或任何二项式采样混合的数学相关问题有用。图6显示了界面的快照。
公开可用数据
表格1列出SAGE Genie的库名Gene Expression Omnibus(GEO)[29]所有使用过的图书馆的登录代码和大小。
对于我们的目标,将分析集中在标签级别就足够了。因此,我们处理标签计数,并将标签最佳基因的识别作为一个后置问题进行匹配,这个问题只能仔细地处理真正有趣的标签。我们选择不处理计数只出现在一个类的库中的标记。值得注意的是,所有的文库都来自散装材料,没有细胞线,并且来自具有类似疾病描述的患者。正常的库来自大脑的不同正常区域。
我们认为该数据集非常具有说明性,因为在肿瘤类别中存在生物复制,可以清楚地验证类别内的生物变异性。另一方面,只考虑一种疾病,即星形细胞瘤III级,而不是数据库中的所有脑肿瘤,会让人相信,类内变异实际上是由于患者的生物多样性,而不是由于SAGE Genie数据库中存储的不同脑肿瘤的非常独特的分子特征。
因此,我们认为生物信息学尽管我们的目的不是对脑肿瘤数据进行详细或生物学分析,但比较非常适合证明处理类内效应的必要性。
与其他方法的比较
为了对我们的差异表达证据度量产生一些直觉,我们将从著名的Fisher精确检验(经典的Pearson检验)中获得的证据度量制成表格χ2比例检验和贝叶斯Audic-Claverie方法。所有这些测试都是使用易于使用的网络接口IDEG6执行的[21,22].
“P(P)-“数值”在概念上与我们的证据度量有很大不同,但却是最常用的证据度量。虽然无法比较数字,但从这些方法中得出的结论应该是因为每个图书馆观察结果的图形表示清楚地表明了“伪线性”方法。所有标签的显著性测量结果可作为附加Excel获得©或OpenOffice©用户可以在交互式文件中设置显著性度量的截止值,并探索结论中的差异。
我们将我们的方法与Baggerly进行了定性比较等。[12]t吨-以图形方式测试近似值,因为如果没有被分析标签的未知真实状态,就不可能判断它们,因为返回的数值解释太不相同。在他们的Frequentist框架中第页
我
=x个
我
/米
我
用于π
我
并且,这些丰度的线性组合被认为是组合不同库结果的正确方法:
哪里w个
我
是产生无偏最小方差估计量的权重V(V)
u个
加权比例方差和θ= (α,β)是Beta pdf参数。然而,当这种无偏方差小于抽样变异性时,它可能会非常小。我们知道,如果不考虑课内变异性,该模型的方差不可能小于最终获得的方差。因此,他们建议最终特别的估计员:
V(V)=最大值[V(V)
u个
;V(V)
伪类
](14)
哪里:
max(·)函数确保V(V)不是不切实际的小时候V(V)
u个
是不切实际的小。收件人适合所有这些参数都使用了计算实用的矩量法。一次第页A类,第页B类,V(V)A类和V(V)B类对于A类和B类,这些作者测试比例是否有显著差异,建议使用t吨
w个
统计信息如下t吨
数据流
pdf格式: