摘要

动机:Affymetrix GeneChip®阵列是目前使用最广泛的微阵列技术。为了从Affymetrix probelevel数据中提供基因表达水平,已经开发了许多总结方法。目前大多数流行的方法都没有提供每个基因表达水平的不确定性度量。使用概率模型可以克服这一限制。全层次贝叶斯方法需要使用计算密集型MCMC方法,这对于大型数据集来说是不切实际的。另一种计算效率高的概率模型mgMOS使用Gamma分布建模特定和非特定与潜在变量的结合,以捕获探针亲和力的变化。尽管前景看好,但该模型的主要局限性在于它不使用来自多个芯片的信息,也不考虑与失配(MM)探针的特定绑定。

结果:我们扩展了mgMOS来模拟探针对多个芯片的结合亲和力,并捕获特定结合对MM探针的影响。新模型multi-mgMOS提供了更高的准确性,如一些基准数据集和实时过程数据集所示,并且比需要MCMC采样的竞争层次贝叶斯方法计算效率更高。我们展示了概率模型如何用于估计表达水平的置信区间及其条件之间的对数比。

可利用性:mgMOS和新型多mgMOS均已在R包中实现,可在http://www.bioinf.man.ac.uk/resources/puma

联系人: magnus@cs.man.ac.uk

1简介

微阵列为同时测量数万个基因的表达水平提供了一种实用的方法(舍纳1995年;洛克哈特., 1996). 为了从微阵列实验数据中提供有意义的信息,对这些数据进行了不同级别的分析。一个重要的初始阶段是probelevel分析,它总结了每个基因的表达值。然后,根据微阵列实验的目的,需要进行进一步的下游分析,例如检测差异表达的基因和寻找共同调控的基因。微阵列与高水平的实验不确定性有关,需要进行探针水平分析,以确定面对这种不确定性时特定基因表达水平的准确总结。将这种测量与置信水平相关联也是非常有用的,然后可以使用概率模型或贝叶斯方法将置信水平传播并合并到进一步的分析中。

Affymetrix GeneChip®阵列(洛克哈特., 1996)是目前使用最广泛的微阵列。短的特异性寡核苷酸探针被栓系并固定在Affymetrix阵列的表面。靶cRNA被荧光标记并与阵列杂交。然后生成2D图像,每个探针由位置和强度标识。每个探针长25个碱基,每个基因由11-20个探针对表示,称为探针集。每个探针对包括一个完全匹配(PM)探针和一个不匹配(MM)探针。PM探针和MM探针的碱基序列几乎相同,只是MM探针的中间碱基改为PM探针中的互补碱基。MM探针中一个碱基错配的目的是测量非特异性杂交,当靶点与没有完美互补序列的探针结合时,就会发生这种杂交。因此,根据设计,MM探头充当其相应PM探头的背景测量。探针水平分析是根据相应探针集中PM和MM探针的强度估计每个基因的表达水平的过程。

利用Affymetrix微阵列中的多个探针,可以采用各种统计和概率方法来提供可靠的基因表达结果。MAS 5.0版(Affymetrix,2001年)、MBEI(Li和Wong,2001年)、军事革命(爱尔兰语., 2003)、GCRMA(., 2004),gMOS(米洛., 2003),毫克金属氧化物半导体(米洛., 2004)和BGX(海因., 2005)已被提议用于测量基因表达水平。MAS5.0、MBEI、RMA和GCRMA是统计学方法,它们能够准确地计算基因表达水平。然而,这些方法无法提供可能对进一步统计分析非常有用的表达式值的可信度。gMOS、mgMOS和BGX是概率模型,它们克服了这个问题,但它们有一些局限性。gMOS和mgMOS目前不使用跨多个芯片共享的信息,这降低了它们准确模拟探针特定效应的能力。他们还假设MM探针没有特定的约束,并且这个假设被证明是不准确的(爱尔兰语., 2003;海因2005年). BGX是一种分层贝叶斯模型,需要马尔可夫链蒙特卡罗(MCMC)方法进行参数估计,这对大型数据集的计算要求很高。BGX在评估非特异性杂交时也未能解释探针特异性效应,这使得难以获得弱表达基因的合理表达值。

在本文中,我们提出了一种多芯片版本的mgMOS,即multi-mgMOS来分析基因表达数据,目的是提供每个基因的测量表达值的不确定性。我们的新模型的一个重要特征是,它解释了相同探针在多个芯片上的相似结合亲和力。相同或类似的探针具有相似的绑定属性,这一事实在GCRMA中也得到了应用,GCRMA明确考虑了探针序列的碱基组成。相比之下,我们自己的方法是包括一个在芯片之间共享的探针特定参数,因此将自动捕获共享的合成效果,但也将捕获其他探针特定的效果。重要的是,结合亲和力参数可以分析性地集成到可能性之外,因此模型参数的数量不会随探针集的大小而变化。可能性可以写为封闭形式,这使得可以使用基于快速梯度的优化来获得模型参数,因此计算速度比BGX快得多。

2方法

微阵列数据最重要的特征之一是探针序列的高度特异性。PM和MM探针强度以及它们之间的差异以探针特定的方式变化(Li和Wong,2001年;爱尔兰语., 2003;., 2004;海因., 2005). 从实验数据中观察到的另一个现象是,随着靶mRNA数量的增加,MM和PM强度也增加(Naef和Magnasco,2003年;爱尔兰语., 2003;., 2004;海因., 2005). 因此,有相当数量的真信号与MM探针结合,不应被视为背景杂交或非特异性杂交。为了正确解释非特异性杂交,有必要同时考虑PM和MM探针。我们扩展了概率模型mgMOS(米洛., 2004)为这些现象建模。在描述我们的新模型之前,我们介绍了之前开发的单个芯片模型mgMOS。

mgMOS是gMOS的修改版本(米洛., 2003),其是假设PM和MM探针强度的潜在伽马分布的概率模型。模型定义如下
\[{y}(y)_{gj}\sim\hbox{Ga}({一}_{g} +{\alpha}_{g},{b}_{g} ),{m}_{gi}\sim\hbox{Ga}({一}_{g} ,{b}_{g} )\]
(1)
哪里分别表示j个-在-第个探针和Ga(b条)用参数表示伽马分布b条。的特定绑定信号j个-第个探针对,,也遵循伽马分布,~Ga(αb条). 概率密度
\[p\左({s}_{gi}\右)=\压裂{{b}_{g} ^{{alpha}_{g}}{\Gamma\left({\alpha}{g}\right)}{s}_{gj}^{{\alpha}_{g} -1个}经验(-{b}_{克}{s}_{gi}),\]
(2)
其中Γ(·)是伽玛函数。在gMOS中,PM和MM探针强度是从两个伽马分布中独立采样的。米洛. (2004)通过在探针集内建模PM和MM强度之间的相关性,将原始gMOS改进为修改的gMOS(mgMOS)。mgMOS假设PM和MM强度来自联合概率密度
\[第页({y}(y)_{gj},{m}_{gj})=\int\hbox{d}{b}_{gj}p\左({b}_{gj}\右)p({y}(y)_{gj},{米}_{gj}|{一}_{g} ,{\alpha}_{g},{b}_{gj}),\]
(3)
哪里b条~镓(c(c)d日). 这个b条是潜在变量,反映了探针集内探针的不同结合亲和力。这个修改后的分布准确地捕获了probe-set中probe-pair结合亲和力的相关变化。

mgMOS已被证明是一种高效且准确的模型(米洛., 2004). 然而,该模型仍存在两个重大问题,我们将在下文中进行描述:

  1. 现有模型是一个单芯片模型,没有考虑到潜在变量,b条,为数据集中的每个芯片建模相同的信息。估计b条对于同一类型芯片上的相同探针,可能会有所不同,并且不能反映探针序列的固有特性。

  2. MM探针的强度被视为背景和非特异性杂交,因此它们不能解释MM探针中真实信号的存在。这导致根据MM强度对非特异性结合进行不正确的估计。

为了克服这些局限性,我们提出了一种多芯片模型,即multi-mgMOS,其公式如下
\[{y}(y)_{gjc}\sim\hbox{Ga}({一}_{gc}+{\alpha}_{gc},{b}_{gj}),{米}_{gic}\sim\hbox{Ga}({一}_{gc}+\phi{\alpha}{gc},{b}_{gi}),\]
(4)
哪里政府军司令部政府军司令部分别表示j个-在-第个探针设置在c(c)-th芯片,并且它们都遵循具有相同逆尺度参数的伽马分布b条这是针对具体问题的。两种伽马分布的形状参数不同,由两部分组成:背景项气相色谱法和真特异杂交信号项α气相色谱法这是探针设置和芯片特定的。与BGX中的方法类似,我们允许真实信号的一部分φ绑定到MM探针。然后所有探针共享参数φ。实际上,这是一个近似值,因为可以观察到参数φ在探针对之间变化。

标度参数是一个潜在变量b条也遵循伽马分布,b条~镓(c(c)d日),使用参数c(c)d日它们都是特定于问题的。这个尺度参数在每个探针对的芯片之间共享,因此捕获了绑定亲和力的序列依赖性。

来自(4)的真实信号j个-在-第个问题c(c)-第个芯片,政府军司令部,遵循伽马分布
\[{s}_{gjc}\sim\hbox{Ga}({\alpha}_{gc},{b}_{gj}),\]
(5)
伽玛射线比b条如上所述。对于φ=0,政府军司令部政府军司令部是表示信号和噪声的Gamma分布变量的简单组合。对于φ>0,与MM探头结合的真实信号的平均效应为φ〈政府军司令部〉,其中〈政府军司令部〉是的平均值政府军司令部针对特定芯片的探针集合中的所有探针。我们的模型可以被认为是一个易于处理的近似值,其中MM强度是背景和φ的直接和政府军司令部.
每个探针组观测到的PM和MM强度的对数似然性
\[\begin{array}{c}{\mathcal{L}}_{g}({一}_{g\cdot},\phi,{\alpha},{c}_{g} ,{d}_{g} )=对数({y}(y)_{g\cdot\cdot},{米}_{g\cdot\cdot})\\={\displaystyle\sum_{j}}log\int\hbox{d}{b}_{gj}p\左({b}_{gj}\右|{c}_{g} ,{d}_{g} ){\显示样式\prod_{c}}p({y}(y)_{gjc},{米}_{gjc}|{一}_{gc},\phi,{\alpha}{gc},{b}_{gi})\\={\displaystyle\sum_{j}}log\left[\frac{{d}_{克}^{{c}_{g} }\Gamma\左({q}_{g} \右)}{\Gamma\left({c}_{g} \右){w}_{gj}^{{q}_{g} }}{\显示样式\prod_{c}}\frac{{y}(y)_{gjc}^{{a}_{gc}+{\alpha}_{gc}-1}{米}_{gjc}^{{一}_{gc}+\phi{\alpha}_{gc}-1}}{\伽马射线({一}_{gc}+{\alpha}_{gc})\Gamma({一}_{gc}+\phi{\alpha}{gc})}\right],\end{array}\]
(6)
哪里q个= ∑c(c)(2气相色谱法+ (1 + φ)α气相色谱法) +c(c)w个= ∑c(c)(政府军司令部+政府军司令部) +d日.参数气相色谱法,φ,α气相色谱法c(c)d日可以使用最大似然迭代估计。首先,通过固定φ,我们拟合气相色谱法, α气相色谱法c(c)d日对于每个探针设置,然后使用安装的气相色谱法, α气相色谱法c(c)d日我们估计φ。重复此过程,直到所有参数达到稳定值。
我们发现该模型对一系列参数具有平坦的似然性。为了使模型参数唯一可识别,我们采用了φ的经验知识,可以从峰值数据中估计φ。我们假设,对于高表达的尖峰基因,背景和非特异性杂交可以忽略不计。因此,在(4)中,我们设置气相色谱法归零,得到φ≃〈政府军司令部〉/〈政府军司令部〉,表示日志之间的差异(MM(毫米))和日志(颗粒物)对于每个探针,pair大约等于常数log(φ)(如所示图1a). 使用来自所有已知峰值浓度高于50 pM的峰值基因的实验数据,我们获得了φ的拟合对数正态分布(如所示图1b). 我们引入φ的对数正态先验来获得φ的最大后验(MAP)估计。φ的后验分布为
\[p\左(\phi\右|\{{y}(y)_{gjc},{米}_{gjc}\})\道具p(\{{y}(y)_{gjc},{米}_{gjc}\}\left|\phi\right)p\left(\phi\ right).\]
(7)
φ的后验概率的对数是(忽略一个不相关的常数项)
\[\mathcal{L}={\displaystyle\sum_{g}}{\mathcal{L}}{g}\left(\phi\right)+log\left
(8)
这是估计模型参数时最大化的数量。
一旦估计了参数,信号的分布政府军司令部用于probe-pairj个在探测中芯片的c(c)
\[\开始{数组}{c} 第页\左({s}_{gjc}\right|{\alpha}{gc},{c}_{g} ,{d}_{g} )=\int\hbox{d}{b}_{gj}p\左({s}_{gjc}\right|{\alpha}{gc},{b}_{gj}\左)p\右({b}_{gj}|{c}_{g} ,{d}_{g} )\\=\压裂{\Gamma({c}_{g} +{\alpha}_{gc}){d}_{克}^{{c}_{g} }{s}_{gjc}^{{\alpha}_{gc}-1}}{\Gamma\left({\alpha}_{gc}\right)\Gamma\left({c}_{g} \右){({d}_{克}+{s}_{gjc})}^{{c}_{g} +{\alpha}_{gc}}}。\结束{数组}\]
(9)
预期的对数真探测信号和-probe-set分别由下式给出
\[\begin{array}{c}\langle日志\left({s}_{gjc}\right)\rangle=log\left({d}_{g} \右)+\psi\左({\alpha}_{gc}\右)-\psi\left({c}_{g} \右)\\hbox{Var}[log({s}_{gjc}\left)\right]={\psi}^{prime}\ left({\alpha}{gc}\right)+{\ps2}^{prime}\ leaft({c}_{g} \右),\结束{数组}\]
(10)
其中Ψ是digamma函数,它是伽马函数对数的导数,Ψ′是digama函数的一阶导数。

在(10)中c(c)d日是特定类型芯片的探针集的特征,而〈log(政府军司令部)〉随α变化气相色谱法在数据集中的不同芯片上。α的后验分布气相色谱法是单峰的,所以我们使用截断高斯来近似α的后验分布气相色谱法高斯函数以最大似然估计为中心,该估计对应于α先验下的MAP估计气相色谱法对数似然的Hessian用于确定模式下的曲率。我们还数值计算了α分布的直方图气相色谱法对于我们比较过的每一种情况,截断高斯函数都能很好地逼近直方图。一些示例如所示图2.我们假设α的后验分布气相色谱法将因子分解为每个芯片独立分布的乘积,并对对数似然的Hessian进行分析,结果表明这是一个很好的假设,除非考虑的芯片数量非常少。

α的后验分布气相色谱法,则可以直接计算百分位数和可信度区间。我们使用(10)和α的百分位数气相色谱法计算〈log的百分位数(政府军司令部)〉,因为这些在(10)的变换下是不变的。我们取〈对数的中位数(政府军司令部)〉作为基因表达水平芯片上c(c).可以像BGX中那样在技术复制品之间共享参数α(海因., 2005). 然而,在大多数情况下,我们倾向于为每个芯片使用不同的α参数,因为这对异常值和芯片间变化更为稳健。

我们已经使用快速C程序donlp2在公开可用的R包中实现了mgMOS和multi-mgMOS(斯佩卢奇,1998)用于参数优化。

3结果和讨论

3.1数据集

为了评估新概率模型的性能,我们考虑了两个基准数据集和一个实时过程数据集。数据集A与海因. (2005)评估BGX。它是公开可用的GeneLogic峰值数据集的子集(http://www.genelogic.com/media/studies/spikein.cfm)每个芯片仅包含1011个探针。数据集A包括两种不同条件下的六个芯片,每个芯片有三个副本。所有芯片都具有来源于急性髓性白血病(AML)肿瘤细胞系的常见复合物cRNA作为相同的背景。在这两种条件下,共有11个不同浓度的突入基因。根据两种条件下峰值浓度的差异,11个峰值基因表达水平的差异等级如下所示表1。有关数据集A的更多详细信息,请参阅海因. (2005).

数据集B是数据集中Affymetrix人类基因组U95拉丁方尖峰的子集(http://www.affmetrix.com/support/tech6nical/sample_data/datasets.affx). 我们包括来自1521组的14个芯片(芯片a–m和q)。每个芯片上有14个不同浓度的基因。这14种浓度分别为0、0.25、0.5、1、2、4、8、16、32、64、128、256、512和1024 pM。每个芯片的组合加标材料包含14个加标基因,每个加标基因都以14种不同浓度中的一种加标。该数据集包括每个芯片上的所有12 626个探针。

数据集C(网址:http://www.ncbi.nlm.nih.gov/projects/geo/)在中使用. (2004)从八个代表性时间点测量小鼠背部皮肤的mRNA表达谱,以发现毛发形态发生和循环中的调节因子。这个数据集有25个芯片,每个时间点有三到四个重复,这些重复是从不同的室友那里测量的。在这个数据集中,通过毛发生长周期中的时间和空间表达模式鉴定了8个以前不知道与毛发周期相关的基因,并通过定量实时PCR(qr-PCR)实验进行了确认。对于第一个毛发生长周期,微阵列数据来自五个时间点(第1天、第6天、第14天、第17天和第23天),qr-PCR数据来自八个时间点。因此,有三个共同的时间点(第1天、第17天和第23天)。有关数据集C的更多详细信息,请参阅. (2004).

3.2与其他方法的比较

我们使用简化的GeneLogic数据集A将多mgMOS与其他替代概率模型BGX进行比较(海因., 2005)和mgMOS(米洛., 2004). 数据集A上其他流行统计方法的性能如所示海因. (2005)为了进一步证明多mgMOS的准确性,我们还将其与最流行的统计模型MAS 5.0进行了比较(Affymetrix,2001年)、MBEI(Li和Wong,2001年)和GCRMA(., 2004),使用更大的数据集B。为了证明概率方法的优势,我们在结果中显示了一些感兴趣的概率量,例如表达式度量和信号对数比的可信度。此外,我们使用经PCR-验证的时间进程数据集C来展示我们提出的方法在真实生物数据集上的性能。使用了以下软件:BGX(http://www.bgx.org.uk/software.html)、MBEI(http://www.biostat.harvard.edu/compab/dchip)和GCRMA(http://www.bioconductor.org).

3.2.1与BGX和mgMOS的比较

图3显示了数据集A的BGX、mgMOS和多mgMOS的基因表达值散点图。点表示非插入基因,星点表示插入基因。由于两个样本中非突触基因的表达水平相同,虚线点应沿着对角线。对于非插入基因,用BGX、mgMOS和multi-mgMOS估计的两种条件下的基因表达水平之间的相关系数分别为0.9919、0.9926和0.9934,表明multi-mg MOS对这些基因最为一致。在这两种条件下,刺入基因以不同的浓度刺入,所以星点应该远离对角线。除了一个不合适的插入基因外,所有其他10个插入基因都位于对角线之外。表1显示了来自三个模型的11个刺突基因的估计等级的结果。所有模型都将11个尖峰基因中的10个排在前10位,并显示出相似的性能,尽管多mgMOS在识别尖峰基因5和8的排名方面似乎表现出稍差的性能。在这个小数据集上的结果相当不确定,很难区分这三种方法。我们在下面的较大数据集B和C上研究了这些模型的性能差异。

3.2.2浓度变化敏感性

图4显示了数据集B中12个尖峰基因的对数表达值曲线,这些基因来自六种方法,其对数浓度缩放为(1,14)。根据Affymetrix的指示,由于某些探针性能不佳,数据集B中的两个尖峰基因407_at和36889_at被排除在外。对于多mgMOS和mgMOS,负对数表达式水平被截断为-0.5,从其他方法获得的负值被截断为零。理想情况下,尖峰基因的曲线应具有一个斜率,因为浓度的差异应导致测量表达水平的相同差异。对于高表达的尖峰基因,所有六种方法都获得了相似的结果,但对于低表达的尖锋基因,多mgMOS、mgMOS和GCRMA的曲线斜率最接近于对这些方法的浓度变化表现出高度敏感性的曲线斜度。BGX在不考虑探针效应的情况下,对整个芯片的非特异性杂交信号进行平均估计。这在实践中似乎是不合理的,因为PM和MM共享非常相似的寡核苷酸序列。因此,BGX在非特异性结合作用最强的低表达区表现较差。mgMOS无法在芯片间共享探针特异性效应,导致某些基因的准确性降低。这可以从一些低浓度的尖峰基因中观察到,其中的表达测量值似乎高于真实浓度。GCRMA使用探针的GC含量来改善下端,但斜率仍略小于1。其他流行的统计方法也存在同样的问题,这些方法对那些弱表达的基因获得了相对较大的表达度量。

3.2.3真实数据集的性能

在数据集C中,我们获得了来自MAS 5.0、GCRMA、BGX、mgMOS和multi-mgMOS的八个PCR确认基因的图谱。例如,图5显示了测量第一个毛发生长周期中Dab2基因表达的三个探针的五个模型的结果。显示了一个随机选择的样本的数据。对于第一个问题,GCRMA没有正确识别第一行最左侧绘图中显示的抗毛发生长模式。MAS 5.0、BGX、mgMOS和多mgMOS为所有三个探针获得了更合理的循环模式。然而,由于第17天和第23天表达水平的可信区间较大,BGX对捕获第一个探针的周期模式不太自信。

表2显示了八个头发周期相关基因的估计图谱的均方根误差(RMSE)。RMSE到qr-PCR数据显示在表2并测量所有三只小鼠第一个毛发生长周期中三个时间点(第1天、第17天和第23天)的估计轮廓与相应qr-PCR结果之间的差异。这是使用八个基因的所有探针进行计算的。我们发现mgMOS和multi-mgMOS获得了RMSE的最佳值,当我们详细查看每个探针的剖面时,其原因就显而易见了。从mgMOS和多mgMOS获得的毛发生长模式与所有八个基因的qr-PCR结果一致。来自BGX的图谱与与与基因Elf5和Wnt11相关的两个探针组的相应qr-PCR数据显著不同。MAS 5.0中的两个与Fbln1基因相关的探针的qr-PCR图谱不一致。GCRMA中的基因Dab2和Fbln1中的一个和两个探针序列的图谱不一致。

有三个PCR确认的基因(Junb、Dab2和Fbln1)具有多个探针集,它们分别有2个、3个和4个探针集。我们使用三只小鼠的这九个探针的剖面来计算同一基因探针的RMSE(表2)这表明多mgMOS识别与同一基因相关的探针数量最一致。

我们发现,新方法在这个真实数据集上的性能最令人印象深刻,我们认为验证新方法对真实实验数据和峰值数据进行规范化和Probelevel分析非常重要。尖峰数据具有不切实际的特性,即几乎所有基因在不同的实验中都具有相同的表达水平。与其他方法相比,此属性可能更适合于某些方法。例如,分位数归一化(博尔斯塔德., 2003)用于RMA和GCRMA的工作假设是基因表达水平在不同实验中具有相似的分布。这种假设特别适合于分析实验间表达水平分布几乎相同的人工峰值数据集。目前尚不清楚这一假设在总体上是否成立。

3.2.4选型

我们已经看到,mg-MOS和multi-mgMOS在精确度方面具有非常相似的性能。然而,在推断的后向信号分布和相应的误差条方面,往往存在相当大的差异。因此,我们希望通过使用标准模型选择方法来确定哪个模型具有最大的统计支持。我们计算了Akaike的信息标准(AIC)(Akaike,1973年)贝叶斯信息准则(BIC)(施瓦茨,1978年)在所有三个数据集上,如所示表3根据AIC和BIC的结果,多mgMOS可以更好地解释这三个数据集。这可以解释为什么与mgMOS相比,多mgMOS通常获得更可靠的结果(如图5).

3.2.5计算效率

与BGX相比,多mgMOS的一个主要优点是,可以使用有效的优化包donlp2以封闭形式写入可能性(斯佩卢奇,1998)获得参数的速度比BGX快得多。对于本研究中使用的三个数据集,BGX和多mgMOS之间的计算时间差异如下所示表4作为一种多芯片模型,多mgMOS有望在相对较大的数据集上表现更好,其计算效率使其在实践中适用。

3.3表达措施的可信度

我们从数据集B中随机选择了37777_at基因中的一个尖峰,并绘制了浓度为0、8和512pM时估计表达水平的概率密度函数,分别如下图所示图2上面板是α的相关后分布。随着浓度的增加,最可能的表达水平增加,表达测量的方差减少,以获得对估计表达水平越来越大的信心。图6显示了数据集B中12个尖峰基因表达水平的2.5–97.5%可信区间。随着浓度的增加,表达估计值的可信度更高。

微阵列的一个关键用途是从不同的实验样品中识别差异表达的基因。用我们的模型很容易完成这项任务。对于具有技术复制的数据集A,其样本来自相同的片段化复杂cRNA,我们假设芯片之间的差异足够低,可以在复制中共享α。使用增量法(Oehlert,1992年)近似〈log的后验分布(政府军司令部)〉,我们获得了数据集A中每个基因表达水平之间的差异分布。图7显示了数据集a中两种条件下(a)所有基因和(b)51个基因的估计表达水平之间差异的中位数和5–95%的可信度。对于插入基因,除了没有正确插入的基因1004外,可信度区间不包括零,这意味着尖峰基因的差异表达概率很高。除五个基因外,所有非刺突基因的可信区间均为零。随着可信度区间的增加,在5–95%可信度区间下为假阳性的五个非插入基因的误差条逐渐变为零,而真阳性仍然显著。注意,在某些情况下,可信度区间非常大。这是因为信号的对数比率对于非常低表达的基因来说基本上是无法识别的。然而,这对该方法来说并不存在问题,因为我们仅在可信度区间不包括零时推断出显著的对数比率。

4结论

我们提出了一种新的概率模型,用于Affymetrix微阵列数据的Probelevel分析。该模型显示了在常用基准上与其他模型相比具有竞争力的性能,并在实时时间进程数据集上给出了非常令人印象深刻的结果。似然函数可以以封闭形式编写,因此计算速度非常快,这使其在大型数据集上具有潜在的应用前景。探针效应在同一类型的所有芯片上共享,这提高了精度和模型的支持。此外,作为一种概率模型,多mgMOS为推断出的真实信号提供了一种置信度度量,这在下游分析中非常有用,尤其是那些采用贝叶斯方法的分析。

我们提交了以下基准的结果:科普. (2004)2005年6月15日。这是评估问题级分析方法的常用基准。在提交时,我们在原始评估的15个标准中的4个标准中排名第一,在新评估的14个标准中,排名第三(见补充材料)。我们的模型显示出对浓度变化的良好敏感性,这与第3.2.2节的结果一致。该基准中的评估方法使用简单的折叠式规则来识别差异表达的基因,而不考虑使用可信度区间的方法,如第3.3节中提出的方法。这导致低估了我们模型ROC曲线下的面积。我们使用〈log的中位数后验估计()〉作为我们对对数浓度的点估计,该估计具有较低的偏差。然而,对于弱信号,该估计器自然与大方差相关,这导致对弱表达基因的fold-change进行一些大点估计。这些被认为是“误报”科普. (2004)但我们将通过考虑其相关的可信度间隔来拒绝大多数这些重大折叠式变化,因为它们是微不足道的,正如我们在第3.3节中所解释的那样。我们对信号的点估计必须与可信度区间相结合,以便对弱表达基因获得合理的结果。例如,我们可以通过使用〈log(+c(c))〉对于某些正常数c(c)作为我们的信号估计。这将减少方差,但代价是增加了偏差,降低了浓度测量的准确性。我们认为,仅基于折迭变化点估计的标准不适用于概率方法的评估。

许多流行的分析方法(例如聚类、降维和分类)可以修改为包括测量方差,因为在这些方法中,芯片通常被视为独立的数据点。其他形式的分析明确使用生物复制,例如t吨-测试和聚类方法. (2004)。重复次数通常很小,我们认为,通过同时包括概率Probelevel分析确定的重复内方差,可以改进方差估计。这是我们当前工作的重点。

图1

()数据集中Affymetrix拉丁方尖峰中基因37777_at的一对探针强度的对数(如第3.1节所述)与转录浓度的对数。实线和虚线分别表示PM和MM强度。(b条)φ的直方图和拟合对数正态分布,用于测量与MM探针特异性结合的分数,根据高表达的尖峰基因进行估算。

图2

Affymetrix拉丁方峰值数据集(如第3.1节所述)中峰值基因37777_at在浓度下的估计α(上面板)和对数表达水平(下面板)的后验概率密度函数() 0, (b条)8和(c(c))512 pM。细实线是根据α的后验分布直方图进行数值计算的,粗虚线是根据截断高斯近似值计算的。

表1

根据两种条件下表达水平之间的差异程度,用三种不同的概率方法获得了数据集A中11个尖峰基因的排名

尖峰基因215697841011
真实排名123/43/4567891011
BGX公司1264897862105
mgMOS型1264897756105
多mgMOS1274896737105
尖峰基因215697841011
真实排名123/43/4567891011
BGX公司1264897862105
mgMOS型1264897756105
多mgMOS1274896737105

所有这三个模型在前10名的11个尖峰基因中排名第10。

表1

根据两种条件下表达水平之间的差异程度,用三种不同的概率方法获得了数据集A中11个尖峰基因的排名

尖峰基因215697841011
真实排名123/43/4567891011
BGX公司1264897862105
mgMOS型1264897756105
多mgMOS1274896737105
尖峰基因215697841011
真实排名123/43/4567891011
BGX公司1264897862105
管理MOS1264897756105
多mgMOS1274896737105

所有这三个模型在前10名的11个尖峰基因中排名第10。

图3

数据集A中两种条件的基因表达度量的散点图()BGX、(b条)mgMOS和(c(c))多mgMOS。对于mgMOS和多mgMOS,使用三个重复中每个条件的平均估计基因表达水平。

图4

从不同方法获得的数据集B中12个尖峰基因的基因表达值对数与转录浓度对数的曲线:()多mgMOS(b条)BGX、(c(c))mgMOS(d日)MAS 5.0(e(电子))MBEI和((f))曲线的理想斜率是一。

图5

基因Dab2的时间剖面,其中列中包含三个探针(), (b条)和(c(c))使用以下五个模型从数据集C获得:MAS 5.0、GCRMA、BGX、gMOS和multi-mgMOS。qr-PCR剖面是每个图中的虚线。第一行显示MAS 5.0(虚线)和GCRMA(实线)的结果。第二、第三和第四行分别显示了BGX、mgMOS和multi-mgMOS的配置文件。还绘制了概率模型BGX、mgMOS和多mgMOS的每个时间点的5–95%可信区间。可信度区间被截断为2.0和−4.0,以使绘图清晰。

表2

数据集C中毛发生长相关基因的多mgMOS、mgMOS,MAS 5.0和GCRMA剖面的RMSE

RMSE公司多mgMOSmgMOS型BGX公司MAS 5.0版GCRMA公司
至qr-PCR0.6010.6010.7210.6560.694
同一基因0.2330.2450.2740.3600.370
RMSE公司多mgMOSmgMOS型BGX公司MAS 5.0版GCRMA公司
至qr-PCR0.6010.6010.7210.6560.694
同一基因0.2330.2450.2740.3600.370

第一行是来自qr-PCR数据的RMSE到剖面图,第二行是测量同一基因的探针之间的RMSE。

表2

数据集C中毛发生长相关基因的多mgMOS、mgMOS,MAS 5.0和GCRMA剖面的RMSE

RMSE公司多mgMOSmgMOS型BGX公司MAS 5.0版GCRMA公司
至qr-PCR0.6010.6010.7210.6560.694
同一基因0.2330.2450.2740.3600.370
RMSE公司多mgMOSmgMOS型BGX公司MAS 5.0版GCRMA公司
至qr-PCR0.6010.6010.7210.6560.694
同一基因0.2330.2450.2740.3600.370

第一行是来自qr-PCR数据的RMSE到剖面图,第二行是测量同一基因的探针之间的RMSE。

表3

在本文使用的三个数据集上,mgMOS和多mgMOS的AIC和BIC模型选择标准的结果

数据mgMOS AIC公司mgMOS BIC公司多mgMOS AIC多mgMOS BIC
A类2.21 × 1062.44 × 1062.11 × 1062.25 × 106
B6.48 × 1077.39 × 1075.57 × 1076.15 × 107
C类1.22×1081.39 × 1081.11 × 1081.19 × 108
数据mgMOS AIC公司mgMOS BIC公司多mgMOS AIC多mgMOS BIC
A类2.21 × 1062.44 × 1062.11 × 1062.25 × 106
B6.48 × 1077.39×1075.57 × 1076.15 × 107
C类1.22 × 1081.39 × 1081.11 × 1081.19 × 108
表3

在本文使用的三个数据集上,mgMOS和多mgMOS的AIC和BIC模型选择标准的结果

数据mgMOS AIC公司mgMOS BIC公司多mgMOS AIC多mgMOS BIC
A类2.21 × 1062.44 × 1062.11 × 1062.25 × 106
B6.48 × 1077.39 × 1075.57 × 1076.15 × 107
C类1.22 × 1081.39 × 1081.11 × 1081.19 × 108
数据mgMOS AIC公司管理MOS BIC多mgMOS AIC多mgMOS BIC
A类2.21 × 1062.44 × 1062.11 × 1062.25×106
B6.48 × 1077.39 × 1075.57 × 1076.15 × 107
C类1.22 × 1081.39 × 1081.11×1081.19 × 108

表4

BGX和多mgMOS在不同数据集上的计算时间。计算时间是在1.8 GHz AMD Opteron机器上获得的

模型掠夺。语言数据集A(最小值)数据集B数据集C(h)
BGX公司C类++7032.5小时70.5小时
多mgMOS研发50分钟4.5小时
模型掠夺。语言数据集A(最小值)数据集B数据集C(h)
BGX公司C类++7032.5小时70.5小时
多mgMOS研发50分钟4.5小时

根据以下建议,BGX在8192次扫描老化后使用了32 768次扫描海因. (2005).

表4

BGX和multi-mgMOS在不同数据集上的计算时间。计算时间是在1.8 GHz AMD Opteron机器上获得的

模型掠夺。语言数据集A(最小值)数据集B数据集C(h)
BGX公司C类++7032.5小时70.5小时
多mgMOS研发50分钟4.5小时
模型掠夺。语言数据集A(最小值)数据集B数据集C(h)
BGX公司C类++7032.5小时70.5小时
多mgMOS研发50分钟4.5小时

根据以下建议,BGX在8192次扫描老化后使用了32 768次扫描海因. (2005).

图6

数据集B中12个尖峰基因表达水平的2.5–97.5%可信区间。表达水平和可信区间被截断为-0.5,以帮助澄清。

图7

在两种条件下,数据集A表达水平之间的对数比率的中位数和5–95%可信区间()所有基因和(b条)基因从961到1011。中值由星点表示,可信度区间由水平实线表示。

作者感谢Padhraic Smyth和Bogi Andersen提供了小鼠时间进程qr-PCR数据。X.L.特别感谢Gwenn Englebienne对C编码的帮助。M.R.和N.D.L.感谢BBSRC授予的“用概率模型改进微阵列数据处理”奖项。M.M.由Wellcome Trust的高级培训奖学金资助。

利益冲突:没有声明。

参考文献

Affymetrix公司。

微阵列套件用户指南5.0版
2001
,加州圣克拉拉Affymetrix公司

Akaike,H。

1973
信息论和最大似然原理的推广。第二届信息理论国际研讨会布达佩斯Akademia Kiado,pp.,pp。
267
–281

Bolstad,B.M.等人。

2003
基于方差和偏差的高密度寡核苷酸阵列数据归一化方法的比较。
生物信息学
19
185
–193

Cope,L.M.等人。

2004
Affymetrix基因芯片表达测量的基准。
生物信息学
20
323
–331

Hein,A.K.等人。

2005
BGX:一种用于分析Affymetrix基因芯片数据的完全贝叶斯集成方法。
生物统计学
6
349
–373

Irizarry,R.A.等人。

2003
高密度寡核苷酸阵列探针水平数据的探索、规范化和总结。
生物统计学
4
249
–264

Li,C.和Wong,W。

2001
寡核苷酸阵列的基于模型的分析:表达指数计算和离群值检测。
程序。美国国家科学院。科学。美国
98
31
–36

Lin,K.K.等人。

2004
使用复制方差从时间进程基因表达谱数据中识别头发周期相关基因。
程序。美国国家科学院。科学。美国
101
15955
–15960

洛克哈特,D.J.等人。

1996
通过与高密度寡核苷酸阵列杂交来监测表达。
自然生物技术。
14
1675
–1680

Milo,M.等人。

2003
从寡核苷酸阵列中提取表达水平的概率模型。
生物化学。社会事务处理。
31
1510
–1512

Milo,M.、Niranjan,M.,Holley,M.C.、Rattray,M.和Lawrence,N.D。

2004
总结寡核苷酸基因表达数据的概率方法。提交出版,技术报告可根据要求提供

Naef,F.和Magnasco,M.O。

2003
解决亮错配之谜:寡核苷酸阵列中的标记和有效结合。
物理学。版本E
68
011906

欧赫勒特,G.W。

1992
关于delta方法的注释。
阿默尔。斯达。
46
27
–29

Schena,M.等人。

1995
用互补DNA微阵列定量监测基因表达模式。
科学类
270
467
–470

G·施瓦茨。

1978
估算模型的维度。
Ann.统计。
6
461
–464

斯佩卢奇,P。

1998
一般非线性规划的SQP方法只使用等式约束子问题。
数学。掠夺。
82
413
–448

Wu,Z.等。

2004
寡核苷酸表达阵列的基于模型的背景调整。
美国统计协会。
99
909
–917

Zhang,L.等人。

2003
短寡核苷酸微阵列上的分子相互作用模型。
自然生物技术。
21
818
–821