跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
BMC生物信息学。2005; 6: 165.
2005年6月29日在线发布。 数字对象标识:10.1186/1471-2105-6-165
预防性维修识别码:项目经理1189357
PMID:15987513

识别多个SAGE库中的差异表达:一种过度分散的对数线性模型方法

关联数据

补充资料

摘要

背景

在涉及基因表达文库多序列分析的差异基因表达测试中,解释文库之间和文库内的变异至关重要。已经提出了几种方法,包括t吨测试,t吨w个测试和过度分散的logistic回归方法。然而,这些测试的优点尚未得到充分评估。是否可以进一步改进仍然存在疑问。

结果

本文介绍了一种分析SAGE的超离散对数线性模型方法;我们将其性能与其他三个测试进行评估和比较:两个样本t吨测试,t吨w个检验和另一个基于过分散逻辑线性回归的检验。对模拟数据集和实际数据集的分析表明,对数线性和logistic过分散方法的性能通常优于t吨t吨w个测试;进一步发现,对数线性方法比logistic方法具有更好的性能,在一系列参数值和不同的数据分布上表现出相等或更高的统计能力。

结论

过度分散的对数线性模型为分析涉及多个库的SAGE实验提供了一个有吸引力且可靠的框架。为了方便起见,可以通过用户友好的web界面实现此方法,网址为网址:http://www.cbcb.duke.edu/sage.

背景

基因表达序列分析(SAGE)用于测量大量基因的信使RNA相对丰度[1,2]. 简单地说,mRNA是从生物样品中提取出来的,并反向转录到cDNA。然后,双链cDNA被4切割限制酶(锚定酶,通常为NlaIII)消化。消化后,使用另一种限制酶(标记酶)在大多数锚定酶限制位点的3'处释放下游DNA序列。释放的序列通常长10–11个碱基对(bp),称为SAGE标签。来自许多不同种类的mRNA的标签可以连接、克隆和测序。在一个典型的SAGE实验中,从每个样本中收集了大量标签(通常从30000到100000),理想情况下,每个标签代表一个基因;标签计数表示该特定标签所代表的基因的转录水平。一个自然感兴趣的问题是给定标签是否有差异表达。在过去几年中,SAGE被广泛用于癌症样本的表达分析,以确定诊断或治疗目标[,4].

大多数SAGE研究侧重于比较两个样本之间的表达水平。对于这两个库的比较,提出了几种统计方法,例如Zhang的模拟方法等。[2]贝叶斯方法[5-7]和基于法线近似的z-测试[8](相当于chi-square测试[9]). Ruijter的比较评论等。[10]已经表明,所有这些方法都表现得同样好。

两个SAGE文库之间的比较可以识别生物学上有趣的标签(或基因)。然而,在许多情况下,为了解释正常的背景生物变异,必须用复制品进行实验。对于涉及多个SAGE库的实验,引入了二项抽样变异以外的库间变异。这种库间变异可能是由于实验设计中涉及的其他已知因素,以及观测之间未知的遗传或环境变异。事实上,从不同个体的相同组织制备的SAGE文库之间存在基因表达的主要差异[11]. 需要使用统计方法来分析涉及多个库的SAGE实验。在两组比较的情况下(例如,正常组和癌症组之间的比较),使用诸如汇集每组库并转换为两个库比较的方法(例如,使用χ2检验)或两个样本t吨-提出并讨论了比例测试[12-14]. 汇集方法常常存在问题,因为它忽略了同一治疗组中库之间的基因表达差异,从而导致对差异的有偏估计。两个样本t吨-然而,对比例的测试也可能存在问题;已知从较小尺寸的库中估计的比例比从较大的库中估计的比例变化更大。

对于两组比较,Baggerly等。引入了检验统计量,t吨w个基于一个分层的贝塔-二项式模型来解释库内和库内变量[13]. 这个t吨w个假设测试统计具有近似值t吨-分布等t吨-测试t吨w个-该测试仅适用于两组比较。对于具有更一般设计(例如涉及2个或更多因素)的SAGE实验,描述了基于过度分散逻辑回归的方法[15]. 过度分散模型旨在考虑标签计数过度分散的可能性,即标签计数的方差超过二项式或泊松抽样的预期值。除了在建模多因素和/或连续协变量方面的灵活性外,logistic回归还以logit量表(赔率对数)而非原始量表(如t吨t吨w个测试。在logistic回归(和任何广义线性模型)中比较各组相当于测试系数是否β= 0. 巴格利等。[15]有证据表明,“logit量表可能比原始比例量表更合适”。然而,过度分散的逻辑回归的一个缺点是,当任何一组中的所有标记数都很小时,它可能会崩溃。在这种情况下,偏差测试而不是t吨-检验(假设系数β为零)[15]. 除了需要对偏差测试进行系统评估外,偏差测试的一个潜在缺点是,如果模型包含多个因素或协变量,则可能需要多轮模型拟合。此外,关于偏差测试何时应优先于t吨-测试。

在本报告中,我们引入了一种过度分散的对数线性模型方法来分析SAGE,该方法与过度分散的logistic回归密切相关,但具有不同的均值-方差关系假设。我们将其识别差异表达的性能与其他三种方法进行了比较,包括t吨-测试,t吨w个检验和过分散logistic回归。对模拟数据集和实际数据集的分析表明,对数线性和logistic过分散方法的性能通常优于t吨t吨w个测试。基于模拟数据,发现对数线性方法比逻辑方法具有更好的性能,在一系列参数值和不同的数据分布上显示出相等或更高的统计能力。在我们分析的真实SAGE数据上,过分散对数线性方法似乎也有更好的性能;在许多情况下,标签是通过对数线性方法识别的,似乎有明显的差异表达,但使用logistic回归方法无法确定其显著性。过度分散的对数线性模型也提供了与逻辑回归相同的灵活性,允许对多因素和/或协变量进行建模。我们的结论是,过度分散的对数线性模型为分析涉及多个库的SAGE实验提供了一个有吸引力且可靠的框架。

结果

过分散对数线性模型:一个案例研究

过度分散的对数线性模型(详见方法)与过度分散的逻辑模型非常相似,但有两个主要区别。首先,过度分散的对数线性模型使用比例对数(对数链接)和样本大小对数作为偏移。相反,过度离散的逻辑模型使用概率对数(logit链接)。其次,过度分散对数线性模型的假设导致迭代加权最小二乘法(IRLS)使用的导出权重取决于标签计数的平均值(即权重取决于库大小和标签比例)。相比之下,过度分散逻辑回归中的权重仅是库大小的函数(见方法)。

巴格利等。[15]说明了在一组中的所有比例都为0的情况下,过度分散的逻辑模型可能会崩溃。在这里,我们表明,当一组中的比例很小时,也可能发生这种分解。表11列出了第页-从偏差和t吨测试。请注意,我们正在测试以下假设:β= 0. 人为增加第1组中的标签数,使其接近第2组中的水平(保持不变)、逻辑回归中的偏差测试以及这两个测试(偏差和t吨)在对数线性模型中显示出预期的增加趋势第页-值(表(表1,1,第5、6和7列)。相比之下第页-值来自t吨-logistic回归中的测试实际上先下降后上升(表(表1,1,第4列)。来自t吨logistic模型中的偏差检验(在对数线性情况下没有发现差异)表明,当一组所有样本的标签数很小时,logistic回归可能会有问题。

表1

的比较t吨-过度分散logistic回归和对数线性模型中的偏差检验以及基于贝叶斯模型的检验

第1组逻辑回归对数线性模型贝斯模型
库1库2t吨-测试c(c)偏差试验t吨-测试c(c)偏差试验E类




1b条000.6450.1150.0030.0010.01
2220.4850.1220.0020.0020.02
550.3830.1330.0030.0050.04
410100.3240.1490.0070.010.05
520200.2910.1830.020.0250.07
650500.3240.290.1040.1170.11
71001000.4940.5080.3760.4040.12

第1组中的标签计数被人为增加到第2组中观察到的水平(保持不变)。第2组中的标签数为312、549、246、65、41和52。第2组中的库大小和标签计数取自Baggerly等。[15].

b条经验标签计数0.506和0.494用于替换第1组中的零计数[15]。

c(c)这个t吨-这里的测试是测试假设β= 0.

E类列出了贝叶斯错误率。[26].

模拟研究

为了系统地评估两组比较中各种测试的性能,我们进行了模拟研究。这里比较的测试是t吨,t吨w个,逻辑t-t型和日志-t吨。对于t吨t吨w个,测试是第页A类=第页B类,其中第页A类第页B类分别为A组和B组的平均比例。逻辑t-t型和日志-t吨t吨关于是否β在过分散logistic回归和对数线性模型中分别为0。我们不会试图更换t吨-在过度分散的logistic回归模型中使用偏差测试进行测试,因为这需要对何时优先使用一种测试做出可能是主观的决定。

我们在三种不同分布下生成标签计数,选择不同的标签比例和过度分散的数量(表(表2)。2)。由β-二项分布和负二项分布生成的数据分别满足过分散逻辑回归和对数线性模型方法的假设(即具有均值-方差关系结构)。负二项分布等效于gamma-Poisson层次模型,被认为是泊松分布的稳健替代方案[16,17]. 应该注意的是t吨w个-在假设数据是由β二项分布生成的情况下,也导出了测试[13]. 过度分散参数值的范围是根据实际数据集的模型拟合来选择的(见下文);我们使用了估计过度分散的25%、50%和75%的值保存图片、插图等的外部文件。对象名为1471-2105-6-165-i1.gif从这些配合中。注意,过度分散参数φ在logistic模型中与φ在对数线性模型中;φ不应比较两个模型的值。给定过分散值φ和一组平均比例第页,的αβ贝塔二项分布的值导出为α=第页(1/φ-1),和β= (1 -第页)(1/φ- 1). 负二项分布中的尺寸参数很容易导出为1/φ。我们为每组使用了5个样本(库),并通过从30000到90000之间的均匀分布中随机抽样来确定10个库中每个库的大小。这产生了66148、67094、53338、80124、64984、70452、74052、60086、52966和45377个库;这些数值在模拟过程中没有发生变化。使用不同的库大小集进行单独运行的结果(未显示)与此处显示的结果一致。每个参数值组合总共生成5000组标记计数。然后通过受试者工作特性(ROC)曲线评估和比较每个测试的灵敏度和特异性[18].

表2

仿真中使用的参数值列表

分发二项式(即没有过度分散);β-二项式;阴性肿瘤
过分散参数(φ)β二项式为8e-06、2e-05、4.3e-05;负二项式为0.17、0.42、0.95
A组和B组的样本数量每组5人
A组平均比例(第页A类)50000中的1、5、10、20、50和100
平均比例比(第页B类/第页A类)1、2和4

注:库的大小为66148、67094、53338、80124、64984、70452、74052、60086、52966和45377,每一个都是通过从30000到90000的区间内的均匀分布中提取来确定的。

图中所示的ROC曲线(四个测试中每个测试一个)图11使用从β二项分布(具有过度分散值)生成的数据获得φ如图顶部所示)。给出相同的假阳性率(x个-轴),过度分散模型(logistic和log-linear)清楚地显示了统计能力的提高(-轴)与两个样本进行比较t吨t吨w个测试。相反,当对负二项分布生成的数据进行四项测试时,过度分散的对数线性模型明显优于其他三项测试(图(图2)。2)。同样,两个样本t吨t吨w个测试通常表现不佳。使用其他参数值生成的图形可用[参见其他文件12]. 这些结果表明,对于SAGE数据,基于原始比例的统计方法(如t吨t吨w个测试)显示出比logistic或log-linear模型方法更低的功效。过度分散的对数线性模型不仅在数据生成方式与其假设一致的情况下(即从负二项式分布)显示出最佳性能,而且在数据来自不同分布时(此处为β二项式)也具有竞争性能。这表明过度分散的对数线性模型方法更为稳健。

保存图片、插图等的外部文件。对象名为1471-2105-6-165-1.jpg

基于贝塔二项分布模拟数据的比较该图显示了四个测试的接收机工作特性曲线(ROC),这些测试应用于由具有不同过分散程度的贝塔二项分布生成的数据集(φ)(显示在每个图的顶部)。对于特定的φ,模拟10000个观测值(标签);5000是在假设第页A类=第页B类剩下的来自第页B类= 2第页A类,其中第页A类第页B类是两组的平均比例,以及第页A类=0.0002(即50000中的10)。有关在其他条件下生成的图形,请参见附加文件1.

保存图片、插图等的外部文件。对象名为1471-2105-6-165-2.jpg

基于负二项分布模拟数据的比较四项测试的ROC曲线基于负二项分布产生的数据集,该分布具有不同的过度分散程度(φ)。数据通过图1中使用的相同策略进行模拟,除了第页B类= 4第页A类注意,此处的过分散参数与图1中的参数(参数φ因为负二项式与β二项式没有直接关系)。有关在其他条件下生成的图形,请参见附加文件2.

胰腺癌数据集

我们进一步比较了四种测试(t吨-测试,t吨w个-测试,logit-t吨、和日志-t吨)使用从公开的SAGE Genie网站获得的实验SAGE数据集[19]. 为了确定胰腺癌细胞和正常导管上皮之间差异表达的基因,Ryu等。[12]比较了五种胰腺癌细胞株和两种正常胰腺导管上皮细胞的基因表达水平。SAGE库的库大小和唯一标签数量如表所示表3。注意,由于SAGE标签处理程序不同,表中的数字与原始文件中描述的数字略有不同[20]. 在这个分析中,我们忽略了总计数小于3的标签。

表3

5种癌症和2种正常胰腺SAGE文库的文库信息

癌细胞系正常单元格


图书馆ASPC公司PL45型电容器1CAPAN2号机组全景-1换热器H126型
库大小31,22429,55737674人23,04224749个31,98532,223
独特的标签10,62211,12114,81510,15710,29312,39212,360

我们首先通过检查每个测试确定的排名靠前的基因(前50和100)之间的重叠来比较这四个测试(表(表4)。4)。对于t吨t吨w个测试中,基因是根据t吨(或t吨w个)统计数据而不是第页-值(有关详细信息,请参阅“讨论”部分)。如表所示表4,4,logit的结果-t吨和日志-t吨测试表明,一致性最高(约80%);双方达成适度协议t吨w个和logit-t吨或日志-t吨测试(约60%),且在t吨以及其他三项测试(约40%)。t吨-测试通常是组内方差极小的测试(数据未显示)。总的来说,来自t吨-测试与其他测试的结果差别最大,而logit之间的结果最相似-t吨和日志-t吨测试。这与模拟中看到的趋势大体一致。

表4

四项测试的成对比较

t吨-测试t吨w个-测试罗吉特-t吨

t吨w个-测试39(12)-
逻辑学家-t吨42(17)66(29)-
日志-t吨36(16)63(25)82(43)

两项测试确定的前100和前50(括号内)基因列表中共享的基因数量;我们注意到,对于t吨t吨w个测试中,基因按绝对值排序t吨t吨w个统计数据而非p值。

前100个基因中(按第页-值)从logit中获得-t吨和日志-t吨测试中,共有82个基因,每个测试中有18个基因不在其他测试确定的前100个基因中。进一步检查逻辑之间的差异-t吨和日志-t吨测试,我们绘制第页-从这36个剩余标签的两次测试中获得的值(图(图3)。)。可以看出,虽然logit标识的标签-t吨测试也相对较小第页-日志值-t吨测试(均小于0.05),由日志确定-t吨测试表明第页-符合logit的值-t吨测试。表55列出了日志排名前100位的标签-t吨测试,但其中有第页-logit值大于0.05-t吨测试;其中4个也由Ryu确认等。[12]. 我们的分析表明-t吨该测试相对稳健,因为它不仅给出了相当小的第页-logit确定为显著的基因值-t吨测试,但也能识别logit从未认为重要的基因-t吨测试。

保存图片、插图等的外部文件。对象名为1471-2105-6-165-3.jpg

比较第页-logit中的值-t吨测试和日志中的测试-t吨测试前100个标签中(根据第页-值)-t吨通过日志进行测试-t吨测试、82对于从每个测试中留下不在由另一个识别的前100个内的18个标签是共同的。这个第页-此处绘制了其余36个标签的两个测试值。圆圈代表logit排名前100位的18位-t吨测试和日志中的三角形-t吨测试。而logit标识的所有标签-t吨根据日志,测试的p值也相当低-t吨测试,日志标识的标签-t吨测试表明第页-符合logit的值-t吨测试。

表5

一组被鉴定为显著差异表达的基因(第页<0.05,也在前100个基因列表中)-t吨测试但不通过logit-t吨测试(第页> 0.05)

正常癌症


标签(日志-t吨)(罗吉特-t吨)换热器H126型ASPC公司PL45型电容器1CAPAN2号机组全景-1
AGCAGATCAG公司*0.0030.088169272152138135384
TTGGTGAAGG公司0.0030.0696090267194187238
CCCATCGTCC公司0.0030.309133420471333364456408
CCTCCAGCTA公司0.0060.465164521766292265364
ACTTTTCAA公司0.0080.096254341337922620065
中国民航总局*0.010.463994391235154143133
TGCCCTCAGG公司0.0110.219166801962763394
GCTGTTGCGC公司*0.0110.151353082126133
GACATCAAGT公司*0.0130.554001835488512620
TTCACTGTGA公司0.0140.1490128105779116
TTGGGGTTTC0.0150.1426937701507173195230
TGCCCTCAAA公司0.0160.2466321121351780
GGGAAAATCG公司0.0170.06610071339423119291226

注:为了进行比较,标签计数已转换为每100000个标签的数量。这种缩放不用于任何统计测试。带有(*)的标签也是由Ryu识别的标签等。[12].

等。[12]用两个样本鉴定出49个癌基因上调和37个癌基因下调t吨-测试和一组基于规则的方法。我们将他们的结果与日志中的结果进行了比较-t吨测试(选择相同数量的顶级基因)。在86个基因中,只有18个是共同的(下调和上调基因组各有9个)。在我们的列表中,癌症中上调的最重要的基因是标记“CTTCCAGCTA”,它代表膜联蛋白A2基因。据报道,该基因在人类胰腺癌细胞和原发性胰腺癌中上调[21]. 另一个例子是标签“TTGGTGAAGG”,它对应于胸腺肽β4编码基因。该基因也已被证明“在肿瘤细胞系和正常胰腺原代培养物中均高水平表达,但在正常组织中不表达”[22]. 根据日志列出癌症中前20个上调基因和前20个下调基因-t吨表中列出了测试表66.

表6

胰腺癌和正常导管上皮之间差异表达的前40个基因列表

标签描述换热器H126型ASPC公司PL45型电容器1CAPAN2号机组全景-1
胰腺癌中上调
CTTCCAGCTA公司膜联蛋白A20.00111925128217143148170
AAAAAAAAAA-0.00186128210180165133
AGCAGATCAG公司S100钙结合蛋白A10(膜联蛋白II配体,钙粘蛋白I,轻多肽(p11))0.0027169272152138135384
TTGGTGAAGG公司胸腺肽,β4,X连锁0.0036090267194187238
CCCATCGTCC公司运动软骨基因0.0032133420471333364456408
CCTCCAGCTA公司角蛋白80.0059164521766292265364
GGAAAAAAA公司ATP合酶,H+转运,线粒体F1复合体,ε亚基0.006366461747457
CCCCAGTTGC公司钙蛋白酶,小亚单位10.0066222264887761113
AACTAAAAAA核糖体蛋白S27a0.007819164585806161
TTCAATAA公司RPLP1,核糖体蛋白,大,P10.007992514717913510440
GCAAAAAAAA公司21号染色体开放阅读框970.007965868406565
ACTTTTCAA公司运动软骨基因0.0081254341337922620065
中国民航总局KRT18,角蛋白180.0095994391235154143133
GTGTGGGGG连接斑球蛋白0.009662964505661
TGCCCTCAGG公司LCN2、Lipocalin 2(癌基因24p3)0.0106166801962763394
GCTGTTGCGC公司-0.0108353082126133
AAGAAGATAG公司核糖体蛋白L23a0.011616977108856524
美国汽车协会SMAD,母亲对抗DPP同源物3(果蝇)0.0118607447405644
ACCTGTATCC公司IFITM3,干扰素诱导的跨膜蛋白3(1-8U)0.0123132681648253
CAACTTAGTT公司肌球蛋白调节轻链MRLC20.0128665161534816
胰腺癌中的下调
加卡加卡加核糖体蛋白S280.000142838810912290117154
GGACCACTGA公司核糖体蛋白L30.000231027010210510110461
关贸总协定S100钙结合蛋白A20.000218817410840
AGCAGGAGCA公司S100钙结合蛋白A160.00051441522641452616
AGCTGTCCC公司盖蛋白(肌动蛋白丝)肌肉Z线,β0.00052192541340
GACTGCGCGT公司肿瘤坏死因子受体超家族,成员12A0.0007103931010242216
GTGGTGTG先天性红细胞生成障碍性贫血,I型0.0011598710108138
TAGGCATTCA公司-0.001211911500000
TGAGTGGTCA公司微管相关蛋白1轻链3β0.00176653075138
GGCGCTGCA公司切除修复交叉互补啮齿类修复缺陷,第1组0.001766536740
AAGTTTGCCT公司谷胱甘肽(硫转移酶)0.00226662004
AGCTCTCCT公司核糖体蛋白L170.00233353577714582143125
CCGAAGTCGA公司转录调节因子10.0024535607500
GCTGCTGCGC公司-0.002422832000004
TTGGGAGCAG蛋白异亮氨酸-tRNA合成酶0.0031724310101948
TAAGGAGCTG公司核糖体蛋白S260.0031344329138859643101
AACAGAAGCA公司假设蛋白FLJ256920.00317559132424916
中交CACCTA过氧化物酶原20.00315643161094
TGTGAGTCAC公司-0.0038316200000
TCAGGGATCT公司-0.0038415300000

注:为了进行比较,标签计数已转换为每100000个标签。这个第页列出的值来自日志-t吨测试。

讨论

在本报告中,我们引入了一个对数线性模型,用于测试SAGE中的差异基因表达。该模型与Baggerly提出的过度分散物流模型密切相关等。[15]但具有不同的均值-方差关系假设。两个模型之间的差异可以从与每个观测值相关的权重(IRLS使用)中清楚地看出:假设库大小相当接近,过度分散的对数线性模型倾向于为平均比例较小的组中的观测值分配更高的权重;相反,在过度分散的logistic模型中,对所有观测值分配了近似相等的权重。尽管对于真实的SAGE数据,真实的均值-方差关系未知,但已经观察到“对于计数较高的数据,库间变异是变异的主要部分”[13]; 这表明计数较高的组的过度分散程度可能大于计数较低的组,因此过度分散对数线性模型的假设可能更适合SAGE数据。

我们还比较了过度分散logistic模型和对数线性模型的模型拟合。由于引入了过度分散参数,偏差统计不再是模型拟合比较的有效依据。另一种方法是使用具有渐近标准正态分布的标准化皮尔逊残差[23]. 威廉姆斯[24]提出了根据预测比例绘制标准化皮尔逊残差的方法;当估计比例接近零时,标准化残差的方差显著减少,表明模型拟合存在问题。图44显示了两个标签的逻辑和对数线性模型拟合的残差图(标签计数列于表表5)。5)。在过度倒置逻辑回归的情况下(图的左面板图4),4)标准化皮尔逊残差的方差在正常组明显小于癌症组。这种差异在过度分散的对数线性模型拟合中并不明显(图的右面板图4)。4)。尽管本例中的样本量非常小(正常组只有2个),但残差图进一步表明,对数线性模型比逻辑模型更适合SAGE数据。

保存图片、插图等的外部文件。对象名称为1471-2105-6-165-4.jpg

标准化残差与估计比例的关系图。绘制了两组的标准化皮尔逊残差(y轴)与比例估计值(x轴)。标准化的皮尔逊残差是作为标准正态渐近分布的。这里显示了两个标签的模型拟合(在表5中的基因列表中);左边来自使用过分散逻辑模型的拟合,右边来自过分散对数线性模型。平均比例较低的组(正常)的残差方差较低,表明模型拟合较差。

从模拟研究中我们发现,除了局限于两组比较之外t吨-和t吨w个-一般来说,测试不如允许过度分散可能性的测试强大。我们提到一个特定的问题t吨-和t吨w个-测试数据集中的样本数是否较小。请注意,来自t吨-测试和t吨w个表中的测试表44基于测试统计数据,而不是第页-值。排名顺序基于第页-如果测试之间的剩余自由度不同,则值可能与基于测试统计的值不同。两者都是t吨-测试和t吨w个-使用Satterthwaite近似进行测试[25]对于自由度的数量,因为假设两组中的方差不同。标签“AGCTGTCCC”给出了一个例子,它在两个正常样本中的标签计数为70、82,在五个癌细胞系样本中的标记计数为4、1、1、0。基于logit的差异表达式非常重要-t吨(第页-值0.0003)和对数-t吨(第页-值0.0005)测试。相反,如果t吨w个-使用Satterthwaite近似自由度进行测试,该标签在5%水平上几乎不显著(第页-值0.050)。原因是,虽然t吨w个这个标签的统计数据实际上非常高(|t吨w个|=12.01),计算的自由度仅约为1(这导致显著性较低)。这里出现的自由度值很小,因为癌症组的估计方差很小;近似的自由度大约等于正常组的样本量减去1(这里,2-1=1)。这种情况在这个数据集中经常发生,因为一个组中的库(样本)数量非常少。SAGE数据的样本数很少。

本研究中比较的四种方法遵循假设检验的频率主义方法,可以广泛地视为线性模型的示例。对于两组比较,Vencio等。[26]介绍了一种通过贝叶斯错误率对标签进行排序的贝叶斯方法。我们通过观察胰腺数据集确定的基因排名差异,将他们的方法与基于线性模型的方法进行了比较。考虑到通过不同的测试确定的前100个基因,两个过度分散的模型显示出与贝叶斯方法的最佳一致性(~70%的共同点);这三项测试共鉴定出63个基因(前100个)。我们还使用表中的人工数据评估了贝叶斯方法表1;1; 随着第1组中标签数量的增加,差异表达的证据减少(即贝叶斯错误率增加),这符合预期的趋势。此外,如果我们认为p<0.05或E<0.1的标签有显著差异表达[26],贝叶斯方法的结果与对数线性模型的结果比逻辑模型的结果更一致(见表表1)。1)。由于所使用的证据度量在概念上非常不同,因此要直接比较基于“P值”的方法和贝叶斯方法并不容易。然而,我们的结果表明,在两组比较的情况下,Vencio的贝叶斯方法是分析SAGE数据的一种竞争性贝叶斯替代方法。

目前的研究没有考虑到目前仍在积极研究的多重测试问题[27,28]. 我们注意到,进一步改进的一个可能领域是使用具有类似离散度的基因(标签)之间的信息,以获得潜在的更稳健和准确的过度离散(因此,误差)估计。在这里比较的所有方法中,每件事都是一次一个标签完成的,也就是说,对每个标签的过度分散量的估计都是单独完成的,并且这些估计可能会有很大差异(参见图图5)。5)。对于具有连续值的表达式数据,提出了信息共享策略[29-31]这些策略可以适用于离散数据,例如SAGE中的离散数据。

保存图片、插图等的外部文件。对象名为1471-2105-6-165-5.jpg

过度分散估计的分布(保存图片、插图等的外部文件。对象名为1471-2105-6-165-i1.gif)。估计值来自于与胰腺数据相匹配的过度分散的对数线性模型。图中未显示过度分散估计值为0的标签。

方法

数据

假设总共有n个实验中的SAGE库。是库的大小(标签总数)(= 1..n个)和第页是该库中特定标记的标记计数。

此外,让x个是解释变量的相关向量β系数向量。两组SAGE库的比较是一种特殊情况,其中每个观察值只有一个解释变量(即一个因子和两个水平)。

两个样本t吨-测试

这个t吨-韦尔奇提出的测试[25]用于测试一组比例的平均值是否等于另一组的平均值。假设两组比例的方差不相等,根据Satterthwaite近似值计算自由度,如t吨w个-测试(见下文)。

这个t吨w个-测试

巴格利等。[13]在一个简单的设计中引入了一个β-二项式抽样模型,以说明两组SAGE库之间的比较中的异常变化。这是一个包含一个解释变量的线性模型的特殊情况。简短、未观察到的随机变量是为了解释库与库之间的变化而引入的。对于给定的组,假设具有β分布(α,β)带均值和方差E类() =α/(α+β),和Var() =αβ/ [(α+β)2(α+β+1)]. 请注意,这是表单的特例变量(P) =φ第页(1 -第页)如过度分散的logistic模型,其中φ= 1/(α+β+1). 接下来,小组比例保存图片、插图等的外部文件。对象名为1471-2105-6-165-i2.gif通过组内各个比例的加权线性组合进行估计保存图片、插图等的外部文件。对象名为1471-2105-6-165-i3.gif,其中保存图片、插图等的外部文件。对象名为1471-2105-6-165-i4.gif=第页/w个是与每个单独比例相关的权重。无偏方差估计保存图片、插图等的外部文件。对象名为1471-2105-6-165-i2.gif表示为

保存图片、插图等的外部文件。对象名为1471-2105-6-165-i5.gif

为了避免估计方差小于二项抽样方差,还提供了方差的下限。所有参数(即。α,βw个)通过迭代过程获得。同样的估算程序也适用于另一组的数据。为了测试一组(如A组)中的比例是否等于另一组(B组)的比例,A吨-相似统计t吨w个构造,其中

保存图片、插图等的外部文件。对象名为1471-2105-6-165-i6.gif

这个t吨w个假设统计数据具有t吨-自由度分布(数据流)根据Satterthwaite近似计算得出:

保存图片、插图等的外部文件。对象名为1471-2105-6-165-i7.gif

哪里n个A类n个B类分别是组A和组B中SAGE库的数量。此测试称为t吨w个-在此处进行测试。实施t吨-和t吨w个-测试可以在中找到[13].

过度分散的logistic回归方法

巴格利等。[15]提供了对此方法的详细描述,详情请参见[24]. 简单来说,未观察到的连续随机变量引入来解释库之间的变化,其中的平均值和方差具有以下形式:E类() =第页;变量() =φ第页(1 -第页)。在这里φ是非负比例参数。条件启用=第页,的第页具有二项式分布(,第页)。无条件均值和方差第页可以显示为E类(第页) =第页变量(第页) =第页(1 -第页) [1+(-1)φ]. 请注意,如果φ为0(即不存在库间变化或过度分散)第页是通常的二项式方差第页(1 -第页)。系数的估计β通过迭代加权最小二乘(IRLS)程序执行,其中权重w个是1/[1+(- 1)φ]. 注意重量w个如果库大小相等都是平等的。

参数φ通过将拟合优度Pearson的卡方统计量相等来估计X(X)2近似预期值,即

保存图片、插图等的外部文件。对象名为1471-2105-6-165-i8.gif

哪里v(v)=第页(1 -第页)、和是线性预测器的方差保存图片、插图等的外部文件。对象名为1471-2105-6-165-i9.gif.引入迭代过程来估计φβ,其中φ(相应地,重量w个)和β每个步骤都会更新。给定估计系数,检验假设是系数中是否有一组(如果有两组以上,则为多组)(β)为0。为此t吨-测试而不是z-由于在模型中引入了过分散参数,建议进行试验[15,32].

基于过度分散logistic回归的假设检验称为logit-t型在此处进行测试。包含源代码的实现可以在中找到[15]. 只有当来自常规logistic回归(或log-linear)拟合(即无过度分散)的皮尔逊双平方统计大于或等于其预期值时,我们才考虑过度分散模型(logistic或log-line),n-p型.

过度分散的对数线性模型

该模型与过度分散的logistic回归模型密切相关。一种推导方法是基于gamma-Poisson层次模型假设[16]. 假设未观察到的随机变量θ根据

θ~伽马射线(μ, 1/φ),

哪里μ=第页,φ>0,E类(θ) =μ变量(θ) =保存图片、插图等的外部文件。对象名为1471-2105-6-165-i10.gif.给定第页,响应变量第页假设分布为

第页|第页~泊松(μ).

的无条件均值和方差第页可以显示为E类(第页) =μ=第页变量(第页) =μ(1+μφ)。请注意,作为φ减小到0第页接近通常的泊松方差μ(即。第页)。如果我们假设第页具有负二项分布[16]. 平均值μ响应变量的第页和协变量x个通过日志链接功能连接,

日志μ=对数(第页) =x个β.

在过度分散的logistic回归模型中,系数的估计β通过迭代加权最小二乘程序获得,其中权重w个是1/(1+μφ) [33]. 注意,与过度分散的logistic回归模型相比,该模型的权重仅取决于库大小,对数线性模型中的权重取决于μ(即两者第页).

基于过分散对数线性模型的假设检验称为对数-t吨在此处进行测试。R[34]提供了用于实现此方法的源代码和web界面[35].

作者的贡献

JL开发了该方法。JL和JKT进行了模拟和数据分析。JKT和JL为实现此方法设置了web界面。TBK负责监督研究,并协助研究方法。所有作者都参与了写作,阅读并批准了最终手稿。

补充材料

附加文件1:

此压缩的tar文件包含显示四个测试的接收器工作特性曲线(ROC)的图形,这些测试应用于由具有不同过分散程度的贝塔二项分布生成的数据集(φ)和平均比例。例如,文件2_8e-06_0.0002.png显示了ROC曲线第页B类= 2第页A类,φ=8e-06和第页A类= 0.0002.

附加文件2:

与上述文件类似,该文件包含ROC曲线图,但数据来自负二项分布。

致谢

作者感谢匿名评论员的几点建设性意见。我们感谢Gregory Riggins向我们介绍SAGE。我们感谢NIH通过杜克大学转化研究中心(5 P30 AI051445-03)和东南地区生物防御和新发感染卓越中心(U54 AI057157-02)提供的财政支持;通过向我们的合作者David Bird(NCSU;DBI 0077503)以及杜克生物信息学和计算生物学中心(Duke Center for Bioinformatics and Computational Biology)提供资助,获得美国国家科学基金会(NSF)的资助,并通过JL的博士后奖学金获得支持。

工具书类

  • Velculescu VE,Zhang L,Vogelstein B,Kinzler KW。基因表达的系列分析。[评论]科学。1995;270:484–487.[公共医学][谷歌学者]
  • Zhang L,Zhou W,Velculescu VE,Kern SE,Hruban RH,Hamilton SR,Vogelstein B,Kinzler KW。正常细胞和癌细胞中的基因表达谱。科学。1997;276:1268–1272. doi:10.1212/science.2765.5316.1268。[公共医学] [交叉参考][谷歌学者]
  • Riggins GJ,Strausberg RL.癌症基因组解剖项目的基因组和遗传资源。人类分子遗传学。2001;10:663–667. doi:10.1093/hmg/10.7.663。[公共医学] [交叉参考][谷歌学者]
  • Porter D、Lahti-Dominic J、Keshaviah A、Bae YK、Argani P、Marks J、Richardson A、Cooper A、Strausberg R、Riggins GJ、Schnitt S、Gabrielson E、Gelman R、Polyak K。乳腺导管原位癌的分子标记物。分子癌症研究:MCR。2003年;1:362–375.[公共医学][谷歌学者]
  • Audic S,Claverie JM。数字基因表达谱的意义。基因组研究。1997;7:986–995.[公共医学][谷歌学者]
  • Chen H,Centola M,Altschul SF,Metzger H。静止和活化肥大细胞中基因表达的特征。实验医学杂志。1998年;188:1657–1668. doi:10.1084/jem.188.9.1657。[勘误表见《实验医学杂志》1998年12月21日;188(12):2387]。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Lal A、Lash AE、Altschul SF、Velculescu V、Zhang L、McLendon RE、Marra MA、Prange C、Morin PJ、Polyak K、Papadopoulos N、Vogelstein B、Kinzler KW、Strausberg RL、Riggins GJ。人类癌症基因表达的公共数据库。癌症研究。1999;59:5403–5407.[公共医学][谷歌学者]
  • Kal AJ、van Zonneveld AJ、Benes V、van den Berg M、Koerkamp MG、Albermann K、Strack N、Ruijter JM、Richter A、Dujon B、Ansorge W、Tabak HF。通过对生长在两种不同碳源上的酵母的基因表达转录谱的系列分析比较,揭示了基因表达的动态。细胞分子生物学。1999;10:1859–1872. [PMC免费文章][公共医学][谷歌学者]
  • Man MZ,Wang X,Wang Y.POWER_SAGE:比较SAGE实验的统计检验。生物信息学。2000;16:953–959. doi:10.1093/bioinformatics/16.11.953。[公共医学] [交叉参考][谷歌学者]
  • Ruijter JM、Van Kampen AH、Baas F.SAGE库的统计评估:实验设计的后果。生理基因组学。2002;11:37–44.[公共医学][谷歌学者]
  • Blackshaw S、Kuo WP、Park PJ、Tsujikawa M、Gunnersen JM、Scott HS、Boon WM、Tan SS、Cepko CL。MicroSAGE具有很高的代表性和可重复性,但显示了从类似组织中获得的样本之间基因表达的主要差异。基因组生物学。2003年;4:R17.doi:10.1186/gb-2003-4-3-R17。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Ryu B,Jones J,Blades NJ,Parmigiani G,Hollingsworth MA,Hruban RH,Kern SE。通过大规模基因表达序列分析检测胰腺癌之间的关系和差异表达基因。癌症研究。2002;62:819–826.[公共医学][谷歌学者]
  • Baggerly KA,Deng L,Morris JS,Aldaz CM。SAGE中的差异表达:解释正常的库间变异。生物信息学。2003年;19:1477–1483。doi:10.1093/bioinformatics/btg173。[公共医学] [交叉参考][谷歌学者]
  • Walter-Yohrling J,Cao X,Callahan M,Weber W,Morgenbesser S,Madden SL,Wang C,Teicher BA。促进侵袭的恶性细胞表达基因的鉴定。癌症研究。2003年;63:8939–8947。[公共医学][谷歌学者]
  • Baggerly KA,Deng L,Morris JS,Aldaz CM。SAGE的过度分散逻辑回归:建模多组和协变量。BMC生物信息学。2004;5:144.doi:10.186/1471-2105-5-144。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Casella G,Berger RL公司。统计推断。2.加利福尼亚州太平洋格罗夫:杜克斯伯里;2002[谷歌学者]
  • Gelman A、Carlin J、Stern H、Rubin D。贝叶斯数据分析。第二。佛罗里达州博卡拉顿:CHAPMAN&HALL/CRC;2004[谷歌学者]
  • 夏皮罗DE。诊断测试的解释。统计方法医学研究。1999;8:113–134. doi:10.1191/09622809966628387。[公共医学] [交叉参考][谷歌学者]
  • SAGE精灵:http://cgap.nci.nih.gov/SAGE网站
  • Boon K、Osorio EC、Greenhut SF、Schaefer CF、Shoemaker J、Polyak K、Morin PJ、Buetow KH、Strausberg RL、De Souza SJ、Riggins GJ。正常和恶性基因表达的解剖学。[评论]美国国家科学院院刊。2002;99:11287–11292. doi:10.1073/pnas.152324199。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Vishwanatha JK,Chiang Y,Kumble KD,Hollingsworth MA,Pour PM。annexin II在人胰腺癌细胞和原发性胰腺癌中的表达增强。致癌。1993;14:2575–2579.[公共医学][谷歌学者]
  • Paciucci R、Berrozpe G、Tora M、Navarro E、Garcia de Herreros A、Real FX。用消减杂交法从SK-PC-1胰腺癌细胞中分离组织型纤溶酶原激活物、组织蛋白酶H和非特异性交叉反应抗原。FEBS信函。1996;385:72–76. doi:10.1016/0014-5793(96)00352-3。[公共医学] [交叉参考][谷歌学者]
  • 阿格雷斯蒂A。分类数据分析。2.新泽西州霍博肯:约翰·威利父子公司出版;2002[谷歌学者]
  • Williams DA。logistic线性模型中的瘤外变异。应用统计学。1982;31:144–148. [谷歌学者]
  • Welch BL。当涉及几个不同的人口方差时,“学生”问题的泛化。生物特征。1947年;34:28–35.[公共医学][谷歌学者]
  • Vencio RZ,Brentani H,Patrao DF,Pereira CA。基因表达序列分析(SAGE)中类内生物变异性的贝叶斯模型BMC生物信息学。2004;5:119.doi:10.186/1471-2105-5-119。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Manly KF、Nettleton D、Hwang JT。基因组学、先验概率和多种假设的统计检验。基因组研究。2004;14:997–1001. doi:10.1101/gr.2156804。[公共医学] [交叉参考][谷歌学者]
  • Choe SE、Boutros M、Michelson AM、Church GM、Halfon MS。通过完全定义的控制数据集揭示Affymetrix基因芯片的首选分析方法。基因组生物学。2005;6:R16.doi:10.1186/gb-2005-6-2-R16。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 开普勒TB,Crosby L,Morgan KT。通过自我一致性和局部回归对DNA微阵列数据进行规范化和分析。基因组生物学。2002;:RESEARCH0037.doi:10.1186/gb-2002-3-7-RESEARCH0037。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Wright GW,Simon RM。检测小型微阵列实验中差异基因表达的随机方差模型。生物信息学。2003年;19:2448–2455. doi:10.1093/bioinformatics/btg345。[公共医学] [交叉参考][谷歌学者]
  • Cui X,Hwang JT,Qiu J,Blades NJ,Churchill GA。通过缩小方差分量估计值改进差异基因表达的统计检验。生物统计学。2005;6:59–75. doi:10.1093/biostatistics/kxh018。[公共医学] [交叉参考][谷歌学者]
  • 刘易德(LIoyd CJ)。分类数据的统计分析。纽约州纽约市:JOhn Wiley&Sons;1999[谷歌学者]
  • Breslow NE。对数线性模型中的超泊松变化。应用统计学。1984;33:38–44. [谷歌学者]
  • R开发核心团队。R: 用于统计计算的语言和环境。奥地利维也纳R统计计算基金会;2003[谷歌学者]
  • SAGE过分散对数线性模型的网站:http://dulci.biostat.duke.edu/sage

文章来自BMC生物信息学由以下人员提供BMC公司