Identifying differential expression in multiple SAGE libraries: an overdispersed log-linear model approach

Jun Lu; John K Tomfohr; Thomas B Kepler

doi:10.1186/1471-2105-6-165

BMC生物信息学。2005; 6: 165.

2005年6月29日在线发布。数字对象标识：10.1186/1471-2105-6-165

预防性维修识别码：项目经理1189357

PMID：15987513

识别多个SAGE库中的差异表达：一种过度分散的对数线性模型方法

陆军,¹ 约翰·托姆福尔,¹和托马斯·开普勒¹

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 附加文件1此压缩的tar文件包含显示四个测试的接收器工作特性曲线（ROC）的图形，这些测试应用于由具有不同过分散程度的β二项式分布生成的数据集(φ)和平均比例。例如，文件2_8e-06_0.0002.png显示了ROC曲线第页_B类= 2第页_A类,φ=8e-06和第页_A类= 0.0002.
1471-2105-6-165-S1.gz（美元）（119K）
GUID:CFAA788B-3FF4-403C-A1B6-F5DF0DDB85EB
附加文件2与上述文件类似，该文件包含ROC曲线图，但数据来自负二项分布。
1471-2105-6-165-S2.gz（美元）（142K）
GUID:834303FE-E293-4EC7-B9C7-142E10EC2F9B

摘要

背景

在涉及基因表达文库多序列分析的差异基因表达测试中，解释文库之间和文库内的变异至关重要。已经提出了几种方法，包括t吨测试，t吨_w个测试和过度分散的logistic回归方法。然而，这些测试的优点尚未得到充分评估。是否可以进一步改进仍然存在疑问。

结果

本文介绍了一种分析SAGE的超离散对数线性模型方法；我们将其性能与其他三个测试进行评估和比较：两个样本t吨测试，t吨_w个检验和另一个基于过分散逻辑线性回归的检验。对模拟数据集和实际数据集的分析表明，对数线性和logistic过分散方法的性能通常优于t吨和t吨_w个测试；进一步发现，对数线性方法比logistic方法具有更好的性能，在一系列参数值和不同的数据分布上表现出相等或更高的统计能力。

结论

过度分散的对数线性模型为分析涉及多个库的SAGE实验提供了一个有吸引力且可靠的框架。为了方便起见，可以通过用户友好的web界面实现此方法，网址为网址：http://www.cbcb.duke.edu/sage.

背景

基因表达序列分析（SAGE）用于测量大量基因的信使RNA相对丰度[1,2]. 简单地说，mRNA是从生物样品中提取出来的，并反向转录到cDNA。然后，双链cDNA被4切割限制酶（锚定酶，通常为NlaIII）消化。消化后，使用另一种限制酶（标记酶）在大多数锚定酶限制位点的3'处释放下游DNA序列。释放的序列通常长10–11个碱基对（bp），称为SAGE标签。来自许多不同种类的mRNA的标签可以连接、克隆和测序。在一个典型的SAGE实验中，从每个样本中收集了大量标签（通常从30000到100000），理想情况下，每个标签代表一个基因；标签计数表示该特定标签所代表的基因的转录水平。一个自然感兴趣的问题是给定标签是否有差异表达。在过去几年中，SAGE被广泛用于癌症样本的表达分析，以确定诊断或治疗目标[三,4].

大多数SAGE研究侧重于比较两个样本之间的表达水平。对于这两个库的比较，提出了几种统计方法，例如Zhang的模拟方法等。[2]贝叶斯方法[5-7]和基于法线近似的z-测试[8]（相当于chi-square测试[9]). Ruijter的比较评论等。[10]已经表明，所有这些方法都表现得同样好。

两个SAGE文库之间的比较可以识别生物学上有趣的标签（或基因）。然而，在许多情况下，为了解释正常的背景生物变异，必须用复制品进行实验。对于涉及多个SAGE库的实验，引入了二项抽样变异以外的库间变异。这种库间变异可能是由于实验设计中涉及的其他已知因素，以及观测之间未知的遗传或环境变异。事实上，从不同个体的相同组织制备的SAGE文库之间存在基因表达的主要差异[11]. 需要使用统计方法来分析涉及多个库的SAGE实验。在两组比较的情况下（例如，正常组和癌症组之间的比较），使用诸如汇集每组库并转换为两个库比较的方法（例如，使用χ2检验）或两个样本t吨-提出并讨论了比例测试[12-14]. 汇集方法常常存在问题，因为它忽略了同一治疗组中库之间的基因表达差异，从而导致对差异的有偏估计。两个样本t吨-然而，对比例的测试也可能存在问题；已知从较小尺寸的库中估计的比例比从较大的库中估计的比例变化更大。

对于两组比较，Baggerly等。引入了检验统计量，t吨_w个基于一个分层的贝塔-二项式模型来解释库内和库内变量[13]. 这个t吨_w个假设测试统计具有近似值t吨-分布等t吨-测试t吨_w个-该测试仅适用于两组比较。对于具有更一般设计（例如涉及2个或更多因素）的SAGE实验，描述了基于过度分散逻辑回归的方法[15]. 过度分散模型旨在考虑标签计数过度分散的可能性，即标签计数的方差超过二项式或泊松抽样的预期值。除了在建模多因素和/或连续协变量方面的灵活性外，logistic回归还以logit量表（赔率对数）而非原始量表（如t吨和t吨_w个测试。在logistic回归（和任何广义线性模型）中比较各组相当于测试系数是否β= 0. 巴格利等。[15]有证据表明，“logit量表可能比原始比例量表更合适”。然而，过度分散的逻辑回归的一个缺点是，当任何一组中的所有标记数都很小时，它可能会崩溃。在这种情况下，偏差测试而不是t吨-检验（假设系数β为零）[15]. 除了需要对偏差测试进行系统评估外，偏差测试的一个潜在缺点是，如果模型包含多个因素或协变量，则可能需要多轮模型拟合。此外，关于偏差测试何时应优先于t吨-测试。

在本报告中，我们引入了一种过度分散的对数线性模型方法来分析SAGE，该方法与过度分散的logistic回归密切相关，但具有不同的均值-方差关系假设。我们将其识别差异表达的性能与其他三种方法进行了比较，包括t吨-测试，t吨_w个检验和过分散logistic回归。对模拟数据集和实际数据集的分析表明，对数线性和logistic过分散方法的性能通常优于t吨和t吨_w个测试。基于模拟数据，发现对数线性方法比逻辑方法具有更好的性能，在一系列参数值和不同的数据分布上显示出相等或更高的统计能力。在我们分析的真实SAGE数据上，过分散对数线性方法似乎也有更好的性能；在许多情况下，标签是通过对数线性方法识别的，似乎有明显的差异表达，但使用logistic回归方法无法确定其显著性。过度分散的对数线性模型也提供了与逻辑回归相同的灵活性，允许对多因素和/或协变量进行建模。我们的结论是，过度分散的对数线性模型为分析涉及多个库的SAGE实验提供了一个有吸引力且可靠的框架。

结果

过分散对数线性模型：一个案例研究

过度分散的对数线性模型（详见方法）与过度分散的逻辑模型非常相似，但有两个主要区别。首先，过度分散的对数线性模型使用比例对数（对数链接）和样本大小对数米_我作为偏移。相反，过度离散的逻辑模型使用概率对数（logit链接）。其次，过度分散对数线性模型的假设导致迭代加权最小二乘法（IRLS）使用的导出权重取决于标签计数的平均值（即权重取决于库大小和标签比例）。相比之下，过度分散逻辑回归中的权重仅是库大小的函数（见方法）。

巴格利等。[15]说明了在一组中的所有比例都为0的情况下，过度分散的逻辑模型可能会崩溃。在这里，我们表明，当一组中的比例很小时，也可能发生这种分解。表表11列出了第页-从偏差和t吨测试。请注意，我们正在测试以下假设：β= 0. 人为增加第1组中的标签数，使其接近第2组中的水平（保持不变）、逻辑回归中的偏差测试以及这两个测试（偏差和t吨)在对数线性模型中显示出预期的增加趋势第页-值（表（表1，1，第5、6和7列）。相比之下第页-值来自t吨-logistic回归中的测试实际上先下降后上升（表（表1，1，第4列）。来自t吨logistic模型中的偏差检验（在对数线性情况下没有发现差异）表明，当一组所有样本的标签数很小时，logistic回归可能会有问题。

表1

的比较t吨-过度分散logistic回归和对数线性模型中的偏差检验以及基于贝叶斯模型的检验

	第1组^一		逻辑回归		对数线性模型		贝斯模型
	库1	库2	t吨-测试^c（c）	偏差试验	t吨-测试^c（c）	偏差试验	E类^天

1^b条	0	0	0.645	0.115	0.003	0.001	0.01
2	2	2	0.485	0.122	0.002	0.002	0.02
三	5	5	0.383	0.133	0.003	0.005	0.04
4	10	10	0.324	0.149	0.007	0.01	0.05
5	20	20	0.291	0.183	0.02	0.025	0.07
6	50	50	0.324	0.29	0.104	0.117	0.11
7	100	100	0.494	0.508	0.376	0.404	0.12

在单独的窗口中打开

^一第1组中的标签计数被人为增加到第2组中观察到的水平（保持不变）。第2组中的标签数为312、549、246、65、41和52。第2组中的库大小和标签计数取自Baggerly等。[15].

^b条经验标签计数0.506和0.494用于替换第1组中的零计数[15]。

^c（c）这个t吨-这里的测试是测试假设β= 0.

^天E类列出了贝叶斯错误率。[26].

模拟研究

为了系统地评估两组比较中各种测试的性能，我们进行了模拟研究。这里比较的测试是t吨,t吨_w个，逻辑t-t型和日志-t吨。对于t吨和t吨_w个，测试是_第页A类=_第页B类，其中_第页A类和_第页B类分别为A组和B组的平均比例。逻辑t-t型和日志-t吨是t吨关于是否β在过分散logistic回归和对数线性模型中分别为0。我们不会试图更换t吨-在过度分散的logistic回归模型中使用偏差测试进行测试，因为这需要对何时优先使用一种测试做出可能是主观的决定。

我们在三种不同分布下生成标签计数，选择不同的标签比例和过度分散的数量（表（表2）。2)。由β-二项分布和负二项分布生成的数据分别满足过分散逻辑回归和对数线性模型方法的假设（即具有均值-方差关系结构）。负二项分布等效于gamma-Poisson层次模型，被认为是泊松分布的稳健替代方案[16,17]. 应该注意的是t吨_w个-在假设数据是由β二项分布生成的情况下，也导出了测试[13]. 过度分散参数值的范围是根据实际数据集的模型拟合来选择的（见下文）；我们使用了估计过度分散的25%、50%和75%的值保存图片、插图等的外部文件。对象名为1471-2105-6-165-i1.gif 从这些配合中。注意，过度分散参数φ在logistic模型中与φ在对数线性模型中；φ不应比较两个模型的值。给定过分散值φ和一组平均比例第页，的α和β贝塔二项分布的值导出为α=第页(1/φ-1），和β= (1 -第页)(1/φ- 1). 负二项分布中的尺寸参数很容易导出为1/φ。我们为每组使用了5个样本（库），并通过从30000到90000之间的均匀分布中随机抽样来确定10个库中每个库的大小。这产生了66148、67094、53338、80124、64984、70452、74052、60086、52966和45377个库；这些数值在模拟过程中没有发生变化。使用不同的库大小集进行单独运行的结果（未显示）与此处显示的结果一致。每个参数值组合总共生成5000组标记计数。然后通过受试者工作特性（ROC）曲线评估和比较每个测试的灵敏度和特异性[18].

表2

仿真中使用的参数值列表

分发	二项式（即没有过度分散）；β-二项式；阴性肿瘤
过分散参数(φ)	β二项式为8e-06、2e-05、4.3e-05；负二项式为0.17、0.42、0.95
A组和B组的样本数量	每组5人
A组平均比例(第页_A类)	50000中的1、5、10、20、50和100
平均比例比(第页_B类/第页_A类)	1、2和4

在单独的窗口中打开

注：库的大小为66148、67094、53338、80124、64984、70452、74052、60086、52966和45377，每一个都是通过从30000到90000的区间内的均匀分布中提取来确定的。

图中所示的ROC曲线（四个测试中每个测试一个）图11使用从β二项分布（具有过度分散值）生成的数据获得φ如图顶部所示）。给出相同的假阳性率(x个-轴），过度分散模型（logistic和log-linear）清楚地显示了统计能力的提高(年-轴）与两个样本进行比较t吨和t吨_w个测试。相反，当对负二项分布生成的数据进行四项测试时，过度分散的对数线性模型明显优于其他三项测试（图（图2）。2)。同样，两个样本t吨和t吨_w个测试通常表现不佳。使用其他参数值生成的图形可用[参见其他文件1和2]. 这些结果表明，对于SAGE数据，基于原始比例的统计方法（如t吨和t吨_w个测试）显示出比logistic或log-linear模型方法更低的功效。过度分散的对数线性模型不仅在数据生成方式与其假设一致的情况下（即从负二项式分布）显示出最佳性能，而且在数据来自不同分布时（此处为β二项式）也具有竞争性能。这表明过度分散的对数线性模型方法更为稳健。

在单独的窗口中打开

图1

基于贝塔二项分布模拟数据的比较该图显示了四个测试的接收机工作特性曲线（ROC），这些测试应用于由具有不同过分散程度的贝塔二项分布生成的数据集(φ)（显示在每个图的顶部）。对于特定的φ，模拟10000个观测值（标签）；5000是在假设第页_A类=第页_B类剩下的来自第页_B类= 2第页_A类，其中第页_A类和第页_B类是两组的平均比例，以及第页_A类=0.0002（即50000中的10）。有关在其他条件下生成的图形，请参见附加文件1.

在单独的窗口中打开

图2

基于负二项分布模拟数据的比较四项测试的ROC曲线基于负二项分布产生的数据集，该分布具有不同的过度分散程度(φ)。数据通过图1中使用的相同策略进行模拟，除了第页_B类= 4第页_A类注意，此处的过分散参数与图1中的参数（参数φ因为负二项式与β二项式没有直接关系）。有关在其他条件下生成的图形，请参见附加文件2.

胰腺癌数据集

我们进一步比较了四种测试(t吨-测试，t吨_w个-测试，logit-t吨、和日志-t吨)使用从公开的SAGE Genie网站获得的实验SAGE数据集[19]. 为了确定胰腺癌细胞和正常导管上皮之间差异表达的基因，Ryu等。[12]比较了五种胰腺癌细胞株和两种正常胰腺导管上皮细胞的基因表达水平。SAGE库的库大小和唯一标签数量如表所示表3。三注意，由于SAGE标签处理程序不同，表中的数字与原始文件中描述的数字略有不同[20]. 在这个分析中，我们忽略了总计数小于3的标签。

表3

5种癌症和2种正常胰腺SAGE文库的文库信息

	癌细胞系					正常单元格

图书馆	ASPC公司	PL45型	电容器1	CAPAN2号机组	全景-1	换热器	H126型
库大小	31,224	29,557	37674人	23,042	24749个	31,985	32,223
独特的标签	10,622	11,121	14,815	10,157	10,293	12,392	12,360

在单独的窗口中打开

我们首先通过检查每个测试确定的排名靠前的基因（前50和100）之间的重叠来比较这四个测试（表（表4）。4)。对于t吨和t吨_w个测试中，基因是根据t吨（或t吨_w个)统计数据而不是第页-值（有关详细信息，请参阅“讨论”部分）。如表所示表4，4，logit的结果-t吨和日志-t吨测试表明，一致性最高（约80%）；双方达成适度协议t吨_w个和logit-t吨或日志-t吨测试（约60%），且在t吨以及其他三项测试（约40%）。由t吨-测试通常是组内方差极小的测试（数据未显示）。总的来说，来自t吨-测试与其他测试的结果差别最大，而logit之间的结果最相似-t吨和日志-t吨测试。这与模拟中看到的趋势大体一致。

表4

四项测试的成对比较

	t吨-测试	t吨_w个-测试	罗吉特-t吨

t吨_w个-测试	39(12)^一	-
逻辑学家-t吨	42(17)	66(29)	-
日志-t吨	36（16）	63(25)	82（43）

在单独的窗口中打开

^一两项测试确定的前100和前50（括号内）基因列表中共享的基因数量；我们注意到，对于t吨和t吨_w个测试中，基因按绝对值排序t吨或t吨_w个统计数据而非p值。

前100个基因中（按第页-值）从logit中获得-t吨和日志-t吨测试中，共有82个基因，每个测试中有18个基因不在其他测试确定的前100个基因中。进一步检查逻辑之间的差异-t吨和日志-t吨测试，我们绘制第页-从这36个剩余标签的两次测试中获得的值（图（图3）。三)。可以看出，虽然logit标识的标签-t吨测试也相对较小第页-日志值-t吨测试（均小于0.05），由日志确定-t吨测试表明第页-符合logit的值-t吨测试。表表55列出了日志排名前100位的标签-t吨测试，但其中有第页-logit值大于0.05-t吨测试；其中4个也由Ryu确认等。[12]. 我们的分析表明-t吨该测试相对稳健，因为它不仅给出了相当小的第页-logit确定为显著的基因值-t吨测试，但也能识别logit从未认为重要的基因-t吨测试。

在单独的窗口中打开

图3

比较第页-logit中的值-t吨测试和日志中的测试-t吨测试前100个标签中（根据第页-值）-t吨通过日志进行测试-t吨测试、82对于从每个测试中留下不在由另一个识别的前100个内的18个标签是共同的。这个第页-此处绘制了其余36个标签的两个测试值。圆圈代表logit排名前100位的18位-t吨测试和日志中的三角形-t吨测试。而logit标识的所有标签-t吨根据日志，测试的p值也相当低-t吨测试，日志标识的标签-t吨测试表明第页-符合logit的值-t吨测试。

表5

一组被鉴定为显著差异表达的基因(第页<0.05，也在前100个基因列表中）-t吨测试但不通过logit-t吨测试(第页> 0.05)

			正常		癌症

标签	对（日志-t吨)	对（罗吉特-t吨)	换热器	H126型	ASPC公司	PL45型	电容器1	CAPAN2号机组	全景-1
AGCAGATCAG公司*	0.003	0.088	16	9	272	152	138	135	384
TTGGTGAAGG公司	0.003	0.069	6	0	90	267	194	187	238
CCCATCGTCC公司	0.003	0.309	13	34	2047	1333	364	456	408
CCTCCAGCTA公司	0.006	0.465	三	16	452	1766	292	265	364
ACTTTTCAA公司	0.008	0.096	25	43	413	379	226	200	65
中国民航总局*	0.01	0.463	9	9	439	1235	154	143	133
TGCCCTCAGG公司	0.011	0.219	16	6	80	196	276	339	4
GCTGTTGCGC公司*	0.011	0.151	三	三	35	30	82	126	133
GACATCAAGT公司*	0.013	0.554	0	0	183	548	85	126	20
TTCACTGTGA公司	0.014	0.149	0	三	128	105	77	91	16
TTGGGGTTTC	0.015	0.142	69	37	701	507	173	195	230
TGCCCTCAAA公司	0.016	0.246	三	6	32	112	135	178	0
GGGAAAATCG公司	0.017	0.066	100	71	339	423	119	291	226

在单独的窗口中打开

注：为了进行比较，标签计数已转换为每100000个标签的数量。这种缩放不用于任何统计测试。带有（*）的标签也是由Ryu识别的标签等。[12].

柳等。[12]用两个样本鉴定出49个癌基因上调和37个癌基因下调t吨-测试和一组基于规则的方法。我们将他们的结果与日志中的结果进行了比较-t吨测试（选择相同数量的顶级基因）。在86个基因中，只有18个是共同的（下调和上调基因组各有9个）。在我们的列表中，癌症中上调的最重要的基因是标记“CTTCCAGCTA”，它代表膜联蛋白A2基因。据报道，该基因在人类胰腺癌细胞和原发性胰腺癌中上调[21]. 另一个例子是标签“TTGGTGAAGG”，它对应于胸腺肽β4编码基因。该基因也已被证明“在肿瘤细胞系和正常胰腺原代培养物中均高水平表达，但在正常组织中不表达”[22]. 根据日志列出癌症中前20个上调基因和前20个下调基因-t吨表中列出了测试表66.

表6

胰腺癌和正常导管上皮之间差异表达的前40个基因列表

标签	描述	对	换热器	H126型	ASPC公司	PL45型	电容器1	CAPAN2号机组	全景-1
胰腺癌中上调
CTTCCAGCTA公司	膜联蛋白A2	0.0011	19	25	128	217	143	148	170
AAAAAAAAAA	-	0.0018	6	三	128	210	180	165	133
AGCAGATCAG公司	S100钙结合蛋白A10（膜联蛋白II配体，钙粘蛋白I，轻多肽（p11））	0.0027	16	9	272	152	138	135	384
TTGGTGAAGG公司	胸腺肽，β4，X连锁	0.003	6	0	90	267	194	187	238
CCCATCGTCC公司	运动软骨基因	0.0032	13	34	2047	1333	364	456	408
CCTCCAGCTA公司	角蛋白8	0.0059	三	16	452	1766	292	265	364
GGAAAAAAA公司	ATP合酶，H+转运，线粒体F1复合体，ε亚基	0.0063	三	6	64	61	74	74	57
CCCCAGTTGC公司	钙蛋白酶，小亚单位1	0.0066	22	22	64	88	77	61	113
AACTAAAAAA	核糖体蛋白S27a	0.0078	19	16	45	85	80	61	61
TTCAATAA公司	RPLP1，核糖体蛋白，大，P1	0.0079	9	25	147	179	135	104	40
GCAAAAAAAA公司	21号染色体开放阅读框97	0.0079	6	三	58	68	40	65	65
ACTTTTCAA公司	运动软骨基因	0.0081	25	43	413	379	226	200	65
中国民航总局	KRT18，角蛋白18	0.0095	9	9	439	1235	154	143	133
GTGTGGGGG	连接斑球蛋白	0.0096	6	三	29	64	50	56	61
TGCCCTCAGG公司	LCN2、Lipocalin 2（癌基因24p3）	0.0106	16	6	80	196	276	339	4
GCTGTTGCGC公司	-	0.0108	三	三	35	30	82	126	133
AAGAAGATAG公司	核糖体蛋白L23a	0.0116	16	9	77	108	85	65	24
美国汽车协会	SMAD，母亲对抗DPP同源物3（果蝇）	0.0118	6	0	74	47	40	56	44
ACCTGTATCC公司	IFITM3，干扰素诱导的跨膜蛋白3（1-8U）	0.0123	13	三	26	81	64	82	53
CAACTTAGTT公司	肌球蛋白调节轻链MRLC2	0.0128	6	6	51	61	53	48	16

胰腺癌中的下调
加卡加卡加	核糖体蛋白S28	0.0001	428	388	109	122	90	117	154
GGACCACTGA公司	核糖体蛋白L3	0.0002	310	270	102	105	101	104	61
关贸总协定	S100钙结合蛋白A2	0.0002	188	174	三	10	8	4	0
AGCAGGAGCA公司	S100钙结合蛋白A16	0.0005	144	152	26	41	45	26	16
AGCTGTCCC公司	盖蛋白（肌动蛋白丝）肌肉Z线，β	0.0005	219	254	13	三	三	4	0
GACTGCGCGT公司	肿瘤坏死因子受体超家族，成员12A	0.0007	103	93	10	10	24	22	16
GTGGTGTG	先天性红细胞生成障碍性贫血，I型	0.0011	59	87	10	10	8	13	8
TAGGCATTCA公司	-	0.0012	119	115	0	0	0	0	0
TGAGTGGTCA公司	微管相关蛋白1轻链3β	0.0017	66	53	0	7	5	13	8
GGCGCTGCA公司	切除修复交叉互补啮齿类修复缺陷，第1组	0.0017	66	53	6	7	三	4	0
AAGTTTGCCT公司	谷胱甘肽（硫转移酶）	0.0022	66	62	0	三	三	0	4
AGCTCTCCT公司	核糖体蛋白L17	0.0023	335	357	77	145	82	143	125
CCGAAGTCGA公司	转录调节因子1	0.0024	53	56	0	7	5	0	0
GCTGCTGCGC公司	-	0.0024	228	320	0	0	0	0	4
TTGGGAGCAG蛋白	异亮氨酸-tRNA合成酶	0.0031	72	43	10	10	19	4	8
TAAGGAGCTG公司	核糖体蛋白S26	0.0031	344	329	138	85	96	43	101
AACAGAAGCA公司	假设蛋白FLJ25692	0.0031	75	59	13	24	24	9	16
中交CACCTA	过氧化物酶原2	0.0031	56	43	16	10	三	9	4
TGTGAGTCAC公司	-	0.0038	31	62	0	0	0	0	0
TCAGGGATCT公司	-	0.0038	41	53	0	0	0	0	0

在单独的窗口中打开

注：为了进行比较，标签计数已转换为每100000个标签。这个第页列出的值来自日志-t吨测试。

讨论

在本报告中，我们引入了一个对数线性模型，用于测试SAGE中的差异基因表达。该模型与Baggerly提出的过度分散物流模型密切相关等。[15]但具有不同的均值-方差关系假设。两个模型之间的差异可以从与每个观测值相关的权重（IRLS使用）中清楚地看出：假设库大小相当接近，过度分散的对数线性模型倾向于为平均比例较小的组中的观测值分配更高的权重；相反，在过度分散的logistic模型中，对所有观测值分配了近似相等的权重。尽管对于真实的SAGE数据，真实的均值-方差关系未知，但已经观察到“对于计数较高的数据，库间变异是变异的主要部分”[13]; 这表明计数较高的组的过度分散程度可能大于计数较低的组，因此过度分散对数线性模型的假设可能更适合SAGE数据。

我们还比较了过度分散logistic模型和对数线性模型的模型拟合。由于引入了过度分散参数，偏差统计不再是模型拟合比较的有效依据。另一种方法是使用具有渐近标准正态分布的标准化皮尔逊残差[23]. 威廉姆斯[24]提出了根据预测比例绘制标准化皮尔逊残差的方法；当估计比例接近零时，标准化残差的方差显著减少，表明模型拟合存在问题。图图44显示了两个标签的逻辑和对数线性模型拟合的残差图（标签计数列于表表5）。5)。在过度倒置逻辑回归的情况下（图的左面板图4），4)标准化皮尔逊残差的方差在正常组明显小于癌症组。这种差异在过度分散的对数线性模型拟合中并不明显（图的右面板图4）。4)。尽管本例中的样本量非常小（正常组只有2个），但残差图进一步表明，对数线性模型比逻辑模型更适合SAGE数据。

保存图片、插图等的外部文件。对象名称为1471-2105-6-165-4.jpg

在单独的窗口中打开

图4

标准化残差与估计比例的关系图。绘制了两组的标准化皮尔逊残差（y轴）与比例估计值（x轴）。标准化的皮尔逊残差是作为标准正态渐近分布的。这里显示了两个标签的模型拟合（在表5中的基因列表中）；左边来自使用过分散逻辑模型的拟合，右边来自过分散对数线性模型。平均比例较低的组（正常）的残差方差较低，表明模型拟合较差。

从模拟研究中我们发现，除了局限于两组比较之外t吨-和t吨_w个-一般来说，测试不如允许过度分散可能性的测试强大。我们提到一个特定的问题t吨-和t吨_w个-测试数据集中的样本数是否较小。请注意，来自t吨-测试和t吨_w个表中的测试表44基于测试统计数据，而不是第页-值。排名顺序基于第页-如果测试之间的剩余自由度不同，则值可能与基于测试统计的值不同。两者都是t吨-测试和t吨_w个-使用Satterthwaite近似进行测试[25]对于自由度的数量，因为假设两组中的方差不同。标签“AGCTGTCCC”给出了一个例子，它在两个正常样本中的标签计数为70、82，在五个癌细胞系样本中的标记计数为4、1、1、0。基于logit的差异表达式非常重要-t吨(第页-值0.0003）和对数-t吨(第页-值0.0005）测试。相反，如果t吨_w个-使用Satterthwaite近似自由度进行测试，该标签在5%水平上几乎不显著(第页-值0.050）。原因是，虽然t吨_w个这个标签的统计数据实际上非常高(|t吨_w个|=12.01），计算的自由度仅约为1（这导致显著性较低）。这里出现的自由度值很小，因为癌症组的估计方差很小；近似的自由度大约等于正常组的样本量减去1（这里，2-1=1）。这种情况在这个数据集中经常发生，因为一个组中的库（样本）数量非常少。SAGE数据的样本数很少。

本研究中比较的四种方法遵循假设检验的频率主义方法，可以广泛地视为线性模型的示例。对于两组比较，Vencio等。[26]介绍了一种通过贝叶斯错误率对标签进行排序的贝叶斯方法。我们通过观察胰腺数据集确定的基因排名差异，将他们的方法与基于线性模型的方法进行了比较。考虑到通过不同的测试确定的前100个基因，两个过度分散的模型显示出与贝叶斯方法的最佳一致性（~70%的共同点）；这三项测试共鉴定出63个基因（前100个）。我们还使用表中的人工数据评估了贝叶斯方法表1；1; 随着第1组中标签数量的增加，差异表达的证据减少（即贝叶斯错误率增加），这符合预期的趋势。此外，如果我们认为p<0.05或E<0.1的标签有显著差异表达[26]，贝叶斯方法的结果与对数线性模型的结果比逻辑模型的结果更一致（见表表1）。1)。由于所使用的证据度量在概念上非常不同，因此要直接比较基于“P值”的方法和贝叶斯方法并不容易。然而，我们的结果表明，在两组比较的情况下，Vencio的贝叶斯方法是分析SAGE数据的一种竞争性贝叶斯替代方法。

目前的研究没有考虑到目前仍在积极研究的多重测试问题[27,28]. 我们注意到，进一步改进的一个可能领域是使用具有类似离散度的基因（标签）之间的信息，以获得潜在的更稳健和准确的过度离散（因此，误差）估计。在这里比较的所有方法中，每件事都是一次一个标签完成的，也就是说，对每个标签的过度分散量的估计都是单独完成的，并且这些估计可能会有很大差异（参见图图5）。5)。对于具有连续值的表达式数据，提出了信息共享策略[29-31]这些策略可以适用于离散数据，例如SAGE中的离散数据。

在单独的窗口中打开

图5

过度分散估计的分布( 保存图片、插图等的外部文件。对象名为1471-2105-6-165-i1.gif )。估计值来自于与胰腺数据相匹配的过度分散的对数线性模型。图中未显示过度分散估计值为0的标签。

方法

数据

假设总共有n个实验中的SAGE库。让米_我是库的大小（标签总数）我(我= 1..n个)和第页_我是该库中特定标记的标记计数。

此外，让x个_我是解释变量的相关向量β系数向量。两组SAGE库的比较是一种特殊情况，其中每个观察值只有一个解释变量（即一个因子和两个水平）。

两个样本t吨-测试

这个t吨-韦尔奇提出的测试[25]用于测试一组比例的平均值是否等于另一组的平均值。假设两组比例的方差不相等，根据Satterthwaite近似值计算自由度，如t吨_w个-测试（见下文）。

这个t吨_w个-测试

巴格利等。[13]在一个简单的设计中引入了一个β-二项式抽样模型，以说明两组SAGE库之间的比较中的异常变化。这是一个包含一个解释变量的线性模型的特殊情况。简短、未观察到的随机变量对_我是为了解释库与库之间的变化而引入的。对于给定的组，对_我假设具有β分布(α,β)带均值和方差E类(对_我) =α/(α+β),和Var(对_我) =αβ/ [(α+β)²(α+β+1)]. 请注意，这是表单的特例变量（P_我) =φ第页_我(1 -第页_我)如过度分散的logistic模型，其中φ= 1/(α+β+1). 接下来，小组比例保存图片、插图等的外部文件。对象名为1471-2105-6-165-i2.gif 通过组内各个比例的加权线性组合进行估计，其中=第页_我/米_我和w个_我是与每个单独比例相关的权重。无偏方差估计表示为

保存图片、插图等的外部文件。对象名为1471-2105-6-165-i5.gif

为了避免估计方差小于二项抽样方差，还提供了方差的下限。所有参数（即。α,β和w个_我)通过迭代过程获得。同样的估算程序也适用于另一组的数据。为了测试一组（如A组）中的比例是否等于另一组（B组）的比例，A吨-相似统计t吨_w个构造，其中

保存图片、插图等的外部文件。对象名为1471-2105-6-165-i6.gif

这个t吨_w个假设统计数据具有t吨-自由度分布(数据流)根据Satterthwaite近似计算得出：

保存图片、插图等的外部文件。对象名为1471-2105-6-165-i7.gif

哪里n个_A类和n个_B类分别是组A和组B中SAGE库的数量。此测试称为t吨_w个-在此处进行测试。实施t吨-和t吨_w个-测试可以在中找到[13].

过度分散的logistic回归方法

巴格利等。[15]提供了对此方法的详细描述，详情请参见[24]. 简单来说，未观察到的连续随机变量对_我引入来解释库之间的变化，其中的平均值和方差对_我具有以下形式：E类(对_我) =第页_我;变量(对_我) =φ第页_我(1 -第页_我)。在这里φ是非负比例参数。条件启用对_我=第页_我，的第页_我具有二项式分布(米_我,第页_我)。无条件均值和方差第页_我可以显示为E类(第页_我) =米_我第页_我和变量(第页_我) =米_我第页_我(1 -第页_我) [1+(米_我-1)φ]. 请注意，如果φ为0（即不存在库间变化或过度分散）第页_我是通常的二项式方差米_我第页_我(1 -第页_我)。系数的估计β通过迭代加权最小二乘（IRLS）程序执行，其中权重w个_我是1/[1+(米_我- 1)φ]. 注意重量w个_我如果库大小相等米_我都是平等的。

参数φ通过将拟合优度Pearson的卡方统计量相等来估计X（X）²近似预期值，即

保存图片、插图等的外部文件。对象名为1471-2105-6-165-i8.gif

哪里v（v）_我=米_我第页_我(1 -第页_我)、和天_我是线性预测器的方差保存图片、插图等的外部文件。对象名为1471-2105-6-165-i9.gif .引入迭代过程来估计φ和β，其中φ（相应地，重量w个_我)和β每个步骤都会更新。给定估计系数，检验假设是系数中是否有一组（如果有两组以上，则为多组）(β)为0。为此t吨-测试而不是z-由于在模型中引入了过分散参数，建议进行试验[15,32].

基于过度分散logistic回归的假设检验称为logit-t型在此处进行测试。包含源代码的实现可以在中找到[15]. 只有当来自常规logistic回归（或log-linear）拟合（即无过度分散）的皮尔逊双平方统计大于或等于其预期值时，我们才考虑过度分散模型（logistic或log-line），n-p型.

过度分散的对数线性模型

该模型与过度分散的logistic回归模型密切相关。一种推导方法是基于gamma-Poisson层次模型假设[16]. 假设未观察到的随机变量θ_我根据

θ_我~伽马射线(μ_我, 1/φ),

哪里μ_我=米_我第页_我,φ>0,E类(θ_我) =μ_我和变量(θ_我) = 保存图片、插图等的外部文件。对象名为1471-2105-6-165-i10.gif .给定第页_我，响应变量第页_我假设分布为

第页_我|第页_我~泊松(μ_我).

的无条件均值和方差第页_我可以显示为E类(第页_我) =μ_我=米_我第页_我和变量(第页_我) =μ_我(1+μ_我φ)。请注意，作为φ减小到0第页_我接近通常的泊松方差μ_我（即。米_我第页_我)。如果我们假设第页_我具有负二项分布[16]. 平均值μ_我响应变量的第页_我和协变量x个_我通过日志链接功能连接，

日志μ_我=对数(米_我第页_我) =x个_我β.

在过度分散的logistic回归模型中，系数的估计β通过迭代加权最小二乘程序获得，其中权重w个_我是1/（1+μ_我φ) [33]. 注意，与过度分散的logistic回归模型相比，该模型的权重仅取决于库大小米_我，对数线性模型中的权重取决于μ_我（即两者米_我和第页_我).

基于过分散对数线性模型的假设检验称为对数-t吨在此处进行测试。R[34]提供了用于实现此方法的源代码和web界面[35].

作者的贡献

JL开发了该方法。JL和JKT进行了模拟和数据分析。JKT和JL为实现此方法设置了web界面。TBK负责监督研究，并协助研究方法。所有作者都参与了写作，阅读并批准了最终手稿。

补充材料

附加文件1：

此压缩的tar文件包含显示四个测试的接收器工作特性曲线（ROC）的图形，这些测试应用于由具有不同过分散程度的贝塔二项分布生成的数据集(φ)和平均比例。例如，文件2_8e-06_0.0002.png显示了ROC曲线第页_B类= 2第页_A类,φ=8e-06和第页_A类= 0.0002.

单击此处获取文件^{（119K，gz）}

附加文件2：

与上述文件类似，该文件包含ROC曲线图，但数据来自负二项分布。

单击此处获取文件^{（142K，gz）}

致谢

作者感谢匿名评论员的几点建设性意见。我们感谢Gregory Riggins向我们介绍SAGE。我们感谢NIH通过杜克大学转化研究中心（5 P30 AI051445-03）和东南地区生物防御和新发感染卓越中心（U54 AI057157-02）提供的财政支持；通过向我们的合作者David Bird（NCSU；DBI 0077503）以及杜克生物信息学和计算生物学中心（Duke Center for Bioinformatics and Computational Biology）提供资助，获得美国国家科学基金会（NSF）的资助，并通过JL的博士后奖学金获得支持。

工具书类

Velculescu VE，Zhang L，Vogelstein B，Kinzler KW。基因表达的系列分析。[评论]科学。1995;270:484–487.[公共医学][谷歌学者]
Zhang L，Zhou W，Velculescu VE，Kern SE，Hruban RH，Hamilton SR，Vogelstein B，Kinzler KW。正常细胞和癌细胞中的基因表达谱。科学。1997;276:1268–1272. doi:10.1212/science.2765.5316.1268。[公共医学] [交叉参考][谷歌学者]
Riggins GJ，Strausberg RL.癌症基因组解剖项目的基因组和遗传资源。人类分子遗传学。2001;10:663–667. doi:10.1093/hmg/10.7.663。[公共医学] [交叉参考][谷歌学者]
Porter D、Lahti-Dominic J、Keshaviah A、Bae YK、Argani P、Marks J、Richardson A、Cooper A、Strausberg R、Riggins GJ、Schnitt S、Gabrielson E、Gelman R、Polyak K。乳腺导管原位癌的分子标记物。分子癌症研究：MCR。2003年；1:362–375.[公共医学][谷歌学者]
Audic S，Claverie JM。数字基因表达谱的意义。基因组研究。1997;7:986–995.[公共医学][谷歌学者]
Chen H，Centola M，Altschul SF，Metzger H。静止和活化肥大细胞中基因表达的特征。实验医学杂志。1998年；188:1657–1668. doi:10.1084/jem.188.9.1657。[勘误表见《实验医学杂志》1998年12月21日；188（12）：2387]。[PMC免费文章][公共医学] [交叉参考][谷歌学者]
Lal A、Lash AE、Altschul SF、Velculescu V、Zhang L、McLendon RE、Marra MA、Prange C、Morin PJ、Polyak K、Papadopoulos N、Vogelstein B、Kinzler KW、Strausberg RL、Riggins GJ。人类癌症基因表达的公共数据库。癌症研究。1999;59:5403–5407.[公共医学][谷歌学者]
Kal AJ、van Zonneveld AJ、Benes V、van den Berg M、Koerkamp MG、Albermann K、Strack N、Ruijter JM、Richter A、Dujon B、Ansorge W、Tabak HF。通过对生长在两种不同碳源上的酵母的基因表达转录谱的系列分析比较，揭示了基因表达的动态。细胞分子生物学。1999;10:1859–1872. [PMC免费文章][公共医学][谷歌学者]
Man MZ，Wang X，Wang Y.POWER_SAGE：比较SAGE实验的统计检验。生物信息学。2000;16:953–959. doi:10.1093/bioinformatics/16.11.953。[公共医学] [交叉参考][谷歌学者]
Ruijter JM、Van Kampen AH、Baas F.SAGE库的统计评估：实验设计的后果。生理基因组学。2002;11:37–44.[公共医学][谷歌学者]
Blackshaw S、Kuo WP、Park PJ、Tsujikawa M、Gunnersen JM、Scott HS、Boon WM、Tan SS、Cepko CL。MicroSAGE具有很高的代表性和可重复性，但显示了从类似组织中获得的样本之间基因表达的主要差异。基因组生物学。2003年；4：R17.doi:10.1186/gb-2003-4-3-R17。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Ryu B，Jones J，Blades NJ，Parmigiani G，Hollingsworth MA，Hruban RH，Kern SE。通过大规模基因表达序列分析检测胰腺癌之间的关系和差异表达基因。癌症研究。2002;62:819–826.[公共医学][谷歌学者]
Baggerly KA，Deng L，Morris JS，Aldaz CM。SAGE中的差异表达：解释正常的库间变异。生物信息学。2003年；19：1477–1483。doi:10.1093/bioinformatics/btg173。[公共医学] [交叉参考][谷歌学者]
Walter-Yohrling J，Cao X，Callahan M，Weber W，Morgenbesser S，Madden SL，Wang C，Teicher BA。促进侵袭的恶性细胞表达基因的鉴定。癌症研究。2003年；63：8939–8947。[公共医学][谷歌学者]
Baggerly KA，Deng L，Morris JS，Aldaz CM。SAGE的过度分散逻辑回归：建模多组和协变量。BMC生物信息学。2004;5：144.doi:10.186/1471-2105-5-144。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Casella G，Berger RL公司。统计推断。2.加利福尼亚州太平洋格罗夫：杜克斯伯里；2002[谷歌学者]
Gelman A、Carlin J、Stern H、Rubin D。贝叶斯数据分析。第二。佛罗里达州博卡拉顿：CHAPMAN&HALL/CRC；2004[谷歌学者]
夏皮罗DE。诊断测试的解释。统计方法医学研究。1999;8:113–134. doi:10.1191/09622809966628387。[公共医学] [交叉参考][谷歌学者]
SAGE精灵：http://cgap.nci.nih.gov/SAGE网站
Boon K、Osorio EC、Greenhut SF、Schaefer CF、Shoemaker J、Polyak K、Morin PJ、Buetow KH、Strausberg RL、De Souza SJ、Riggins GJ。正常和恶性基因表达的解剖学。[评论]美国国家科学院院刊。2002;99:11287–11292. doi:10.1073/pnas.152324199。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Vishwanatha JK，Chiang Y，Kumble KD，Hollingsworth MA，Pour PM。annexin II在人胰腺癌细胞和原发性胰腺癌中的表达增强。致癌。1993;14:2575–2579.[公共医学][谷歌学者]
Paciucci R、Berrozpe G、Tora M、Navarro E、Garcia de Herreros A、Real FX。用消减杂交法从SK-PC-1胰腺癌细胞中分离组织型纤溶酶原激活物、组织蛋白酶H和非特异性交叉反应抗原。FEBS信函。1996;385:72–76. doi:10.1016/0014-5793（96）00352-3。[公共医学] [交叉参考][谷歌学者]
阿格雷斯蒂A。分类数据分析。2.新泽西州霍博肯：约翰·威利父子公司出版；2002[谷歌学者]
Williams DA。logistic线性模型中的瘤外变异。应用统计学。1982;31:144–148. [谷歌学者]
Welch BL。当涉及几个不同的人口方差时，“学生”问题的泛化。生物特征。1947年；34:28–35.[公共医学][谷歌学者]
Vencio RZ，Brentani H，Patrao DF，Pereira CA。基因表达序列分析（SAGE）中类内生物变异性的贝叶斯模型BMC生物信息学。2004;5：119.doi:10.186/1471-2105-5-119。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Manly KF、Nettleton D、Hwang JT。基因组学、先验概率和多种假设的统计检验。基因组研究。2004;14:997–1001. doi:10.1101/gr.2156804。[公共医学] [交叉参考][谷歌学者]
Choe SE、Boutros M、Michelson AM、Church GM、Halfon MS。通过完全定义的控制数据集揭示Affymetrix基因芯片的首选分析方法。基因组生物学。2005;6：R16.doi:10.1186/gb-2005-6-2-R16。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
开普勒TB，Crosby L，Morgan KT。通过自我一致性和局部回归对DNA微阵列数据进行规范化和分析。基因组生物学。2002;三：RESEARCH0037.doi:10.1186/gb-2002-3-7-RESEARCH0037。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Wright GW，Simon RM。检测小型微阵列实验中差异基因表达的随机方差模型。生物信息学。2003年；19:2448–2455. doi:10.1093/bioinformatics/btg345。[公共医学] [交叉参考][谷歌学者]
Cui X，Hwang JT，Qiu J，Blades NJ，Churchill GA。通过缩小方差分量估计值改进差异基因表达的统计检验。生物统计学。2005;6:59–75. doi:10.1093/biostatistics/kxh018。[公共医学] [交叉参考][谷歌学者]
刘易德（LIoyd CJ）。分类数据的统计分析。纽约州纽约市：JOhn Wiley&Sons；1999[谷歌学者]
Breslow NE。对数线性模型中的超泊松变化。应用统计学。1984;33:38–44. [谷歌学者]
R开发核心团队。R：用于统计计算的语言和环境。奥地利维也纳R统计计算基金会；2003[谷歌学者]
SAGE过分散对数线性模型的网站：http://dulci.biostat.duke.edu/sage

文章来自BMC生物信息学由以下人员提供BMC公司

识别多个SAGE库中的差异表达：一种过度分散的对数线性模型方法

陆军

约翰·K·汤福

托马斯·开普勒

关联数据

摘要

背景

结果

结论

背景

结果

过分散对数线性模型：一个案例研究

表1

模拟研究

表2

胰腺癌数据集

表3

表4

表5

表6

讨论

方法

数据

两个样本t吨-测试

这个t吨w个-测试

过度分散的logistic回归方法

过度分散的对数线性模型

作者的贡献

补充材料

致谢

工具书类

这个t吨_w个-测试