比较两组 我们首先比较最初在Zhang等人[ 2 ]. 这8个库包括两个正常结肠(NC1和NC2)、两个原发肿瘤(TU98和TU102)和四个细胞系(CACO2、HCT116、RKO和SW837)。 目前,我们重点比较正常结肠和所有肿瘤,原代或细胞系。 表中给出了标签计数和相应的库大小 2 .Aχ 2 对两组中每一组的合并计数进行测试,得出的测试统计量为444.27; 空值的95%截止值 分布为3.84,高于此值的值被视为“显著”。 两个样本 t吨 -对两组比例进行测试,得出1.60; 空值的95%截止值 t吨 6 分布为±2.45,因此该测试表明差异不显著,表明专注于不同部分变异性的测试之间可能存在明显分歧。 这个 t吨
w个
Baggerly等人提出的统计数据[ 12 ]合并了这两种类型的方差,得到了1.60的检验统计量。 在这种情况下,此测试统计的空分布近似为 t吨 6 分布,定性结果与 t吨 -与合并测试相比,测试反映了患者异质性在驱动该标签总变异方面的相对优势。 我们顺便注意到,这两种测试之间的分歧并不是孤立的事件。 当我们调查这组库中的所有标签时,我们发现有10个标签| t吨 |<2和χ 2 >200和48个标签| t吨 |<2和χ 2 > 50. In Baggerly等人[ 12 ]研究发现,当使用集合测试时,大多数高计数标签出现显著差异,而当使用 t吨 -测试已经过尝试,在这种情况下 t吨 -测试更有可能是正确的。
表2 SAGE样本库中的标签计数。 Zhang等人[2]的8个结肠文库中标签ATTTGAGAG、TGCTGCCTGT和GCGAAACCT的计数和比例; 两个正常结肠(NC)、两个原发性肿瘤(TU)和四个细胞系。 三个logistic回归模型的结果与数据相符,如表所示 三 在第一个模型中,不允许存在过度分散,在第二个模型中使用了拟似然方法来处理过度分散,而在第三个模型中则使用了分层方法来处理过分散。 这里,协变量的值 X(X) 分别为0或1,因为库位于第一组或第二组中。 在型号1和2中,配合比例为 = e(电子) -4.66 /(升+ e(电子) -4.66 )=0.94%和 = e(电子) -4.66 - 0.89 /(l)+ e(电子) -4.66 - 0.89 )第一组和第二组分别为0.39%,模型3中的比例仅略有改变。 我们注意到,前两个模型的估计系数值完全相同,通常这两种方法也是如此。 在不考虑过度分散的情况下对模型进行拟合,可以得到 z(z) -的值 β 1 / s.e.公司。 ( β 1 )=-20.42,这绝对重要。 注意,该值的平方与χ得出的值的顺序相同 2 测试。 该模型的皮尔逊残差, 然而,这表明了一个问题。 如果模型拟合良好,则应将其近似作为标准正态分布,并将一组8个观测值的极值在3或4量级左右。 实际值-14.6和19.0太过极端。 当模型适合于考虑过度分散的容差时,分散参数的点估计为 = 187.57; 如果没有过度分散,这个值应该接近1。 有了这个津贴 t吨 --1.49的值不再显著。 这个 t吨 -值可以从第一个 z(z) -值(-20.42)除以 = 13.70. 同样,对残差进行缩放,得出的值与标准法线相称得多。 我们注意到,由于所用模型的差异,测试统计数据的假定分布发生了变化。 如果我们假设不存在过度分散的标准logistic模型成立,则检验统计量具有近似正态分布。 这是因为总成功次数将二项分布推向近似正态分布。 当我们转向假设存在过度分散的模型时,测试统计现在有一个 t吨 分配。 这是因为我们对方差的估计现在强烈依赖于我们估计过度分散参数的精度,而这种精度取决于库的数量,而不是成功的数量。 将该模型与过度分散的分层类型(表中的模型3)进行拟合 三 ,得出的答案略有不同,但大小 仍然不重要。 不同之处在于 之前发现的值是由于在这个模型中,每个比例的过度分散量随库大小略有变化,从而改变了回归模型中使用的权重。 分层离散参数的点估计 φ 是 = 3.399 e(电子) -03,所以二项式方差的乘数是
表3两组的Logistic回归模型。 Logistic回归拟合表2中标签ATTTGAGAG的正常结肠和癌症样本的对比。 第一种模型不考虑过度分散,后两种模型以不同的方式引入。 引入过分散很重要,因为它会显著影响结果,但选择过分散方法则不那么重要。
1
+ ({ n个
我
} - 1) =
(169.62, 165.78, 141.62, 190.32,
207.26, 190.12, 175.35, 208.84).
平均这些值得出181.11,接近于准似然色散参数的值。 我们注意到,模型2和模型3的系数值的差异在很大程度上是表面的,但模型1和其他模型之间的显著性差异并不是。 选择解释过度分散比实现这一点所用的精确模型更重要。
我们注意到,过度分散的逻辑回归方法给出了 t吨 -值约为-1.49,而两个样本 t吨 -测试和修改后的版本 t吨
w个
Baggerly等人建议[ 12 ]两者都给予 t吨 -值约为-1.6(如前所述 t吨 和 t吨
w个
建议对于此标记,between-library变体比within-library变体大得多)。 这种差异有两个原因。 首先 t吨 统计适用于比例量表,logistic回归适用于 β scale,大致是对数比例标度。 其次 t吨
w个
此处使用的统计数据,
不假设所比较的两组中的过度分散系数相同; 方差估计值未合并。 后一种差异实际上对这种对比更为重要,特别是因为第一组2的方差估计值非常不稳定。 这种影响并不总是微妙的; 如果我们考虑标签GCGAAACCCCT,其计数在表中给出 2 ,两个样本 t吨 测试和加权 t吨
w个
检验均为-1.57,logistic回归 t吨 值为-4.16。
在这两个答案中,我们倾向于选择逻辑回归拟合给出的答案,原因有二。 首先,当我们直接将β分布的参数拟合为比例时,我们发现分布非常倾斜。 因此,我们发现最好假设 β 系数标度。 其次,当一个组中的库数量非常少(SAGE数据通常是这样的)时,我们更喜欢对方差进行合并估计。 这种偏好在很大程度上是由于它通过使用更多自由度而具有更大的稳定性。 在逻辑回归中,可以明确地纳入随协变量变化的过度分散水平,但我们在这里并没有追求这一点。
比较三个或更多组 如上所述,我们将结肠文库视为来自两组,但更自然的是将其视为来自三组:正常样本、原发肿瘤和细胞系。 当我们有来自多个组的数据时,有两种不同的方式可以改变问题的性质。 首先,如果我们只对比较两个组感兴趣,那么将其他组的数据合并到模型中通常是值得的。 原因是,当过度分散导致方差时,我们的结果的重要性在很大程度上取决于估计过度分散参数的精度。 未直接参与兴趣比较的组中的库仍然可以提供关于过度分散参数的信息,并增加相关t检验的自由度。 其次,通过检查所有组的拟合比例,可以评估过渡的相对大小。
我们首先查看Zhang等人在论文中标记为感兴趣的单个标签的结果[ 2 ]即TGCTGCCTGT,我们假设最感兴趣的对比是正常结肠和原发肿瘤之间的对比。 表中给出了此标签的计数和相应的库大小 2 .
我们首先尝试比较正常结肠和原发性肿瘤中的水平,而忽略细胞系(即仅使用四个库),然后使用包含所有三组的模型。 使用具有分层过度分散的逻辑回归的结果如表所示 4 .
表4从两组扩大到三组的对比。 Logistic回归模型检验正常结肠和原发肿瘤之间差异的意义( β 1 )用于表2中的标签TGCTGCCTGT。 在第一个模型中,只使用直接涉及的四个库中的数据。 在第二个模型中,还包括来自四个细胞系库的数据,从而对过度分散参数提供了更稳定的估计 φ . 在只有两组的模型中,我们有一个协变量向量 x个 1 =(0,0,1,1)表示该库属于两组中的哪一组。该模型产生的过度分散估计为 = 8.938 e(电子) -05,通货膨胀系数
1
+ ({ n个
我
}-1) =(5.43、5.33、4.70、5.98)。
事实上,这些因素明显大于1,这表明组内异质性是模型未解释的方差的主要组成部分。 在三组模型中,我们不能使用单个协变量向量 x个 1 ,因为这不适合以无序的方式指示3个或更多组(分别对这三个组使用0、1和2将通过说原发性肿瘤是正常样本和细胞系之间的中间来强制排序)。 一般来说,如果我们有 k个 组,我们需要使用 k个 -1个协变量向量。 在这里,我们使用 x个 1 =(0,0,1,1,0,0,0)和 x个 2 = (0, 0, 0, 0, 1, 1, 1, 1). 所有0s的集合( x个 1 =0时, x个 2 =0)对应于第一组,这里是正常冒号,其他组由其他协变量中的一个非零定义:组2(原色)( x个 1 = 1, x个 2 =0),组3(细胞系)( x个 1 =0时, x个 2 =1)由于我们仍然关注正常结肠和原发肿瘤之间的差异,因此logit值为 β 0 和 β 0 + β 1 主要关注的是 β 1 与零和细胞系组的预测logit显著不同, β 0 + β 2 ,不直接输入问题。 拟合此模型会产生以下过度分散估计 = 1.160 e(电子) -04,对于通货膨胀系数
1
+ ({ n个
我
} - 1) =
(6.76, 6.62, 5.80, 7.46,
8.04, 7.45, 6.95, 8.09).
在这两种情况下(考虑两个组或三个组),正常结肠和原发肿瘤之间的对比,表示为
一旦考虑到过度分散,就显得很重要,但有一点值得注意。 即使包括细胞系时过度分散的点估计值增加 t吨 -统计( / 瑞典 ( ))与差异下降相关的p值表明显著性增加。 在不使用细胞系的情况下,我们只有4个库,在估计各组的平均比例后,估计的自由度只有2度 φ 。当我们使用细胞系时,我们有8个库和5个自由度用于估计 φ 因此 t吨 -测试从2变为5。 这个 t吨 2 分布有非常广泛的截止点,并且 t吨 5 更接近正常。 一般来说,包含相关组可以通过提高我们对过度分散估计的精度来改进估计。
当然,在将模型与三组进行拟合时,我们也获得了查看其他对比的能力。 例如,我们可以比较正常结肠和细胞系,其中logit是 β 0 和 β 0 + β 2 分别通过检查 同样,我们可以观察原发性肿瘤和细胞系之间的差异,logits是 β 0 + β 1 和 β 0 + β 2 通过测试差异的显著性 虽然表中没有直接列出这种显著性,但我们可以计算出这种对比的标准误差, s.e.公司。 ,将估计除以其标准误差,得到具有所列自由度的t统计量(此处为5),并相应地计算p值。
还可以对各组之间是否存在任何显著差异进行综合测试,即比例的逻辑方差分析。 常规ANOVA测试查看模型中感兴趣的术语解释的方差量,并将其与剩余方差量进行比较。 根据每组的自由度进行调整,可以得到 F类 -测试。 在处理广义线性模型时,数量-2*log(似然比),即偏差,在ANOVA中起着类似于方差的作用,因此我们可以说是偏差分析。 由于模型中包含了过度分散,偏差分析变得复杂,需要一种多步骤的方法,其中几个不同的模型可以连续拟合。 表中列出了这些型号 5 首先,使用所有可用的协变量对模型进行拟合,并估计过分散参数。 这里,可用的协变量是 x个 1 和 x个 2 ,并将完整模型与现有模型进行拟合, β 0 + β 1 + β 2 ,给出 = 1.160 e(电子) -04,如上所述。 其次,子模型与输入的过分散值相匹配。 在这种情况下,子模型为 β 0 + β 2 ,使用 x个 2 作为唯一的协变量, β 0 + β 1 ,使用 x个 1 作为唯一的协变量,以及 β 0 ,不使用协变量,只对所有数据进行单一比例拟合。 结果如表所示 5 通过将偏差的比例减少与比例残差与适当的 F类 分配。 例如,在这里测试整个模型是否包括 β 1 和 β 2 解释事情要比完全符合相同比例要好得多( β 0 )减少到
表5偏差分析。 各种子模型的偏差表与表2中给出的标签TGCTGCCTGT的数据相符。 所有这些模型都使用最广泛模型的过度分散值, = 1.160 e(电子) - 04.
表明各组之间的总体差异在5%水平上不显著。 可以注意到,子模型包括 β 1 除了常数似乎解释得很少; 这是由于我们选择参赛作品的方式 X(X) ,从而包括 β 1 分离原发肿瘤组的影响,但排除 β 2 仍将正常结肠组与细胞系组进行对比。 后一种分类模糊了正常结肠与原发肿瘤的区别,发现前者稍大一些。
合并其他协变量 可以使用逻辑回归方法在多个利益影响之间划分方差。 例如,在上面的部分中,我们考虑了一个从原发肿瘤和细胞系中提取结肠文库的案例。 这些数据也适用于其他器官,如胰腺。 如果我们有兴趣确定原发性肿瘤和细胞系之间的一致性差异,那么使用这两种器官类型的库是很自然的。 然而,如果将其作为两组进行比较,即原代细胞系与细胞系,则由于原代细胞组和细胞系组内的组织类型之间存在较大差异,因此很难分离出差异。 解决方法是用两个协变量拟合一个模型 x个 1 样本分别为结肠或胰腺时为0或1,以及 x个 2 样本为0或1分别是原发肿瘤或细胞系。 推理简化为测试 β 2 ,只有在组织类型变化的影响之后才能评估自然变化的规模, β 1 ,已被排除在外。
在上面的例子中,我们考虑了另一种效果,即组织类型。 原则上,可以通过包含其他协变量来考虑多种因素。 同样,尽管上述示例中的两个协变量都是具有有限数量无序水平的“因子”,但也可以在建模过程中包括连续协变量。
为了说明这一点,我们使用表中GCGAAACCCT标记的计数给出了两个假设示例 2 在第一个例子中,我们假设我们正在尝试评估正常组织和原发性肿瘤之间的差异,如图所示,前4个库来自正常结肠和原发肿瘤,其余4个库不是来自细胞系,而是来自正常组织(库5和库6)和原发癌(库7和库8) 来自其他器官。 如上所述,这导致了一种情况,即我们希望用两个协变量拟合模型: x个 1 =(0,0,1,1,0,0,1,1),表示库是正常的(0)还是原发肿瘤(1),以及 x个 2 =(0,0,00,1,1,1),表示库的来源器官。 在第二个例子中,我们假设除了上述信息外,我们还可以获得潜在预测生存率的生物标记物水平。 这些水平作为第三个协变量向量的值提供, x个 三 = (0.89, 0.35, 0.66, 0.23, 0.30, 0.54, 0.90, 0.90). 的值 x个 三 从均匀分布中随机抽取。 在拟合模型方面,力学与前面介绍的相似。 模型拟合如表所示 6 .
表6将协变量纳入模型。 处理表2中标签GCGAAACCCT计数拟合的模型,假设细胞系分配给正常组织B(库5和6)和癌组织B(库7和8)。 本部分旨在说明两种不同的影响,正常与癌症以及组织A与组织B( β 1 和 β 2 可根据其重要性进行划分。 在模型2中,我们进一步引入了一个连续的协变量( β 三 )与生物标志物的水平相对应,以显示如何将其计算在内。 当逻辑回归中断时 逻辑回归拟合过程可能会失败,或表现出缺乏收敛性。 通常,这意味着其中一组中的所有比例为零或一; 只有前者在SAGE数据的背景下才是现实的。 这是很自然的,因为组比例的最大似然点估计为0 β 涉及到第二组中比例的折叠变化,导致被零除。 当比例如此之小时,二项式变异性主导了异质性,并且这些值对于过度分散的估计是完全无信息的。
我们提出了一种迭代性质的修复方法,因为它需要运行三次逻辑拟合例程。 为了说明这个过程,我们将使用表中标签ATTTGAGAG的数据 2 ,前两个标签计数(来自组1)设置为零。
第一次运行拟合程序是为了估计过分散参数。 这种拟合只使用计数不为零的组,忽略了有问题的组。 在这里,这涉及到将一个比例与第2组中的六个库相匹配。 拟合比例为0.40%,超差估计为
= 3.71 e(电子) - 03.
第二次拟合过程采用给定的过分散参数,并在用相同的非零小比例替换组中的零比例后对数据进行拟合,为我们提供了一个保守的折迭变化估计值。 这种类型的替换是常用的,并且最常见的是通过对比例的模糊先验分布的假设来证明,其中点估计被导出为后验平均值或模式。 在处理比例时,先验的一个常见假设是均匀分布。 成功0次后的后验平均值 n个
我
试验为1/( n个
我
+ 1); 如果进行多次试验,则为1/(∑ n个
我
) + 1). 这就是我们使用的价值。 由于两个原因,这个值实际上非常保守。 首先,均匀分布使比例超过百分之几的可能性大大增加,这在SAGE数据中是无法观察到的。 将分布限制在[0,0.02]范围内是均匀的,这应该是足够的。 其次,过度分散的存在意味着汇集样本低估了观测比例的零方差所提供的小比例证据。 虽然我们可以追求一个更优化的比例,但在这种情况下,我们选择简单地使用上面提到的简化界限。 在这里,由于第一组中的库大小为49610和48479,比例为1/(49610+48479),伪造计数分别为0.506=49610/(49610/48479)和0.494。 表中显示了此拟合的一些重新格式化结果 7 (模型1)。
表7拟合嵌套偏差模型。 将嵌套模型拟合到数据中,以获得偏差分数。 模型之间偏差的差异更好地表明了相关影响的重要性( β 1 )当logistic回归拟合接近空间边界时,比例接近于零。 这种拟合的结果是荒谬的“微不足道”。 问题在于使用 t吨 -值(Wald检验)依赖于最大值附近的似然函数的近似正态性,如果一组中的计数数量较少,则此形状假设将严重破坏。 基于标度偏差变化的测试(与似然比测试相对应)更好。
第三次拟合过程适用于一个更简单的子模型,在这种情况下,所有八个库的比例都是单一的,使用相同的过度分散估计来测量偏差的变化。 该拟合结果如表所示 7 (模型2)。 显著性偏差检验分析
在这里,我们不能得出结论(考虑到过度分散的程度),这种差异是真实的。 注意,分母中使用的自由度为5; 这是因为只有6个库用于估计过分散参数,而估计比例需要6个自由度中的一个。
一般来说,当任何组的计数非常少时,检查偏差的变化是一个好主意。