总结
荟萃分析的一个主要困难是发表偏倚。与报告负面或非决定性结果的研究相比,有积极结果的研究更有可能发表。如果没有不可验证的假设,就不可能纠正这种偏见。本文讨论了使用精确条件分布对2×2表进行元分析的敏感性分析。使用马尔可夫链蒙特卡罗EM算法计算最大似然估计。提出了一种提高估计精度和自动选择迭代次数的规则。
1.简介
荟萃分析被广泛用作总结和合并个人研究结果的方法。我们考虑一个最简单但最常见的案例,每个研究都是将相同的两种治疗方法进行比较,并得出二元结果:荟萃分析的目的是对总体log-odds比率进行单一的“最佳”估计。然而,正如人们越来越认识到的那样,元分析充满了统计困难。见艾格和史密斯(1995)他们回顾了一个著名的例子,其中基于meta分析的结论随后与大规模随机试验的结果相矛盾。
主要的统计问题是,分析是估计一个总体参数,通常被认为是所有可能研究的平均治疗效果,并默认正在审查的研究是来自该总体的随机样本。显然,没有明确的抽样方案支持这一假设。主要(但并非唯一)困难是发表偏倚事实上,与报告负面或非决定性结果的研究相比,有积极结果的研究更有可能被撰写和发表。通常的解释是,荟萃分析中的大型研究将给出真正无偏见的估计,但小型研究将有积极的偏见。标准的荟萃分析方法忽略了这个问题,因此往往会高估治疗效果。艾格和史密斯(1995)认为这就是他们讨论的误导性结果的原因。最近,萨顿等。(2000)对48项荟萃分析进行了评估,发现大约一半的人有明显的发表偏见的迹象。
在有关荟萃分析的文献中,有几种建议的方法用于“测试”和“纠正”发表偏倚。艾格等。(1997)建议通过测试漏斗图中的趋势(研究结果与研究样本量的关系图),对发表偏倚进行简单测试。“纠正”出版偏差的方法包括使用加权函数的选择模型(如套期保值(1984,1992)Iyengar和Greenhouse(1988)亲爱的Begg(1992)和西利曼(1997a) )、贝叶斯方法(例如Givens等。(1997)和西利曼(1997b) )和“修剪和填充”方法(Duval和Tweedie,2000a、 b)。所有这些方法都是基于假设的,例如,贝叶斯方法假设未发表研究数量的先验分布,修剪和填充方法假设真实研究效果的总体具有强烈的对称性。但正如最近对整个领域的回顾所指出的那样(Song等。,2000)
“出版物和相关偏见的范围、方向和影响是不确定的,根据情况可能会有很大差异”。
因此,几乎不可能验证各种“校正”方法中使用的假设。我们建议敏感性分析是一种替代的、更合理的方法;参见Copas和Li(1997),科帕斯(1999)还有科帕斯和施(2000)其中,提出了一种使用随机选择模型来表示潜在出版过程的敏感性分析方法。然而,该方法假设个别研究估计值与已知方差呈正态分布,因此仅适用于研究样本量足够大的2×2表格情况。本文的目的是扩展该方法,以涵盖小样本和中等样本量,这在实践中是常见的。
为了修正这个符号,假设一项典型的研究n个t吨案例和n个c(c)控制和二项式结果
(1)
本研究的log-odds比率为
(2)
如果n个t吨和n个c(c)足够大,实证logistic转换
(3)
与平均η近似正态。然后可以使用为正常结果设计的方法来分析X(X)然而,如果n个t吨和n个c(c)不是很大,或者如果πs是这样的Y(Y)t吨或Y(Y)c(c)可以接近0或n个t吨或n个c(c)。
对于测试单个2×2表,通过替换通常的χ来解决频率小的问题2-Fisher精确测试。这将边际推断替换为基于给定边际总数的频率条件分布的推断。对于几个2×2表,假设的公共对数比值的条件和无条件估计是渐近等价的,但如果表的数量很大,则无条件估计可能有偏差(例如,参见Cox和Snell(1989)第103页和鲁宾(1981)). 这激发了本文中使用的条件似然方法,其中Y(Y)t吨+Y(Y)c(c),以及n个t吨和n个c(c),视为固定。
如果我们假设每项研究的log-odds比η都是常数,则可以使用Mantel–Haenszel估计或条件最大似然估计(例如,参见McCullagh和Nelder(1989)). 然而,在荟萃分析中,我们必须始终考虑研究之间的异质性(Copas和Shi,2000; 莫里斯和诺曼德,1992),这样做的标准方法是假设η是一个随机效应。当方程近似正态时(三)可以假设,可以进行相对简单(非迭代)的随机效应分析(DerSimonian和Laird,1986). 但在条件方法中,评估最大似然估计更为困难,因为似然函数涉及对随机效应分布的积分。在本文中,我们展示了如何使用期望最大化(EM)和马尔可夫链蒙特卡罗(MCMC)算法来估计和敏感性分析出版物偏差问题。
EM算法的出现是因为每个2×2表中η的真值可以被视为丢失的观测值,而MCMC算法的出现则是因为EM算法中的E步涉及到关于随机效应分布的积分(基本上是Wei和Tanner的MCMC–EM算法(1990)). 我们将η视为一个潜在变量,并使用Metropolis–Hastings算法在每次迭代的E步中生成η的马尔可夫链,因此其平衡分布是给定当前未知参数估计值的η的条件分布。然后,该序列用于估计对数似然的期望值,而对数似然又用于更新M步中未知参数的估计值。
MCMC–EM算法实现中的两个重要问题是蒙特卡洛样本量的选择和用于监测收敛的停止规则(例如,参见Booth和Hobert(1999)). 在本文中,我们提出了一个简单的规则,可以提高估计的准确性,并且更简单地自动选择迭代次数。
本文的其余部分安排如下。第节讨论了具有异质性的2×2表的精确条件分布的荟萃分析模型2本节还讨论了MCMC–EM算法的实现细节和停止规则。在节中三,我们提出了一个具有研究选择和异质性的meta分析模型,并提出了敏感性分析的程序。小节2和三通过使用已发表的青少年犯罪研究的荟萃分析数据进行说明。第节讨论了一个医学示例4.第节5对模型的稳健性进行了简要评论。
2.异质性2×2表的Meta分析
2.1. 模型
根据最后一节的论证,我们将从现在开始假设边际总额Y(Y)t吨+Y(Y)c(c)已修复。概率Y(Y)t吨=年t吨有条件的Y(Y)t吨+Y(Y)c(c)=年是
(4)
其中最大值(0,年−n个c(c))≤k个≤最小值(年,n个t吨)、和
假设有米meta分析中的研究,其中我本研究是一个2×2的观察表年t吨我和年c(c)我,样本大小n个t吨我和n个c(c)我,和概率πt吨我和πc(c)我如分布(1)所示。让η我和x个我成为我th log-odds比率及其经验值,如方程式中所定义(2)和(三). 如果我们可以假设η我是常数,我们只需使用Mantel–Haenszel方法或条件最大似然法来估计常见的log-odds比率(例如,参见McCullagh和Nelder(1989)). 然而,如果我们考虑到异质性,问题就会变得更加复杂。我们将假设η我是随机效应,分布如下N个(μ,τ2)式中,μ是总平均log-odds比(是主要参数),τ2测量研究之间差异的大小。条件概率Y(Y)t吨=年t吨现在涉及一个积分:
(5)
式中,φ(●:μ,τ)是N个(μ,τ2). (更仔细地说,我们假设(η|Y(Y)t吨+Y(Y)c(c)=年)∼N个(μ,τ2),但由于边际总量Y(Y)t吨+Y(Y)c(c)=年包含关于η的很少信息,我们可以假设η和Y(Y)t吨+Y(Y)c(c)近似不相关,因此忽略此细化。)那么μ和τ的条件对数似然为
(6)
通常,用高斯求积可以非常有效地逼近低维积分。然而,方程中涉及的被积函数(5)多项式函数不能很好地逼近,因此方程的逼近(5)高斯求积可能非常不准确,这里的情况类似于对数正态模型的拟合(克劳奇和斯皮格曼,1990). 此外,由于条件似然(4)的计算即使对于单个2×2表也可能很繁琐(例如,请参见Cox和Snell(1989)第50页,麦库拉和内尔德(1989)(第7.4节),使用拉普拉斯方法或积分(5)的其他渐近逼近也效率低下。我们建议将下面列出的算法作为求μ和τ的最大似然估计的有效方法。正如我们将要展示的,这也可以相对简单地扩展,以涵盖2×2表的有偏选择的可能性。
2.2. 马尔可夫链蒙特卡罗EM算法
对于上述模型,一个自然的选择是使用EM算法处理潜在变量η=(η1,…,η米)作为缺失。让Y(Y)t吨是的向量米的值年t吨我,θ=(μ,τ)T型.给定θ的完整对数似然(Y(Y)t吨,η)为
(7)
哪里(f)(年t吨我|η我)由方程式给出(4). 对于中的E步骤(第页+1) 第次迭代,我们需要计算条件期望
(8)
其中θ(第页)是在第页第次迭代。在这个表达式和随后的表达式中,期望也是有条件的Y(Y)t吨我+Y(Y)c(c)我=年我,尽管我们没有在符号中明确说明这一点。因为方程没有解析形式(8),我们建议使用MCMC算法计算该E步长(例如,参见Wei和Tanner(1990)还有Booth和Hobert(1999)).
为此,我们生成A类随机向量{η1,…,ηA类}从条件分布第页(η|Y(Y)t吨,Y(Y)t吨+Y(Y)c(c)=年,θ(第页)),从而给出方程的蒙特卡罗近似(8)作为
(9)
在M步中,我们通过最大化方程更新θ(8)或(9). 由于未知参数(μ,τ)仅涉及完整对数似然函数(7)的第二项,因此最大似然估计相当简单:
(10)
这里是?η和五是η分布参数的充分统计量。最大化方程(8)在M步中,相当于通过条件期望更新μ和τE类(¯η|Y(Y)t吨,θ(第页))和E类(五|Y(Y)t吨,θ(第页))分别是。再次记住,这些有条件的期望也取决于Y(Y)t吨我+Y(Y)c(c)我=年我MCMC–EM方法的思想是通过样本平均值(η1+…+¯ηA类)/A类和(五1+…+五A类)/A类,式中?η一和五一是η的样本平均值和标准误差一=(η1一,…,η米一)T型分别是。这相当于最大化方程(9)。
我们使用Metropolis-Hastings算法(Metropolis等。,1953; 黑斯廷斯,1970)从条件分布生成随机变量η
哪里(f)(年t吨|η) 由方程式给出(4). 其思想是构造一个马尔可夫核,其不变测度为上述密度函数。假设η(一)是在一第次迭代。然后在(一+1) 第七次迭代,我们从非周期循环跃迁密度中生成一个随机数ηq个(η(一),η)并接受为η(一+1)具有接受概率
一种可能性是q个(η(一),η)为正态分布的密度函数N个(η(一),Σ*2个),其中∑*2是一个适当的预先指定常数,可以通过多种不同的方式选择,例如,提供接近0.5的观测接受概率(例如,参见Carlin和Louis(2000); 关于提高算法效率的讨论可以在Gamerman中找到(1997)). 在温和的规则性条件下,对于足够大的一,上述序列可视为第页(η|年t吨,Y(Y)t吨+Y(Y)c(c)=年)(见Tierney提供的证据(1994)). 因此,在足够大的老化迭代次数后,收集一系列观察结果,以评估所需足够统计的条件期望。实际上,该序列通常混合得很快,因此老化的长度并不重要。
2.3. 停止规则和标准错误
如何选择样本大小A类在MCMC中E步是算法实现中的一个重要问题。设θ(第页+1)和θ(第页+1)是估计值最大化方程(8)和(9)分别是。自方程(9)只是方程的近似值(8), θ(第页+1)是θ的估计值(第页+1)其准确性主要取决于样本量A类.使用泰勒级数展开式L(左)A类(θ|θ(第页))在θ(第页+1),很容易证明
哪里
和是全对数似然(7)关于θ的前两个导数。因此蒙特卡罗误差ɛ(第页+1)平均值和方差近似为零
为了减少蒙特卡洛误差,我们需要A类足够大。但是,从大值A类当θ(第页)与真实价值相去甚远,有人认为A类应该从一个迭代增加到下一个迭代(Wei和Tanner,1990; 麦卡洛赫,1994,1997; 布斯和霍伯特,1999). 在这里,我们提出了一个新方案,该方案不会增加A类但使用θ的平均值(第页)具体来说,我们计算平均“批量平均值”(例如,参见Bratley等。(1987)):
(11)
之后J型第次迭代。对于足够大的J型,方程中蒙特卡罗误差的平均值(11)变得可以忽略不计,因此我们可以假设,当批处理的平均值为?θ时,MCMC–EM算法正在收敛(第页)被视为稳定。标准停止规则用于监控批处理方式(例如,参见Searle等。(1992)还有Booth和Hobert(1999)). 当绝对差值||¨θ时,程序停止(第页)−¯θ(第页−γ0)||或相对差异
(12)
小于某个预定δ(例如0.001或更小)。在表达式(12)中,δ1选择以确保分母不太接近零(例如0.001)。当我们选择γ0=1,根据上述停止规则比较两个连续迭代的估计。为了避免由于马尔可夫链的连续元素之间的相关性而过早停止的危险,我们建议使用更大的γ值0,例如5,并要求在几个连续迭代中满足停止规则。根据我们的经验,在实践中采用带γ的停止规则就足够了0=5,连续五次迭代。
根据方程式(11)和EM算法的渐近理论(Dempster等。,1977; 吴,1983),批次平均值?θ(第页)有,很大第页和J型,近似平均值和方差O(运行){(青年成就组织)−1},其中是最大似然估计最大化方程(6). 因此,通过我们的平均方法和停止规则获得的估计可以被视为最大似然估计,并且整个过程大致相当于使用具有蒙特卡洛样本量的MCMC–EM算法青年成就组织,尽管实际上实际样本量只是A类对于所有迭代。此外,使用上述停止规则,算法可以更简单地实现自动化。
我们以安德鲁斯的荟萃分析为例等。(1990)世卫组织审查了大量关于青少年罪犯康复方案有效性的研究。这些都是病例对照研究,使用固定时间内的再次定罪作为二元结果测量。此荟萃分析的数据也用于Copas(1999)但在之前的两篇论文中,meta分析都是基于φ系数(χ的符号平方根)的渐近正态性2)因此,它与我们这里采用的log-odds比率方法没有直接的可比性。见安德鲁斯的附录等。(1990)为了获得完整的数据列表,我们分析了29张2×2表格,对应于Copas术语中的“更强的设计”(1999)。
为了演示我们的平均MCMC–EM算法,我们设置A类=50;图中给出了前150次迭代的μ和τ估计值。1这表明序列在大约50次迭代后收敛,之后的波动只是由样本大小预期的蒙特卡罗误差引起的A类=50.我们设定J型=60,这样可以在第60次迭代后计算平均值,这些是图中的完整曲线。1。我们可以预期,此算法的效果应该类似于样本量为3000的蒙特卡罗算法。为了看到这一点,我们增加了A类到第60次迭代后的3000,并重新计算估计值。它们是图中的断裂曲线。1这表明我们的估计值与通过以下方法获得的估计值进行了很好的比较A类=3000,我们应该从蒙特卡洛误差中得到小的差异。我们现在设置δ2=0.001和δ1=0.001. 如果取γ0=1,在第146次迭代时,如果我们取γ0=5.即使我们使用这两个规则中更严格的一个,用我们的平均方法从第60次迭代到第146次迭代的成本也小于用A类=3000。第146次迭代的最终估计值为。
图1
利用MCEM算法对青少年犯罪数据μ和τ的估计:。。。。。。,估计值A类=50;--,平均估计值;----,估计值A类=3000(带γ的停止规则(12)0在第80次迭代和第146次迭代中,分别满足5次连续迭代的1和5)
作为副产品对于MCMC–EM算法,也可以很容易地进行计算。路易斯(1982)显示了是
哪里和¨L(左)是方程的前两个导数(7)关于θ。对于MCMC–EM算法,这可以通过生成的随机样本进行估计。在第页第次迭代,它是
哪里
当算法停止时,可以通过平均值计算信息矩阵的最终估计
对于模型(7),前两个导数的表达式为
式中?η是{η的平均值1,…,η米}. 对于青少年犯罪数据由上述公式计算得出的τ分别为0.053和0.036。
2.4. 检查出版偏差
为了检查数据是否存在潜在出版偏见的迹象,我们查看了以下漏斗图x个我根据估计v(v)我,其中x个我是我研究和v(v)我2=变量(x个我|Y(Y)t吨我+Y(Y)c(c)我=年我). 青少年犯罪数据的漏斗图如图所示。2(a) ●●●●。很明显x个我往往越大越大v(v)我(较小的研究),出版偏见的预期后果。图中的虚线。2(a) 显示条件平均值E类(x个我|Y(Y)t吨我+Y(Y)c(c)我=年我)根据上述荟萃分析模型估计。在本图和后续图中,根据我们的模型计算的拟合值绘制时不是光滑函数v(v)我,因为它们以边际总数为条件年我当然,不同的研究会有所不同。
图2
青少年犯罪数据-(a)漏斗图和(b)无选择性模型的残差图:---,拟合线(条件平均值x个我)
图中明显缺乏拟合。2(a) 也显示为图中的残差图。2(b) ,其中残差定义为
使用Kendallτ第页我和v(v)我为0.35,带有P(P)-值为0.008。
为了更有力地测试出版偏见,我们可以采用Copas和Shi中建议的测试(2000). 这相当于假设
(13)
在模型(5)中,然后进行测试H(H)0:β=0,其中
(14)
以及在哪里n个=n个c(c)+n个t吨。这里我们使用空标准错误秒*而不是v(v)我,因为它是一个已知常数,因为年.实践中秒*以及v(v)我通常都很相似。对于具有分布(13)的模型(5),我们可以以与前面讨论非常相似的方式使用MCMC–EM算法,从而计算H(H)0对于青少年犯罪数据,最大似然估计为和。对数似然比为9.65,表示P(P)-值为0.002。该程序比Kendall的τ方法更强大,尽管在这种情况下,他们得出了相同的结论,即具有随机效应η~的模型(5)N个(μ,τ2)无法解释漏斗图中观察到的趋势。
3.具有选择性的荟萃分析
3.1. 模型
我们对发表偏倚的方法背后的基本思想是,有一个可比较的研究池,每个研究都遵循相同的模型(5),具有随机效应η,但元分析中只包括这些研究的一部分。让S公司是一项研究被选中的事件。为了模拟选择偏向于更大研究和更积极结果的研究的可能性,假设
(15)
哪里b条≥0,ρ≥0,Φ是标准正态分布函数x个和秒*由方程式定义(三)和(14)分别是。这里最重要的参数是ρ,它为选择概率和研究结果之间的关联建模x个。如果ρ=0,则这是无出版偏差的模型。如果ρ>0,则所选研究将偏向于具有较大值的研究x个因此,我们预计漏斗图中会出现趋势,如图所示。2(a) ●●●●。
Copas和Shi使用了公式(15)(2000)并受到样本选择的Heckman模型(Heckman,1976,1979). 这设想了两个方程:一个是模拟x个另一个是选择倾向。因此,假设
(16)
(17)
其中残差ɛ1和ɛ2假设为相关系数ρ的标准二元正态。在这里,z(z)被解释为倾向得分,当且仅当z(z)≥0.方程式下(16)和(17)条件选择概率P(P)(z(z)≥0|x个)等于等式(15). 参见Copas和Shi(2000)供进一步讨论。
在正态模型(16)和(17)下,选择研究的边际概率为
(18)
选择概率随着秒*减少,即随着研究规模的增加。使用方程式(15)根据我们的条件模型,给定的边际选择概率η为
(19)
哪里(f)(k个|η) 和q个(k个|η) 由方程式给出(4)和(15)分别是。因此,总体(无条件)边际选择概率为
(20)
示例表明问几乎不依赖于μ、τ和ρ的值,并且接近表达式(18),除了非常大的值秒*当ρ非常接近1时。图3(a)和图3(b)中的青少年犯罪数据说明了这一点。这些图表(一,b条)=(−1.5,0.5)并绘制(估计)准确概率(20)和近似概率(18)秒*和v(v)我们认为ρ接近1是不现实的,因为这意味着接受一项研究进行审查只是一个比较的问题x个具有固定阈值。因此,我们限制ρ<0.99,例如问基本上与ρ的值无关。因此,至少可以近似地解释一和b条如表达式(18)所示-一控制已发表研究的总体比例b条控制公布的比例如何取决于研究的规模。
如Copas和Shi所述(2000)显然无法估计一和b条,因为我们没有关于未发表研究数量的信息。敏感性分析通过推断以下参数μ、τ和ρ进行:固定的的值一和b条,然后检查任何结论在多大程度上取决于这两个参数的特定选择。实际上,推论的范围还将受到漏斗图拟合质量的限制。
对于的荟萃分析米研究,任何给定的逻辑相似性(一,b条)由给定该事件的条件分布定义S公司已发生。因此对数似然是
(21)
我们希望找到μ、τ和ρ的值,这些值可以使任何给定的(一,b条). 如下一小节所述,最后一节的MCMC–EM算法可以扩展到涵盖该选择模型。
3.2. 最大似然估计
如前所述,MCMC–EM算法将η视为缺失值。”θ=(μ,τ,ρ)时(\bf{Y},η)的完全对数似然T型现在是
哪里
根据前面的讨论,我们将ρ限制为不太接近1,以便L(左)三本质上与θ无关,因此可以视为常数。对于敏感性分析,估算的高精度在任何情况下都不是很重要。因此,(μ,τ)可以从L(左)1单独使用与围绕方程式讨论的公式相同的公式(10),ρ可通过以下公式估算L(左)2独自一人。
我们使用以下牛顿方法来近似估计M步处的ρ。这是一个子迭代:每次我们从当前估计值ρ更新ρ0通过
(22)
在这里,是条件期望值L(左)2/ψρ,可通过以下公式进行估算A类从E步生成的随机向量:
(23)
以类似的方式,我们可以估计–L(左)*2上述牛顿法非常有效,因为它只是一个单变量问题。
对于MCMC E步骤,我们需要从条件分布生成随机向量
如最后一节所述,再次使用Metropolis–Hastings算法。
对于我们设置的青少年犯罪数据A类=100和J型=100,取γ的停止规则0=5,δ=0.001和δ1=0.001. 在连续五次迭代满足停止规则后,我们停止迭代。以为例(一,b条)=(−1.5,0.5),迭代在第133次迭代时停止,最终的最大似然估计。
如果我们想获得更准确的估计,我们还应该包括L(左)三在方程式中(22)更新估算。通过在Tanner的讨论(1996),第113页,问在方程式中(20)可以近似为
哪里问(η) 由方程式给出(19)和η一是在E步生成的随机向量。从上述方程可以很容易地计算其前两个导数,并通过方程更新ρ(22)用相应的估计值代替L(左)2+L(左)三。在带有的示例中(一,b条)=(−1.5,0.5)如前所述,这给出了最终最大似然估计值。与上述结果相比,我们发现使用L(左)2单是一个合理的近似值。
3.3. 敏感性分析
对于给定的一对(一,b条),未知参数μ、τ和ρ按上述最大似然估计。由于μ是荟萃分析中的主要参数,我们的想法是开发一种敏感性分析来推断μ,允许以下一系列可能的值一和b条首先,我们使用近似边际选择概率(18)来确定(一,b条)根据Copas和Shi的提议(2000). 对于青少年犯罪数据,如果我们设置(一,b条)=(0,2),那么边际选择概率都接近1,这意味着几乎所有的研究都被选中了。如果我们设置(一,b条)=(−3,0.1),则即使是大型研究,边际选择概率也非常小。这是两种极端情况;合理的选择概率可能介于两者之间,例如(一,b条)=(−1.5,0.5). 对于这个选择(一,b条),我们已经在图中看到了三(a) 和三(b) 估计的边际选择概率的对应值及其近似值。三个最大研究的平均选择概率为0.63,三个最小研究的平均值为0.14。对于任何一对(一,b条),我们可以类似地计算这些选择概率,从而显示三个最大和三个最小研究的平均概率的轮廓,如图4(b) 和(c)。范围(一,b条)考虑似乎包括所有合理的出版偏见的可能性。
图3
青少年犯罪数据的荟萃分析和选择性模型结果(一,b条)=(−1.5,0.5):(a),(b)选择概率(--)及其近似值Φ(一+b条/秒*)(……)反对秒*和v(v)我; (c) 具有拟合值的漏斗图(---------);(d) 残差图
图4
青少年犯罪数据敏感性分析结果:(a); (b) 三个最大研究的平均选择概率;(c) 三个最小研究的平均选择概率;(d) 等高线P(P)-残差之间Kendallτ相关检验的值第页我和v(v)我; (e) 等高线P(P)-的似然比检验值H(H)0: β=0; (f)反对P(P)-似然比检验的值
显示最大似然估计相关性的等高线上的(一,b条)如图所示。4(a) ●●●●。在右上方,很少有研究选择,估计值为1.14,这与早期模型中的估计值相同,没有选择性。但左下角的估计值仅为0.4,这与出版偏差的高可能性相对应。更合理的点应该在图的中间;例如,我们已经注意到的(一,b条)=(−1.5,0.5).
的值还需要通过相应的拟合值和残差图进行判断,这些如图3(c)和3(d)所示(一,b条)=(−1.5,0.5). 这里绘制的数量是经验对数比值比x个我和以前一样有条件的标准偏差v(v)我=√无功(x个我|Y(Y)t吨我+Y(Y)c(c)我=年我,S公司),条件期望E类(x个我|Y(Y)t吨我+Y(Y)c(c)我=年我,S公司)和条件残差
这些是以选择事件为条件的S公司的所有函数也是一和b条。与图相比。2对于没有选择性的模型,图。三显示模型(一,b条)=(−1.5,0.5)很好地拟合了数据。
当然,其他值(一,b条)还将为漏斗图提供一个可接受的拟合,因此查看一些测量拟合质量的合适测试统计数据的轮廓是有用的。非正式方法是检查第页我和v(v)我Copas和Shi使用的更谨慎的方法(2000)是对前面提到的测试进行扩展,现在我们拟合分布(13),但在选择模型下,限制为ρ>0。接受任何特定对的β=0的无效假设(一,b条)表明选择模型对漏斗图中观察到的趋势给出了令人满意的解释。
对于青少年犯罪数据,我们说明了这两种方法。首先,我们使用Kendallτ来测试残差和v(v)我等于零,然后计算似然比检验H(H)0:β=0. 结果的轮廓P(P)-值如图4(d)和4(e)所示。与图比较。4(a) ,我们看到(一,b条)μ的较大估计值往往是较小(更显著)的估计值P(P)-值。在统一的数值网格上计算这些量(一,b条)让我们可以绘图反对P(P)-似然比检验的值,如图所示。4(f) ●●●●。注意如何随着P(P)-值从0开始增加。如果我们使用,μ的估计值必须从1.14降到约1.00P(P)=5%,作为我们获得满意配合的阈值。这表明出版偏见导致传统方法高估了平均治疗效果至少14%. 在我们达到预期的零点之前,μ的估计值下降到0.6左右,不到传统数字的一半P(P)-值为0.5。对于(一,b条)=(-1.5,0.5),我们在上面的一些计算中使用的值P(P)-Kendallτ的值和似然比检验的值分别为0.245和0.169,这两个值都表明这种出版偏差是合理的。
4.另一个例子
科帕斯和施(2000)使用法线近似x个我讨论对旨在评估选择性消化道净化对呼吸道感染风险的影响的研究的系统综述(史密斯等。,1995). 参见Smith的图8等。(1995)用于这些数据的漏斗图。科帕斯和施(2000)报告的原油(无选择)最大似然估计值μ和τ分别为1.28和0.65。这些数字与DerSimonian和Laird方法得出的估计值非常接近(1986) . 然而,在本次系统审查中年t吨和年c(c)接近n个t吨和n个c(c),以及的一些值年c(c)等于或非常接近0,因此在这种情况下,正常近似值有点可疑。
我们使用基于精确条件分布的模型重新分析这个示例。在没有选择的情况下,μ和τ的最大似然估计值分别为1.43和0.74,这与假设正态性时获得的估计值有显著差异。的似然比统计H(H)0:β=0为12.64,表明有很强的出版偏见证据。图的模拟。4(f) 说明了这一点必须从1.43降至1.0P(P)-价值上升到5%以上。正常模型的对应图如Copas和Shi中的图9所示(2000)这表明需要从1.28降到0.8才能获得可接受的配合。在本例中,正常模型(当年为0或n个)结果与这里开发的条件分析相比,大大低估了整体治疗效果。
5.评论
在本文中,我们使用方程(15)建立选择性偏差模型。这个公式在正常模型(16)和(17)下有一个明确的解释,通过将其边缘化为表达式(18),但在我们的条件模型下不一定合适。因此,值得检查的是,该分析是否对该公式的精确细节相当稳健。例如,可以在替换方程式后重新运行分析(15)通过物流等价物
我们发现μ的结果估计及其对P(P)-测量漏斗图拟合度的值非常相似。作为一和b条不能再通过边际近似来解释(18),我们在方程右侧的自变量中省略了分母(15)因为这相当于重新调整参数。对于此类替代模型,我们需要进行校准一和b条根据其他可解释的统计数据,例如未发表研究的预期数量(见Copas和Shi(2000)详细信息)。
确认
我们中的一个(JQS)得到了经济和社会研究理事会(Economic and Social Research Council)的资助。
工具书类
©2002皇家统计学会