跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
心理方法。作者手稿;PMC 2010年2月10日提供。
以最终编辑形式发布为:
预防性维修识别码:项目经理2819363
NIHMSID公司:美国国家卫生研究院173350
PMID:11928892

中介效应和其他干预变量效应的测试方法比较

摘要

蒙特卡罗研究比较了14种方法,以测试干预变量效应的统计显著性。干预变量(中介)将自变量的影响传递给因变量。常用的R.M.Baron和D.A.Kenny(1986)这种方法的统计能力很低。两种基于乘积分布的方法和两种不同的效率方法具有最准确的I类错误率和最大的统计能力,但在1种重要的情况下,I类错误比率过高。在所有情况下,I型误差和统计能力的最佳平衡是测试包含干预变量效应的两种效应的联合显著性。

本文的目的是比较用于测试模型的统计方法,其中自变量为(X(X))导致一个介入变量()从而导致因变量(Y(Y)). 许多不同的学科都使用这样的模型,其中术语、假设和统计测试只是部分重叠。在心理学中X(X)Y(Y)关系经常被称为调解(Baron&Kenny,1986年),社会学最初使这个词流行起来间接影响(Alwin&Hauser,1975年)在流行病学中,它被称为代理中间终点效应(Freedman&Schatzkin,1992年). 本文着重于对干预变量的影响进行的每个可用测试的统计性能。与干预变量效应定义相关的概念性问题的审议推迟到讨论的最后一节。

长期以来,心理学界一直提出假设,阐明干预独立变量和因变量之间的可测量过程(例如。,MacCorquodale&Meehl,1948年;伍德沃思,1928年). 这些假设是基础心理学和应用心理学许多领域理论的基础(Baron&Kenny,1986年;James&Brett,1984年). 为了体现这一重要性社会科学引文索引发现了2000多篇Baron和Kenny文章的引文,这篇文章为调查这些过程提供了一种重要的统计方法。涉及干预变量的假设和模型的例子比比皆是。在基本社会心理学中,意图被认为是态度和行为之间的中介关系(Ajzen&Fish-bein,1980年). 在认知心理学中,注意力过程被认为是刺激和行为之间的中介(Stacy、Leigh和Weingardt,1994年). 在工业心理学中,工作环境导致工作感知的干预变量发生变化,进而影响行为结果(James&Brett,1984年). 在预防性健康干预的应用工作中,计划旨在改变近端变量,而这反过来又有望对相关的远端健康结果产生有利影响(Hansen,1992年;麦金农,1994年;West和Aiken,1997年).

对1996年至1999年的心理学摘要进行的搜索产生了近200篇带有该术语的文章调解,调停,或干预在标题和其他许多文章中,研究了干预变量的影响,但没有使用这个术语。实验和观察研究均用于调查涉及干预变量的过程。对其中50篇文章的一个子集进行的调查发现,大多数研究一次只考察一个干预变量。尽管有很多文章建议研究干预变量的影响,但只有不到三分之一的子集包括干预变量影响的任何显著性测试。毫不奇怪,大多数进行正式测试的研究都使用了《男爵和肯尼》(1986)中介测试方法。三分之二的研究未能测试干预变量效应,其中一个原因是这些方法并不广为人知,尤其是在社会和工业组织心理学之外。一个不太合理的解释是,大量的替代方法使得研究人员很难决定使用哪种方法。下面描述的另一种解释是,大多数干预变量效应测试的统计能力都很低。

我们的审查找到了来自各种学科的14种不同方法,这些方法被提议用于测试涉及干预变量的路径模型(参见表1). 这些程序反映了它们不同的学科起源,在概念基础、被测试的无效假设、假设和估计的统计方法上各不相同。这种方法的多样性还表明,对于干预变量效应的定义,各学科之间没有达成坚定的共识。尽管如此,为了方便起见,这些方法可以概括为反映三种不同的一般方法。第一种通用方法是因果步骤方法,它指定了因果链中链接的一系列测试。这种方法可以追溯到贾德和肯尼(1981a,1981b)Baron和Kenny(1986)这是心理学文献中最常用的方法。第二种通用方法是在多个学科中独立开发的,它基于系数的差异,例如调整干预变量前后的回归系数之间的差异(例如。,Freedman&Schatzkin,1992年;麦奎根和兰霍兹,1988年;Olkin&Finn,1995年). 系数程序中的差异尤其不同,一些关于干预变量的测试假设在主要方面与心理学家传统上定义的中介不同。第三种通用方法起源于社会学,基于路径模型中涉及路径的系数乘积(即间接效应;Alwin&Hauser,1975年;博伦,1987年;福克斯,1980年;索贝尔,1982年,1988). 在本文中,我们保留中介模型参考因果步骤法贾德和肯尼(1981a,1981b)Baron和Kenny(1986)并使用术语介入变量参考已提出的全部14种方法。

表1

干预变量效应显著性检验总结

方法的类型估算显著性检验
因果步骤
贾德和肯尼(1981a,1981b)t吨N个2=τστ,t吨N个=βσβ,t吨N个2=ασα,τ=0
Baron&Kenny(1986)t吨N个2=τστ,t吨N个=βσβ,t吨N个2=ασα
α和β的联合意义t吨N个=βσβ,t吨N个2=ασα

系数差异
Freedman&Schatzkin(1992)τ – τ′t吨N个2=ττστ2+στ22στστ1ρX(X)2
麦奎根和兰霍兹(1988)τ – τ′t吨N个2=ττστ2+στ22(ρττστστ)
Clogg等人(1992年)τ – τ′t吨N个=ττρX(X)στ
Olkin&Finn(1995)简单负偏相关ρXY公司– ρXY公司。z(z)=ρX(X)Y(Y)ρX(X)Y(Y)σ奥尔金&芬兰

系数乘积
索贝尔(1982)一阶解αβz(z)=αβα2σβ2+β2σα2
Aroian(1944年)二阶精确解αβz(z)=αβα2σβ2+β2σα2+σα2σβ2
古德曼(1960)无偏解αβz(z)=αβα2σβ2+β2σα2σα2σβ2
MacKinnon等人(1998年)产品分销z(z)αz(z)βP(P)=z(z)αz(z)β
MacKinnon等人(1998年)αβ/σ的分布αβαβz(z)=αβα2σβ2+β2σα2
MacKinnon&Lockwood(2001)产品的非对称分布αβαβ±α2σβ2+β2σα2
Bobko&Rieck(1980)相关性乘积ρX(X)(ρY(Y)ρX(X)Y(Y)ρX(X))(1ρX(X)2)z(z)=ρX(X)(ρY(Y)ρX(X)Y(Y)ρX(X))(1ρX(X)2)σ博布科&里克牌手表

迄今为止,已有三项关于干预变量效应标准误差准确性的统计模拟研究,其中检查了系数乘积的一些变体和一种系数差异法(MacKinnon&Dwyer,1993年;MacKinnon、Warsi和Dwyer,1995年;Stone&Sobel,1990年). 另外两项研究包括一个小型模拟,以检查特定方法的标准误差公式(Allison,1995年;Bobko&Rieck,1980年). 迄今为止,还没有发表的研究对三种通用方法中的所有可用方法进行了比较。在本文中,我们确定了涉及干预变量的所有可用测试效果方法的经验I型错误率和统计能力。了解I类错误率和统计能力对于准确应用任何统计测试至关重要。统计能力低的方法往往无法检测到人群中存在的实际影响。如果一种方法的I类错误率超过了标称错误率(例如,对于标称α=0.05,大于5%),则有发现不存在影响的风险。涉及干预变量的影响的各种统计测试表明,它们在统计能力和I类错误率方面可能存在显著差异。我们首先描述了用于获得干预变量效应的点估计的方法,然后描述了标准误差和显著性检验。然后在仿真研究中比较了这些方法的准确性。

基本干预变量模型

用于估计基本干预变量模型的方程式如所示方程式1,2、和并在中描述为路径模型图1.

Y(Y)= β0(1)+ τX(X)+ ε(1)
(1)
Y(Y)= β0(2)+ τX(X)+ β+ ε(2)
(2)
= β0(3)+ αX(X)+ ε(3)
(3)

在这些方程式中,X(X)是自变量,Y(Y)是因变量,并且是中间变量。β0(1), β0(2), β0(3)人口回归截距在方程式1,2、和分别,τ表示中自变量和因变量之间的关系方程式1,τ'表示根据干预变量的影响调整的自变量和因变量之间的关系方程式2,α表示独立变量和干预变量之间的关系方程式3,β表示干预变量和因变量之间的关系,根据自变量的影响进行调整方程式2,并且∈(1), ∈(2),和∈(3)残差在方程式1,2、和分别是。为了便于表示,我们在所有方程中使用总体参数,认识到在实践中总体值被基于无偏样本的值所取代(例如,α由α^)我们的模拟报告了基于样本的人口参数估计。在本文中,我们假设十、 我、和Y(Y)具有多元正态分布,并且误差项是正态分布的。

保存图片、插图等的外部文件。对象名称为nihms-173350-f0001.jpg

干预变量模型的路径图和方程。

心理学研究人员传统上专注于测试关于干预变量的三种形式的假设之一:(a)一系列测试,以确定由贾德和肯尼(1981b)Baron和Kenny(1986); (b) 影响中涉及的每条路径的测试(α和β);或(c)两条路径(αβ)乘积的测试方程式2。虽然我们在下文中更全面地阐述了这些方法之间的一些相似之处和差异,但这里有一个相似之处很重要。一些方法(Baron&Kenny,1986年;贾德和肯尼,1981年,1981亿;麦奎根和兰霍兹,1988年)使用自变量系数(τ−τ')的差值方程式12估计干预变量效应的价值。如果模型中包含干预变量时,自变量系数(τ')与零没有显著差异,则结果与影响完全通过干预变量传递的模型一致(即。,H(H)o(o):τ'=0不能被拒绝,其中H0是无效假设)。MacKinnon等人(1995年)已经证明,对于普通最小二乘回归,τ−τ'在代数上等价于αβ,因此,τ–τ'检验和αβ检验的零假设是相同的。零假设的三种形式在方法上的优缺点是一个有争议的问题,我们将在讨论中重新讨论。我们还注意到,为测试干预变量效应而提出的一些方法测试了其他零假设。这些将在我们介绍14种方法时确定。

干预变量效应的因果步骤检验

基于因果步骤评估干预变量影响的方法需要测试三个变量之间的不同逻辑关系。对于要保持的基本干预变量(中介)模型,每一个都必须为真。如所示表1提出了三种不同的因果步骤方法,用于测试三种略有不同的假设。

工作中概述的因果步骤顺序贾德和肯尼(1981a,1981b年)最初是在探讨治疗产生结果的因果调解过程的背景下提出的。为了反映这一背景,Judd和Kenny进行了统计测试,以排除虚拟调解过程的一些替代方案X(X)M(M)Y(Y)重点关注,其中M(M)是一个中介变量。Baron和Kenny(1986)更明确地将Judd和Kenny方法扩展到自变量也被测量的环境中。虽然该方法的总体目的是建立贾德和肯尼认为调解发生所必需的条件,但因果步骤方法通过测试每个逻辑关系来确定干预变量效应的统计显著性。

以下描述的一系列因果步骤贾德和肯尼(1981b)Baron和Kenny(1986)只是略有不同。贾德和肯尼(1981b第605页)需要三个结论进行调解:(a)“治疗影响结果变量”(H(H)o(o):τ=0),(b)“因果链中的每个变量都会影响链中紧随其后的变量,此时之前的所有变量(包括治疗)都得到了控制”(H(H)o(o):α=0和H(H)o(o):β=0),和(c)“当调节变量得到控制时,治疗对结果没有影响”(H(H)o(o): τ’ = 0). Baron和Kenny(第1176页)定义了调解的三个条件:(a)“自变量水平的变化在很大程度上解释了假定调解人的变化”(H(H)o(o):α=0),(b)“中介变量的变化在很大程度上解释了因变量的变化”(H(H)o(o):β=0),和(c)“当路径a[α]和b[β]被控制时,自变量和因变量之间先前显著的关系不再显著,当路径c[τ']为零时,中介作用最强”(H(H)o(o): τ’ = 0). 条件c中的隐含要求是自变量和因变量之间的总体显著关系(H(H)o(o): τ = 0). 这两种变体之间的主要区别在于,Judd和Kenny强调了证明完全中介的重要性,当τ’=0的假设无法被拒绝时,就会出现这种情况。Baron和Kenny认为,只有部分中介(即|τ'|<|τ|)而不是完全中介的模型是可以接受的。他们指出,这种模型在大多数社会科学研究中更为现实,因为不能指望一个单独的调解人能够完全解释自变量和因变量之间的关系。

一些研究人员也使用了因果步骤方法的第三种变体(科恩和科恩,1983年第366页)。在这种变体中,研究人员声称,当对干预变量效应(α和β)中的每条路径进行单独测试时,有证据表明存在干预变量效应(H(H)o(o):α=0和H(H)o(o): β = 0). 该方法同时测试自变量是否与干预变量相关,以及干预变量是否与因变量相关。类似的测试也由Allison(1995年).Kenny、Kashy和Bolger(1998年)重申了Judd和Kenny的因果步骤,但指出α和β测试是建立调解的基本测试。该方法对路径α和路径β均等于0的同时无效假设进行了最直接的检验。然而,该方法既不能测试αβ产物,也不能测试整体X(X)Y(Y)关系。

总之,广泛使用的贾德和肯尼(1981b)Baron和Kenny(1986)因果步骤方法的变体明确规定了每个假设因果关系和这些联系的统计测试之间的概念联系。然而,正如在讨论中更深入地描述的那样,这两种方法探索但没有提供通过干预变量对因变量的因果效应进行强有力推断的全套必要条件,即使受试者在随机实验中被随机分配到自变量的水平(Baron&Kenny,1986年;荷兰,1988年;麦金农,1994年). 因为因果步骤方法的总体目的是建立调解条件,而不是对X(X)Y(Y)通过(例如,αβ),它们有几个局限性。因果步骤法不提供三种条件(条件a、b和c)的联合测试,直接估计X(X)Y(Y),或标准误差来构建置信限,尽管标准误差的间接影响X(X)Y(Y)在因果步骤方法的描述中给出(Baron&Kenny,1986年;Kenny等人,1998年). 此外,很难将因果步骤法扩展到包含多个干预变量的模型,也很难在包含多个介入变量的模型中分别评估每个介入变量的影响(例如。,麦金农,2000;West&Aiken,1997年). 最后,独立变量和因变量之间必须存在显著关系的要求排除了许多“不一致”的干预变量模型,在这些模型中,间接效应(αβ)和直接效应(τ’)具有相反的符号,并且可能相互抵消(MacKinnon、Krull和Lockwood,2000年).

干预变量效应的系数差异检验

通过比较调整干预变量前后自变量和因变量之间的关系,可以评估干预变量的影响。可以比较几个不同的系数对,包括上述回归系数(τ−τ')和相关系数ρXY公司− ρXY公司。尽管如下文所述,基于相关性的方法不同于其他干预变量效应的测试。在上述表达式中,ρXY公司是自变量和因变量与ρ之间的相关性XY公司。是自变量和因变量之间的偏相关,因变量被划分为中间变量。系数差异测试的每个变体在表1读者应该注意到,这些程序测试了一组关于干预变量的无效假设。

Freedman和Schatzkin(1992)开发了一种研究二元健康指标的方法,该方法可以扩展到调整后和未调整后回归系数之间的差异(H(H)o(o): τ − τ’ = 0). Freedman和Schatzkin根据经调整和未经调整回归系数的方差和协方差,导出了τ和τ'之间的相关性,可用于标准误差方程中:

σ弗里德曼沙茨金=στ2+στ22στστ1ρX(X)2.
(4)

在这个方程中,ρ十一等于自变量和中间变量之间的相关性σt吨是τ的标准误差,στ’是τ’的标准误差。τ−τ'的估计值除以公式4并将此值与t吨显著性检验的分布。

麦奎根和兰霍兹(1988)还导出了这两个回归系数之差的标准误差(H(H)o(o):τ−τ’=0)。他们发现τ−τ'方法的标准误差等于

σ麦奎根兰霍兹=στ2+στ22(ρττστστ).
(5)

τ和τ'(ρ)之间的协方差ττ’στστ’)适用于标准化或非标准化变量的是均方误差(σMSE公司)来自方程式2除以样本量与方差的乘积X(X)两个回归系数(τ−τ')之间的差值除以公式5并将此值与t吨显著性检验的分布。MacKinnon等人(1995年)发现McGuigan和Langholtz提出的标准误差的原始公式对于二进制(即非标准化)自变量是不准确的。在推导的基础上,我们得到了上述修正公式,该公式对标准化或非标准化自变量都是准确的。

根据湿陷性试验对τ−τ'的标准误差进行了另一种估计(克劳格、佩特科娃和希哈德,1992年). Clogg等人将分类数据分析中的可折叠性概念扩展到了连续测度。可折叠性测试在检查两个变量之间的关系时忽略或折叠第三个变量是否合适。在这种情况下,可溃散性是对干预变量是否显著改变两个变量之间关系的测试。如下所示Clogg等人(1992年)等于自变量和介入变量之间相关性的绝对值乘以τ’的标准误差:

σClogg等人。=σM(M)S公司E类ρX(X)σX(X)[n个(1ρX(X)2)]=ρX(X)στ.
(6)

此外,Clogg等人(1992年)表明τ−τ'除以其标准误差的统计检验等价于检验零假设,H(H)o(o): β = 0. 这表明,通过测试β的显著性或将τ−τ'除以方程式6并将该值与t吨分布。尽管Clogg等人(1992年)接近试验H(H)o(o): τ − τ’ = 0,艾利森(1995)Clogg、Petkova和Cheng(1995)证明推导过程假设X(X)是固定的,这不太可能用于测试干预变量。

基于相关性的方法(H(H)o(o): ρXY公司− ρXY公司。=0)比较X(X)Y(Y)调整前后如所示方程式7简单相关性和部分相关性之间的差异是测量干预变量对简单相关性的改变程度,其中ρIY公司是干预变量和因变量之间的相关性。该测试的零假设与心理学中使用的三种形式中的任何一种都有明显不同(见第86页)。正如一位评论员所指出的,在某些情况下,简单相关性和部分相关性之间的差异是非零的,而干预变量和部分自变量的因变量之间的相关性是零。在这些情况下,当没有证据表明干预变量与因变量相关时,该方法表示干预变量效应。由于部分相关性范围的限制,出现了问题:

ρ差异=ρX(X)Y(Y)ρX(X)Y(Y)ρY(Y)ρX(X)(1ρY(Y)2)(1ρX(X)2).
(7)

Olkin和Finn(1995)用多元delta方法找出了第三个变量的简单相关与相同相关之间差异的大样本标准差。然后将简单相关性和部分相关性之间的差异除以计算出的标准误差,并与标准正态分布进行比较,以测试干预变量的影响。相关性之间方差和协方差的大样本解如所示附录A和偏导数向量,如方程式8用于找出差异的标准误差。Olkin and Finn(第160页)中的公式存在印刷错误,已在方程式8偏导数为

[ρY(Y)ρX(X)ρX(X)Y(Y)(1ρY(Y)2)12(1ρX(X)2)2],[11(1ρY(Y)2)(1ρX(X)2),ρX(X)ρX(X)Y(Y)ρY(Y)(1ρX(X)2)12(1ρY(Y)2)2].
(8)

对于使用多元德尔塔方法导出标准误差的干预变量效应的两个测试(另一个测试如下所述),偏导数在文本中给出,而不是显示标准误差的整个公式,因为标准误差很长。多元delta方法的总结如所示附录A计算标准误差的SAS(6.12版)程序如所示附录B.

总之,系数差异法提供了一些干预变量效应及其标准误差的估计。根据程序的不同,虚假设可能与心理学中常见的假设相似,也可能不同。的无效假设Clogg等人(1992年)测试假设固定X(X),这不太可能用于干预变量。简单相关性和部分相关性之间的差异代表了对干预变量效应的独特测试,因为在某些情况下,干预变量和因变量之间似乎没有关系,但该方法表明存在干预变量效应。这种通用方法的另一个缺点是,一些测试的基础模型,例如简单相关性和部分相关性之间的差异,是基于非方向相关性的,这些非方向相关性不是直接遵循的,而是由图1。系数方法的差异也没有提供一个明确的框架来推广测试,以估计适当的系数,并在具有多个干预变量的模型中测试其差异的显著性。

干预变量效应的系数乘积检验

第三种通用方法是通过将干预变量效应αβ的估计值除以其标准误差,并将该值与标准正态分布进行比较,来测试干预变量效应的重要性。基于近似中不同的假设和导数顺序,标准误差公式有几种变体。这些变体总结在表1.

最常用的标准误差是由索贝尔(1982)使用基于一阶泰勒级数近似的多元delta方法:

σαβ第一=α2σβ2+β2σα2.
(9)

干预变量效应除以方程式9,然后将其与标准正态分布进行比较以测试显著性(H(H)o(o): αβ = 0). 此标准误差公式用于协方差结构程序,如EQS(Bentler,1997年)和LISREL(Jöreskog&Sörbom,1993年).

基于一阶和二阶泰勒级数近似的精确标准差(Aroian,1944年)α和β的乘积是

σαβ第二=α2σβ2+β2σα2+σα2σβ2.
(10)

干预变量效应除以方程式10,然后将其与标准正态分布进行比较以测试显著性(H(H)o(o): αβ = 0).方程式9不包括两个方差的乘积,这是方程式10虽然这个词通常很小。

古德曼(1960;桑普森和布鲁尼,1971年)推导了两个正态变量乘积的无偏方差,减去方差乘积,得出

σαβ无偏见的=α2σβ2+β2σα2σα2σβ2.
(11)

将αβ除以公式11,然后将其与标准正态分布进行比较以检验显著性。

MacKinnon、Lockwood和Hoffman(1998)显示出αβ/σαβ由于回归系数α和β的乘积的分布不是正态分布,而是经常不对称且峰度高,因此检验干预变量效应的显著性的方法具有很低的功效。在多元正态的条件下十、 我、和Y(Y),中由α和β表示的两条路径图1是独立的(MacKinnon、Warsi和Dwyer,1995年;索贝尔,1982年). 基于随机变量乘积的统计理论(克雷格,1936年;米克尔、康威尔和阿罗扬,1981年;Springer&Thompson出版社,1966年)、MacKinnon及其同事(MacKinnon等人,1998年;MacKinnon&Lockwood,2001年)提出了理论上更准确的三个备选变量(如下所示):(a)αβ/σ的经验分布αβ(H(H)o(o): αβ/σαβ=0),(b)两个标准正态变量乘积的分布,z(z)αz(z)β(H(H)o(o):z(z)αz(z)β=0),和(c)乘积分布的非对称置信限,αβ(H(H)o(o): αβ = 0).

在第一种变体中,MacKinnon等人(1998年)进行了广泛的模拟,以估计αβ在大范围的α和β值下的经验采样分布。根据这些经验抽样分布,确定了不同显著性水平的临界值。这些临界值表可在http://www.public.asu.edu/~davidpm/ripl/methods.htm例如,对于0.05显著性水平,经验临界值为.97,而对于αβ=0的标准正态检验,则为1.96。我们用z'指定这个测试统计量,因为它使用的分布与正态分布不同。

干预变量效应测试的第二个变量涉及两个变量乘积的分布z(z)统计量——α参数的统计量,z(z)α= α/σα和另一个β参数,z(z)β= β/σβ.如果假设α和β是正常的,则z(z)αz(z)β根据两个正态随机变量乘积的理论分布,可以使用临界值直接测试术语的显著性,P(P)=z(z)αz(z)β该测试涉及将α和β路径转换为z(z)分数,乘以z(z)s、 并使用基于随机变量乘积分布的临界值P=z(z)αz(z)β,来自克雷格(1936年; 另请参见Meeker等人,1981年;Springer&Thompson,1966年)以确定重要性。例如,对于P的0.05显著性水平,检验αβ=0的临界值=z(z)αz(z)β正态分布为2.18,而非1.96。

第三个变量构建了非对称置信限,以适应基于随机变量乘积分布的干预变量效应的非正态分布。再一次,两个z(z)计算统计数据,z(z)α= α/σαz(z)β= β/σβ。然后使用这些值从中的表中查找两个随机变量乘积的临界值Meeker等人(1981年)找出较低和较高的显著性水平。这些值用于使用公式CL=αβ±(临界值)σ计算置信下限和置信上限αβ如果置信区间不包括零,则干预变量效应显著。

Bobko和Rieck(1980)使用标准化变量分析的回归系数检验路径分析中的干预变量效应(H(H)o(o): ασβσ=0,其中ασ和βσ来自标准化变量的回归分析)。这些研究人员使用多元delta方法,根据标准化变量之间相关性的乘积,对干预变量效应的方差进行估计X(X)与偏回归系数相关Y(Y),控制X(X)。这些术语的乘积的功能是

ρ产品=ρX(X)(ρY(Y)ρX(X)Y(Y)ρX(X))1ρX(X)2.
(12)

该函数的偏导数在Bobko和Rieck(1980)

[ρX(X)2ρY(Y)+ρY(Y)2ρX(X)ρX(X)Y(Y)(1ρX(X)2)2,ρX(X)21ρX(X)2,ρX(X)1ρX(X)2].
(13)

将相关系数的方差-协方差矩阵与偏导数向量进行预乘和后乘,以计算可用于测试干预变量效应显著性的标准误差。

系数乘积法提供了对干预变量效应和干预变量效应标准误差的估计。此外,基础模型直接遵循路径分析,其中干预变量效应是假设用于测量因果关系的系数的乘积。这种逻辑直接扩展到包含多个干预变量的模型(博伦,1987年). 然而,如下文所述,在进行这些测试时出现了两个问题。首先,这些测试的抽样分布并不像通常假设的那样遵循正态分布。其次,被测试的无效假设的形式很复杂。

仿真研究概述

模拟研究的目的是为研究人员提供有关干预变量效应14项测试的统计性能的信息。我们比较的主要焦点是每项测试的I型错误率和统计能力。还检查了干预变量效应估计和标准误差,以提供方法准确性的另一个指标。我们预测,在因果步骤方法中使用多重假设检验将导致低I型错误率和低统计能力。我们还预测,由于相关的高重尾分布,许多αβ乘积的传统测试也将具有较低的I型错误率和较低的统计能力。该模拟解决的一个中心问题是,替代性和较新的干预变量效应测试是否会在不增加I型错误率的情况下产生更高水平的统计能力。

方法

仿真说明

所有统计模拟和分析均使用SAS(6.12版)编程语言。使用RANNOR函数从正态分布中生成变量,以当前时间为种子。选择的样本量与社会科学中常见的样本量(50、100、200、500和1000)相当。选择参数值α、β和τ'对应于零、小(因变量方差的2%)、中(因变量变量方差的13%)和大(因变量变异的26%)的效应大小,如科恩(1988)第412-414页)。这些参数分别为0、0.14、0.39和0.59,对应的偏相关分别为0,0.14,0.36和0.51。干预变量和因变量总是被模拟为连续的。在一半的模拟中,自变量是连续的,而在另一半中,自变数是二进制的,每个类别的案例数相等。将二元案例纳入实验研究中,以调查干预变量效应。在二进制情况下调整α参数,以保持与连续情况下相同的部分相关性。

总之,模拟采用了2×4×4×4x5析因设计。我们改变了自变量类型(连续和二进制)、路径α的影响大小(零、小、中和大)、路径β的影响大小、路径τ'的影响大小和样本大小(50、100、200、500、1000)等因素,总共640个不同条件。每种情况共重复500次。

点估计的准确性和标准误差

使用偏差和相对偏差评估干预变量效应点估计的准确性。如下所示,相对偏差计算为偏差(分子)与真实值的比率:

e(电子)t吨v(v)e(电子)B类=ω^ωω,
(14)

ω^是模拟干预变量效应的点估计,ω是干预变量效应真实值。

通过比较500个模拟中干预变量效应标准误差的平均估计值与500个模拟的干预变量效应估计值的标准偏差,确定每个标准误差的准确性。500次模拟中干预变量效应的标准偏差是对真实标准误差的估计(Yang&Robertson,1986年).

经验幂和I类错误率的计算

针对干预变量效应的每次测试,计算经验功率或I类错误率(视情况而定)。我们报告了5%显著性水平的结果,因为它是心理学中最常用的值。对于每种情况,将500次重复中干预变量效应具有统计显著性的时间比例制成表格。

当α=0,β=0,或α和β均为0时,拒绝无干预变量效应的无效假设的复制比例提供了经验I型错误率的估计值。因为我们使用了5%的显著性水平,所以当干预变量效应等于零时,预计500个样本中的25个(5%)样本的干预变量效应具有统计显著性。

当α和β均不等于零时,每种方法得出干预变量效应显著结论的时间比例提供了统计能力的度量。一种方法得出的拒绝无效假零假设的结论所占的时间比例越高,统计能力越大。

这14个过程引用了不同的统计分布。在每种情况下,我们都使用参考分布中的临界值进行测试。对于那些基于渐近方法的测试,我们使用了正态分布中的1.96。对于z’=αβ/σαβ我们使用中描述的临界值进行测试MacKinnon等人(1998年)用z’表示,并且对于P的测试=z(z)αz(z)β我们使用了来自克雷格(1936)P表示。非对称置信限测试的置信上限和置信下限取自Meeker等人(1981年)因果步骤测试涉及多个假设测试,因此不存在单一参考分布。对于这些测试,如果每个步骤都得到满足,则认为干预变量效果显著。

结果

一般来说,二进制情况下的模拟结果与连续自变量情况下的结果没有差别。因此,我们仅给出以下连续自变量的结果。

干预变量影响估计

正如其他研究所发现的那样,大多数对干预变量效应的估计都有最小的偏差,但以下情况除外z(z)αz(z)β,这有很大的偏差,因为这个数量的点估计值比干预变量效应的其他点估计值大得多。只有z(z)αz(z)β即使在样本量为50的情况下,测试的偏差也大于0.01。随着样本量和效应量的增加,所有估计值的相对偏差减小,包括z(z)αz(z)β.

标准误差的准确性

通过比较真实标准误差(每种条件下500次重复的干预变量效应估计值的标准偏差)与平均标准误差估计值,检查干预变量效应标准误差公式的准确性,如表2对于αβ=τ−τ'估计,除弗里德曼和沙茨金(1992)Clogg等人(1992年)标准误差估计值,远小于所有条件下的真实值。古德曼(1960)无偏方法经常产生未定义的(假想的)标准误差。这些发现提出了关于使用这种方法的严重问题。例如,古德曼的无偏标准误差在真实效应大小为零的情况下约有40%的时间未定义,在效应大小较小且样本大小为50的情况下,约有10%的时间未确定。在计算平均标准误差时,我们没有包括导致未定义标准误差的情况表2.

表2

标准误差估算值的比较τ – τ′ = αβ

样本大小
效果大小501002005001,000
τ–τ′=αβ的标准偏差
.0224.0121.0049.0022.0009
小型.0376.0214.0162.0089.0062
中等.0855.0549.0386.0251.0184
大型.1236.0857.0585.0366.0257

Freedman&Schatzkin(1992)
.0171.0083.0041.0016.0008
小型.0238.0154.0107.0062.0045
中等.0598.0402.0282.0178.0126
大型.0903.0622.0444.0274.0193

麦奎根和兰霍兹(1988)
.0342.0169.0082.0033.0016
小型.0431.0260.0165.0093.0065
中等.0867.0577.0400.0250.0175
大型.1252.0861.0603.0374.0264

Clogg等人(1992年)
.0168.0083.0041.0016.0008
小型.0233.0152.0107.0062.0045
中等.0579.0392.0276.0175.0123
大型.0859.0595.0428.0264.0186

索贝尔(1982)第一个订单
.0264.0129.0062.0025.0012
小型.0371.0236.0156.0090.0064
中等.0841.0568.0397.0249.0175
大型.1235.0855.0601.0374.0264

Aroian(1944年)二阶
.0348.0170.0082.0033.0016
小型.0435.0261.0165.0093.0065
中等.0869.0577.0400.0249.0175
大型.1253.0861.0603.0374.0264

古德曼(1960)无偏见
.0257.0135.0060.0026.0012
小型.0368.0224.0148.0088.0063
中等.0814.0558.0393.0248.0175
大型.1217.0848.0599.0373.0264

注释.真实标准误差的度量是τ–τ′=αβ的标准偏差。这个古德曼(1960)零效应的标准误差未定义(负方差),样本大小分别为50、100、200、500和1000的185、203、195、208和190倍。小效应大小为106、38和5倍的样本大小分别为50、100和200时,古德曼标准误差未定义,中等效应和50时,古德曼标准误差为1倍。

如所示表3,标准化变量回归系数乘积的标准误差和简单负偏相关的标准误差都非常接近所有条件下的真实值,表明使用多元delta方法得出的标准误差通常是准确的。

表3

多元Delta标准误差估计与点估计标准偏差的比较

样本大小
效果大小501002005001,000
简单负偏相关的标准偏差第页差异
.0215.0119.0049.0021.0009
小型.0361.0207.0159.0087.0061
中等.0721.0489.0347.0227.0162
大型.0947.0623.0456.0288.0197

Olkin&Finn(1995)标准误差
.0252.0127.0061.0025.0013
小型.0346.0226.0151.0089.0063
中等.0711.0496.0351.0221.0156
大型.0921.0649.0461.0270.0205

标准化变量系数乘积的标准偏差第页产品
.0205.0117.0051.0021.0009
小型.0349.0207.0157.0088.0061
中等.0698.0465.0323.0215.0157
大型.0831.0556.0405.0252.0177

Bobko&Rieck(1980)标准误差
.0256.0127.0061.0025.0012
小型.0351.0228.0152.0089.0063
中等.0722.0497.0351.0219.0155
大型.0919.0637.0452.0282.0199

注释简单负偏相关的真实标准误差的度量是简单负偏相关性的标准偏差。衡量标准化变量系数乘积的真正标准误差是标准化变量的系数乘积标准偏差。

电源和I类错误

为了减少表格的数量,我们给出了α=β和τ'=0的条件子集的结果表4,,5,5、和和6。6对于τ'非零值的条件和α≠β但α和β均大于零的条件,结果通常产生相同的结果。文中描述了不同τ'值的结果。当α或β为零时,另一条路径为非零时的结果如所示表7,,8,8、和和9。9。模拟的完整结果可从网站上获得http://www.public.asu.edu/~davidpm/ripl/methods.htm.

表4

因果步方法的I类错误率和统计能力

样本大小
效果大小501002005001,000
贾德和肯尼(1981a,1981b)
00.002000
小型.00400.0060.0400.0740
中等.1060.2540.4940.8620.9520
大型.4580.7940.9520.9460.9500

Baron&Kenny(1986)
00.002000
小型.00400.0100.0600.1060
中等.1160.2760.5200.8820.9960
大型.4700.8220.988011

α和β的联合意义
.0040.0060.0020.00200
小型.0360.0660.2860.7720.9880
中等.5500.9120111
大型.93001111

注释对于所有分析,α=β和τ′=0。小效应大小=.14,中效应大小=.36,大效应大小=.51。测试是双尾的,第页= .05. 对于每种方法,每项测试第一行中的值都是经验I类错误率的估计值。第2-4行中的值表示统计能力的经验估计值。

表5

系数差异法的I类错误率和统计能力

样本大小
效果大小501002005001,000
τ – τ′ (Freedman&Schatzkin,1992年)
.0160.0440.0180.0520.0500
小型.1240.2280.5060.8900.9920
中等.7100.9560111
大型.95601111

τ – τ′ (麦奎根和兰霍兹,1988年)
00000
小型.0060.0060.0920.5260.9740
中等.3380.8540111
大型.89201111

τ – τ′ (Clogg等人,1992年)
.0320.0660.0320.0620.0540
小型.1780.2840.5100.8920.9920
中等.7320.9560111
大型.95801111

简单负偏相关(Olkin&Finn,1995年)
.00200.002000
小型.0100.0120.1260.5780.9800
中等.4340.8920111
大型.93801111

注释对于所有分析,α=β和τ′=0。小效应大小=.14,中效应大小=.36,大效应大小=.51。测试是双尾的,第页= .05. 对于每种方法,每项测试第一行中的值都是经验I类错误率的估计值。第2-4行中的值表示统计能力的经验估计值。

表6

系数乘积法的I类错误率和统计能力

样本大小
效果大小501002005001,000
一阶测试(索贝尔,1982年)
00.002000
小型.0060.0100.1220.5620.9760
中等.3600.8620111
大型.90201111

二阶测试(Aroian,1944年)
00000
小型.0060.0060.0920.5260.9740
中等.3320.8540111
大型.89201111

无偏测试(古德曼,1960年)
.0160.0040.0140.0020.0100
小型.0080.0200.1420.6200.9820
中等.3900.8700111
大型.91201111

产品测试分布P=z(z)αz(z)β(MacKinnon等人,1998年)
.0620.0760.0420.0660.0400
小型.2220.3960.7180.97401
中等.9180.9960111
大型11111

αβ/σ的分布αβ(MacKinnon等人,1998年)
.0560.0680.0400.0600.0420
小型.2060.3600.6920.9580.9960
中等.9040.9960111
大型.99801111

产品测试的非对称分布(MacKinnon和Lockwood,2001年)
.0040.0040.002000
小型.0300.0620.2740.7600.9880
中等.5540.9200111
大型.94001111

标准化变量的系数乘积(Bobko&Rieck,1980年)
.00200.002000
小型.0080.0160.1300.5700.9780
中等.4200.8760111
大型.92001111

注释对于所有分析,α=β和τ′=0。小效应大小=.14,中效应大小=.36,大效应大小=.51。测试是双尾的,第页= .05. 对于每种方法,每项测试第一行中的值都是经验I类错误率的估计值。第2-4行中的值表示统计能力的经验估计值。

表7

因果步方法混合效应的I类错误率

样本大小
α值/β值501002005001,000
贾德和肯尼(1981a,1981b年)
大/零.04400000
中等/零.0020.0020.0020.00200
小/零0000.0020
零/大.0100.0080.0060.0100.0060
零/中等.0480.0040.0040.0020.0080
零/小000.00800

Baron&Kenny(1986)
大/零.00400000
中等/零.0020.0040.002000
小/零00000
零/大.0020.0060.0080.0020.0040
零/中等0.0020.0100.0020.0060
零/小000.0040.0020

α和β的联合意义
大/零.0400.0420.0500.0480.0380
中等/零.0400.0560.0460.0500.0480
小/零.0100.0200.0300.0380.0360
零/大.0520.0520.0460.0520.0340
零/中等.0480.0540.0620.0340.0500
零/小.0060.0160.0280.0400.0420

注释对于所有分析,τ′=0。小值=.14,中值=.39,大值=.59。测试是双尾的,第页= .05. 对于每种方法,每行中的值都是I类错误率的经验估计值。

表8

系数差分法混合效应的I类错误率

样本大小
α值/β值501002005001,000
τ – τ′ (Freedman&Schatzkin,1992年)
大/零.0440.0540.0500.0480.0380
中等/零.0460.0560.0460.0500.0480
小/零.0300.0560.0480.0440.0400
零/大.5680.5800.6000.5820.5980
零/中等.4720.6560.7100.7020.7080
零/小.1120.1980.3940.7520.8840

τ – τ′ (麦奎根和兰霍兹,1988年)
大/零.0200.0380.0440.0440.0360
中等/零.0120.0280.0360.0440.0440
小/零0.0020.0080.0080.0140
零/大.0300.0380.0400.0480.0320
零/中等.0120.0260.0420.0240.0440
零/小00.0020.0100.0180

τ – τ′ (Clogg等人,1992年)
大/零.0460.0540.0500.0480.0380
中等/零.0460.0560.0460.0500.0480
小/零.0460.0640.0500.0440.0400
零/大.98001111
零/中等.7740.9740111
零/小.2020.2980.4900.8660.9860

简单负偏相关(Olkin&Finn,1995年)
大/零.0340.0380.0480.0380.0364
中等/零.0160.0340.0380.0440.0500
小/零0.0040.0080.0100.0160
零/大.0340.0380.0540.0520.0280
零/中等.0300.0400.0040.0280.0500
零/小0.0060.0080.0140.0200

注释对于所有分析,τ′=0。小值=.14,中值=.39,大值=.59。测试是双尾的,第页= .05. 对于每种方法,每行中的值都是I类错误率的经验估计值。

表9

系数乘积法混合效应的I类错误率

样本大小
α值/β值501002005001,000
一阶测试(索贝尔,1982年)
大/零.0240.0460.0460.0460.0360
中等/零.0120.0300.0380.0460.0440
小/零0.0020.0080.0100.0140
零/大.0320.0400.0400.0500.0320
零/中等.0200.0300.0420.0240.0440
零/小0.0020.0080.0160.0220

二阶测试(Aroian,1944年)
大/零.0200.0380.0440.0440.0360
中等/零.0120.0280.0360.0440.0440
小/零0.0020.0080.0080.0140
零/大.0300.0380.0400.0480.0320
零/中等.0120.0260.0420.0240.0440
零/小00.0020.0100.0180

无偏测试(古德曼,1960年)
大/零.0280.0480.0480.0480.0360
中等/零.0160.0320.0400.0460.0480
小/零.0220.0080.0100.0120.0140
零/大.0380.0420.0420.0500.0320
零/中等.0300.0360.0480.0260.0440
零/小.0080.0160.0100.0200.0240

产品分布测试P=z(z)αz(z)β(MacKinnon等人,1998年)
大/零.5860.6720.8080.8820.8860
中等/零.2940.5340.6600.8820.8740
小/零.1160.1720.2580.4340.5920
零/大.6260.6700.7920.8580.9120
零/中等.4320.5400.6780.8180.8700
零/小.1380.1800.2800.4560.5680

αβ/σ分布αβ(MacKinnon等人,1998年)
大/零.3460.3520.4260.3760.3600
中等/零.2940.3160.3440.3500.3660
小/零.0900.1480.1920.2800.3100
零/大.3520.3700.3660.3860.3660
零/中等.3080.3380.3780.3500.3800
零/小.1360.1680.2380.3260.2860

产品测试分布不对称(MacKinnon&Lockwood,2001年)
大/零.0280.0380.0480.0480.0400
中等/零.0240.0420.0400.0460.0440
小/零.0060.0120.0160.0280.0280
零/大.0440.0360.0400.0460.0340
零/中等.0300.0340.0380.0320.0460
零/小.0060.0100.0160.0260.0200

标准化变量的系数乘积(Bobko&Rieck,1980年)
大/零.0340.0500.0500.0480.0360
中等/零.0200.0320.0400.0460.0480
小/零0.0020.0080.0100.0140
零/大.0420.0480.0420.0500.0320
零/中等.0300.0380.0480.0280.0440
零/小0.0080.0080.0180.0220

注释对于所有分析,τ′=0。小值=.14,中值=.39,大值=.59。测试是双尾的第页= .05. 对于每种方法,每行中的值都是I类错误率的经验估计值。

因果步骤法在所有样本量下的I类错误率均低于标称值,如表4. TheBaron和Kenny(1986)贾德和肯尼(1981b)方法对中小型效应的功率较低,对100多名受试者的大型效应的功率为.80或更高。这个Baron和Kenny(1986)随着τ'的增加,该方法具有更大的威力贾德和肯尼(1981b)随着τ′的增加,该方法的功耗降低。α和β的联合显著性检验与其他因果步骤方法相似,因为其I型错误率较低。I型错误率与.05一致2然而,对于两个独立测试,预期为=0.0025。与Baron、Kenny、Judd和Kenny方法不同,它在50个样本中至少有0.80倍的能力检测大效应,在100个样本中有中等效应,在500个样本中检测小效应的能力接近0.80倍。对于所有因果步骤方法,检测小影响的能力都很低。α和β的联合重要性是因果步骤方法中最强大的。

与因果步骤法类似,所有系数差异法的I类错误率均较低,但有两个例外,如所示表5所有τ−τ’方法的功率均为.80或更大,当样本量达到1000时,能够检测到小效应,100时检测到中等效应,50时检测到大效应。只有Clogg等人(1992年)弗里德曼和沙茨金(1992)这些方法具有准确的I型错误率(即接近.05)和大于.80的幂,分别在500、100和50的样本量下检测出小、中、大效应。尽管这些方法的标准误差似乎低估了真正的标准误差,但它们具有最准确的I类错误率和更高的统计能力。这种结果模式表明,过小的标准误差可能会部分补偿与干预变量效应的非正态分布相关的较高临界值。

与大多数之前的方法一样,系数乘积方法通常具有低于.05的I类错误率,并且具有足够的能力来检测1000、100和50个样本大小的小、中和大影响。产品测试分布,P=z(z)αz(z)β,以及z’=αβ/σ的分布αβ该测试具有准确的I型错误率和所有测试中最强大的功能。这些结果显示在表6在样本量为50的情况下,两种分布方法检测中、大效应的功率均在.80以上,在样本量500的情况下检测小效应的功率为.80。非对称置信限方法的I型错误率也太低,但比其他系数乘积方法的威力更大。

总的来说,这两种分配方法,P=z(z)αz(z)β、和z(z)’ = αβ/σαβ,的Clogg等人(1992年)、和弗里德曼和沙茨金(1992)就最准确的I型错误率和最大的统计能力而言,这些方法在所有测试方法中表现最好。然而,请记住Clogg等人(1992年)该方法假定对X(X)(相当于测试β的重要性),因此从概念上来说,这可能不是一个好的测试。Freedman和Schatzkin试验的类似性能表明,该方法也基于对X(X)当α=0和β=0时,以及当两个参数均为非零时,对于所有α和β值组合,这些方法都是优越的。对于α=0和β非零或a非零和β=0的情况,这些方法不是最准确的(见表7,,8,8、和和9)。9). a路径可能不显著且非常小,但当β路径为中等或较大影响时,这些方法将表明具有统计学意义的干预变量影响。在α=0且β效应较大的情况下,这些方法产生的I类错误率太高,尽管分布方法P=z(z)αz(z)β和z’=αβ/σαβ,性能优于系数差异法。当α影响较大且β=0时Clogg等人(1992年)Freedman和Schatzkin方法效果很好,而产品分配方法效果不佳。在α和β参数之一等于零的情况下,α和β的联合显著性检验、不对称置信限检验以及基于αβ干预变量效应除以αβ标准误差的检验具有更准确的标准误差。

讨论

在我们的讨论中,我们首先关注了所考虑的干预变量效应的14个测试中的每一个测试的统计性能。然后,我们将重点放在统计建议以及与选择干预变量效应测试相关的更一般的概念和实践问题上。

统计性能

由提出的最广泛使用的方法贾德和肯尼(1981b)Baron和Kenny(1986)在所有模拟条件下,I类错误率都太低,并且功率很低,除非影响或样本量很大。例如,这些方法在样本量为1000时只有.106的经验功率检测小影响,在样本量200时只有.49的功率检测中等影响。总的来说,这一步骤需要X(X)Y(Y)(τ) 导致了最多的II类错误。因此Baron和Kenny(1986)随着τ’值的增加,因果步长法的II型误差较小。这个贾德和肯尼(1981b)由于τ'不具有统计显著性的要求,随着τ'的增加,因果步长法具有更多的II型误差。使用Kenny及其同事描述的因果步骤方法进行的研究最有可能错过实际效果,但不太可能犯I类错误。另一种因果步长方法,即α和β是否具有联合统计显著性的测试,具有更大的功效和更准确的I型错误率。

系数差异法的功率率往往高于Baron和Kenny(1986)贾德和肯尼(1981b)因果步骤法,但对于除Clogg等人(1992年)Freedman和Schatzkin(1992)测验。尽管Clogg等人(1992年)Freedman和Schatzkin检验似乎没有给出Freedman,Schatzkin检验似乎也没有给出Fredeman和Schatazkin试验似乎没有给出干预变量效应标准误差的准确估计(因为假设X(X))在大多数情况下,显著性检验具有最准确的I型错误率和最大的统计能力。同样,系数乘积法比Baron和Kenny和贾德和肯尼(1981b)方法,但I类错误率太低。协方差结构分析程序(包括LISREL)中使用的一阶检验具有低功率率和低I类错误率(Jöreskog&Sörbom,1993年)和EQS(Bentler,1997年). 产品测试P的分布=z(z)αz(z)βz′=αβ/σ的分布αβ当α=β=0时,具有准确的I类错误率,并且始终具有最高的功率率。这两个分布测试并没有假设干预变量效应是正态分布的,与两个随机正态变量乘积的唯一分布一致(克雷格,1936年),但他们确实假设各个回归系数是正态分布的。

统计背景的差异Clogg等人(1992年)弗里德曼和沙茨金(1992)测试和产品测试的分布,P=z(z)αz(z)β和z’=αβ/σαβ,使得当α=β=0时,经验幂和I类错误率的相似性有些令人惊讶。这个Clogg等人(1992年)弗里德曼和沙茨金(1992)测试低估了标准误差,这是为了补偿使用标准参考分布时过低的临界值。虽然在本模拟研究的某些条件下,补偿程度似乎相当好,但尚不清楚这些测试是否可以在其他条件下显示适当的补偿程度(例如,较大的效应大小和其他显著性水平)。

有一个重要的例外是Clogg等人(1992年),弗里德曼和沙茨金(1992),P=z(z)αz(z)β,且z’=αβ/σαβ测验。当真实总体值为α=0且β≠0时,这些方法得出的结论是,尽管产品分布测试z’=αβ/σ,但干预变量的影响过于频繁αβ与其他方法相比,不太容易受到I类错误的影响。当α的真值≠0且β=0时Clogg等人(1992年)弗里德曼和沙茨金(1992)测试仍然表现良好,这两种分布方法给出的I型错误太高。更好的性能Clogg等人(1992年)当α≠0和β=0时的检验并不令人惊讶,因为显著性检验等同于β参数是否具有统计学意义的检验(H(H)0:β=0),并且不包括试验中的α值。基于z’=αβ/σ经验分布的检验αβ当考察α=0和β≠0以及α≠0和β=0情况时,具有四种最佳方法中最低的I类错误率。

总之,干预变量效应的统计检验权衡了两个相互竞争的问题。首先,αβ效应的非正态抽样分布导致与显著性经验水平相关的测试低于规定水平,当H(H)0是正确的,并且当H(H)0为false。这个MacKinnon等人(1998年)z’和P检验明确解决了这个问题,并在α=β=0时提供了准确的I型错误率,在H(H)0为false。其次,对αβ=0的零假设的检验很复杂,因为零假设采用复合形式,包括(a)α=0,β=0;(b) α≠0,β=0;(c)α=0,β≠0。在条件b和条件c下,MacKinnon等人的两项测试失败并产生高于规定的I型错误率。相比之下,使用基于正态抽样分布的其他不适当的保守临界值,从经验上证明是为了补偿与复合形式的零假设相关的I类错误率中的通货膨胀。

统计建议

最初关注干预变量效应测试的统计性能,这14项测试可分为三组性能相似的测试。第一组由Baron和Kenny(1986)贾德和肯尼(1981b)这些方法具有较低的I类错误率和在所研究的所有条件下最低的统计功率。第二组方法包括四项测试,包括P=z(z)αz(z)β和z’=αβ/σαβ,的Clogg等人(1992年)、和弗里德曼和沙茨金(1992)测试,当α和β都为非零时具有最大的功效,当α与β都为零时具有最准确的I型错误率。这四种方法可以按z’=αβ/σ从最好到最差的顺序排列αβ,P=z(z)αz(z)βFreedman和Schatzkin试验,以及Clogg等人对大多数α和β值的试验。如果研究人员希望最大限度地检测干预变量的影响,并且能够容忍增加的I型错误率,如果任何一个α或β总体参数为零,则这些是可选择的方法。如果有证据表明α≠0且β=0,那么Clogg等人以及Freedman和Schatzkin方法将提高功率和准确的I型错误率,并且P=z(z)αz(z)β和z’=αβ/σαβ测试的I类错误率太高。当α≠0且β=0时,Clogg等人以及Freedman和Schatzkin方法的I类错误率非常高。对于α或β为零的两种情况,经验分布方法z’=αβ/σαβ具有最低的I型错误率(I型错误率不超过.426)。因此,如果研究人员寻求检测效果的最大能力,而不考虑通过干预变量传递的效果,如果α可以为零,那么z’=αβ/σαβ经验分布检验是对选择的检验。研究人员应意识到,在人群中,无论α或β(但不是两者)为零的情况下,I型错误率都可能高于标称值。

第三组方法中包括八项测试,这表示当α=β=0时,功率较小,I型错误率过低,但当α或β为零时,I型误差率更准确。按准确性列出的检验包括α和β的联合显著性检验、不对称临界值检验、简单负偏相关检验、相关乘积检验、αβ的无偏检验、α,McGuigan和Langholtz(1988)τ−τ'的检验,然后是αβ的二阶检验。不幸的是,古德曼(1960)无偏检验通常会产生负方差,因此对于零效应、小效应或小样本量来说是不确定的。α和β的联合显著性检验似乎是该组中最好的检验,因为与其他方法相比,它在所有情况下具有最大的功效和最准确的I型错误率。注意,对于α和β的显著性的联合测试,没有干预变量效应的参数估计或标准误差,因此效应大小和置信区间无法直接获得。因此,在准确性上接近联合显著性检验的其他检验(如非对称置信区间检验)可能更可取,因为它们确实包括对干预变量影响大小的估计。该组其他六种方法的非常接近的模拟性能表明,对于实际数据分析,该组测试的选择不会改变研究结论。总的来说,第三组中的方法代表了一种折衷方案,与某些方法相比,其功耗更低,与其他方法相比,I类错误率更准确。

在α=0和β≠0的情况下,结果的总体模式迫使考虑关于干预变量效应的两个不同的统计零假设。第一个假设是检验间接效应αβ是否为零。该假设最好通过具有最大功率的经验分布z’=αβ/σ的方法进行测试αβ和P的分布=z(z)αz(z)β,可能是由弗里德曼和沙茨金(1992)测试。第二个假设是测试路径α和β是否都等于零。在这种情况下,α和β的联合显著性或非对称置信限检验为假设提供了最直接的检验。鉴于确定以下内容的重要性:(a)治疗导致干预变量发生变化(α≠0)和(b)干预变量与因变量相关(β≠0《将军》,1999年),我们强烈建议将此测试用于涉及简单干预变量模型的实验研究,如图1.然后可以根据产物的分布计算介导效应αβ的非对称置信限。

因果推理

本文重点关注干预效应测试的统计特性,至少部分是因为对干预效应的因果推断要求复杂且有争议。心理学期刊上报道的干预效应的大多数统计测试都测试了间接效应αβ或由贾德和肯尼(1981b)Baron和Kenny(1986)间接效应的测试在很大程度上遵循了路径分析的传统,在路径分析中假设了一个受限模型X(X)Y(Y)并根据数据对假设模型进行了测试。虽然可以考虑重要的竞争模型,也可以根据数据进行测试,但这种传统通常只是试图证明假设模型指定的因果过程与数据一致。

相反,贾德和肯尼(1981b)最初提出的因果步骤法是一种直接探索治疗产生结果的因果过程的方法。他们的方法的优势在于,在单个随机实验的背景下,它提供了证据,证明治疗导致干预变量,治疗导致结果,并且数据与建议的干预变量模型一致X(X)Y(Y),其中X(X)表示处理条件。然而,第三个因果步骤提出了一个强有力的假设,即残差ε2和ε在里面方程式2分别是独立的。这种假设可能会因以下几个原因而被违背,包括从路径模型中省略变量、X(X)关系函数形式的不正确说明,中间变量的测量误差,以及之间的双向因果关系Y(Y)(Baron&Kenny,1986年;麦克金农,1994年). 当违反这一假设时,可以获得间接影响的有偏估计,并且因果推断是X(X)Y(Y)可能是没有根据的。荷兰(1988)对本设计中因果推理所需的假设进行了广泛分析。因果推断的必要条件包括随机化、线性效应,以及治疗的全部效应通过干预变量发挥作用(即无部分干预变量效应)。

建立因果推理所需的条件需要比以下两组随机实验更复杂的设计:贾德和肯尼(1981b)在随机实验中操纵治疗和干预变量的设计可以实现更强的因果推断。例如,想象一个假设模型,其中承诺导致意图,而意图反过来又导致行为。受试者可以被随机分配到锻炼计划的高承诺或低承诺状态,然后测量他们的锻炼意愿。在此之后,受试者可以被随机分配到一个条件下,在该条件下,相同的锻炼计划容易与难获得,并且可以测量他们对该计划的行为遵守程度。添加随机性和时间优先性等设计特征可以有力地排除其他因果解释(贾德和肯尼,1981年b;Shadish、Cook和Campbell,2002年;West&Aiken,1997年;West、Biesanz和Pitts,2000年).

添加设计特征可以改变因果推断所需的假设。例如,贾德和肯尼(1981b)Baron和Kenny(1986)排除了治疗不能影响结果的模型方程式1此条件排除了不一致的效应模型,其中干预变量效应(αβ)和直接效应(τ’)图1有相反的标志,可能会抵消。然而,如果直接路径和间接路径的每个链接的强度可以在随机实验中进行操作,则可能会得出强有力的因果推断。最近的一项实验《床单与胸罩》(1999)对这种方法进行了说明。

结论

干预变量效应的测试很有用,因为它们检查变量之间的关联过程。在临床和社区研究中,此类测试对于阐明预防和治疗计划的工作原理至关重要。在实验研究中,这些测试对于确定理论所暗示的因果序列的合理性至关重要。现有的测试解决了几个不同的零假设,反映了在跨学科干预效应的定义方面缺乏共识。可用的程序也有不同,它们只是测试数据是否与假设的干预变量模型一致,而不是试图通过排除其他竞争模型来建立支持因果推断的其他逻辑特征。由于这些不同的概念基础、不同的假设和不同的估计方法,可用的测试显示其I类错误率和统计能力存在很大差异。本文为研究人员提供了更多关于确定干预变量效应的统计显著性的可用程序的概念基础和统计性能的信息。我们希望研究人员现在能够在选择干预变量效应的测试方面得到指导,以最大的统计性能解决他们感兴趣的问题。

致谢

这项研究得到了美国公共卫生服务拨款DA09757给David P.MacKinnon的支持。我们感谢Sandy Braver对这项研究的评论。

附录A

多元增量法

干预变量效应的两个测试使用了使用多元增量法得出的标准误差。标准误差的多元delta方法解是通过函数偏导数的向量与函数中相关性的协方差矩阵的前乘和后乘来获得的(Olkin&Finn,1995年;索贝尔,1982年).

多元delta方法假设一个函数u个=(f)12),其中(ν1, ν2, ν)具有协方差矩阵

Σν=[σ11σ12σ13σ21σ22σ23σ31σ32σ33].

让(第页1,第页2,第页)表示偏导数u个/∂ν1, ∂u个/∂ν2, ∂u个/∂ν)第页,共页u个关于(ν1, ν2, ν). 根据Delta方法u个可以近似为

V(V)第页(u个)=1j个=1第页σj个第页j个.

然后将标准误差作为Var的平方根(u个).

Olkin和Finn(1995)导出了渐近协方差矩阵(参见Olkin&Siotani,1976年,对于(ρ)的渐近结果十一, ρXY公司, ρIY公司). 这个相关矩阵的元素之间的方差和协变(Olkin&Finn,1995年)是

ρX(X)ρX(X)Y(Y)ρY(Y)ρX(X)无功功率,无功功率(ρX(X))ρX(X)Y(Y)覆盖(cov)(ρX(X),ρX(X)Y(Y))无功功率,无功功率(ρX(X)Y(Y))ρY(Y)覆盖(cov)(ρX(X),ρY(Y))覆盖(cov)(ρY(Y),ρX(X)Y(Y))无功功率,无功功率(ρY(Y))

基于渐近理论,从Olkin和Siotani(1976)

无功功率,无功功率(ρX(X))=(1ρX(X)2)2N个,
(A1)
无功功率,无功功率(ρX(X)Y(Y))=(1ρX(X)Y(Y)2)2N个,
(A2)
无功功率,无功功率(ρY(Y))=(1ρY(Y)2)2N个,
(A3)
覆盖(cov)(ρX(X),ρX(X)Y(Y))=12(2ρY(Y)ρX(X)ρX(X)Y(Y))(1ρY(Y)2ρX(X)2ρX(X)Y(Y)2)+ρY(Y)N个,
(A4)
覆盖(cov)(ρX(X),ρY(Y))=12(2ρX(X)Y(Y)ρX(X)ρY(Y))(1ρX(X)2ρX(X)Y(Y)2ρY(Y)2)+ρX(X)Y(Y)N个,
(A5)

覆盖(cov)(ρY(Y),ρX(X)Y(Y))=12(2ρX(X)ρX(X)Y(Y)ρY(Y))(1ρX(X)2ρX(X)Y(Y)2ρY(Y)2)+ρX(X)N个.
(A6)

附录B

用多元增量法计算标准误差的SAS程序

数据a;输入rxi-rxy-riy-nobs*注r对应于文章中希腊字母rho表示的相关性*x、 i和y分别表示独立变量、干预变量和因变量*附录A相关性的方差;vrxy=((1-rxy*rxy)*(1-rxy*r xy))/nobs;vriy=((1-riy*riy)*(1-riy*riy;vrxi=((1-rxi*rxi)*(1-rxi*rxi))/nobs*附录A相关性之间的协方差;crxyriy=(.5*(2*rxi-rxy*riy)*(1-rxi*rxi-rxy*rxy-riy*riy;crxyrxi=(.5*(2*riy-rxy*rxi)*(1-rxy*r xy-riy*r xi*r xi)+riy*riy*r iy)/nobs;criyrxi=(.5*(2*rxy-riy*rxi)*(1-rxi*rxi-rxy*rxy-riy*riy)+rxy*rxy*rxy)/nobs*奥尔金和芬恩*部分相关性或与去除干预变量的相关性;rxyi=(rxy-riy*rxi)/sqrt((1-riy*riy)*(1-rxi*rxi))*方程式7中简单相关性和偏相关性之间的差异;diff=rxy-rxyi*方程式8的偏导数;opd1=1-(1/(平方(1-riy*riy)*sqrt(1-rxi*rxi));opd2=c(rxi-rxy*riy)/((sqrt(1-rxi*rxi))*(1-riy*riy)**(1.5));opd3=(riy-rxi*rxy)/((sqrt(1-riy*riy))*(1-rxi*r xi)**(1.5));ovr=opd1*opd1*vrxy+opd2*opd1*crxyriy+opd3*opd1*rxyrxi+opd 1*opd2*crxyriy+opd2*opd2*vriy+op d2*opd3*cryrxi+opd3*crxyr xi+op d2*opd3*cryrxy+opd 3*cryrki+opd3*1vrxi;ose=sqrt(椭圆);zolkin=差异/剂量;波尔金=1-问题(zolkin)*方程式12中的bobko和rieck;corr=rxi*(riy-rxy*rxi)/(1-rxi**2)*方程式13的偏导数;bpd1=((rxi*rxi*riy+riy-2*rxi*rxy)/(1-rxi*r xi)**2);bpd2=(-(rxi*rxi)/(1-rxi*r xi));bpd3=(rxi/(1-rxi*rxi));bobkovar=((bpd1**2)*vrxi)+((bpd 2**2)*vrxy)+;bobkose=sqrt(bobkovar);zbobko=腐蚀/腐蚀;pbobko=1−问题(abobko);卡;。14 .14 0 200;程序打印;var diffose zolkin polkin corr bobkose zbobko pbobko;运行;

脚注

编者按。霍华德·桑德勒(Howard Sandler)担任这篇文章的动作编辑-SGW公司

工具书类

  • Ajzen I,Fishbein M。了解态度并预测社会行为。普伦蒂斯·霍尔;恩格尔伍德克利夫斯,新泽西州:1980年。[谷歌学者]
  • Allison PD。随机预测对模型间系数比较的影响:对Clogg、Petkova和Haritou的评论。美国社会学杂志。1995;100:1294–1305. [谷歌学者]
  • Alwin DF,Hauser RM。路径分析中的效应分解。《美国社会学评论》。1975;40:37–47. [谷歌学者]
  • Aroian LA。两个正态分布变量乘积的概率函数。数理统计年鉴。1944;18:265–271. [谷歌学者]
  • Baron RM,Kenny DA。社会心理学研究中的调节-中介变量区别:概念、战略和统计考虑。人格与社会心理学杂志。1986;51:1173–1182.[公共医学][谷歌学者]
  • 本特勒·P。EQS for Windows(5.6版)[计算机软件]多元软件;加利福尼亚州恩西诺:1997年。[谷歌学者]
  • Bobko P,Rieck A.相关系数函数标准误差的大样本估计。应用心理测量。1980;4:385–398. [谷歌学者]
  • 博伦KA。结构方程模型中的总直接和间接影响。收录人:Clogg CC,编辑。社会学方法。美国社会学协会;华盛顿特区:1987年。第37-69页。[谷歌学者]
  • Clogg CC,Petkova E,Cheng T.回复Allison:关于比较回归系数的更多信息。美国社会学杂志。1995;100:1305–1312. [谷歌学者]
  • Clogg CC,Petkova E,Shihadeh ES。回归模型中分析溃散性的统计方法。教育统计杂志。1992;17(1):51–74. [谷歌学者]
  • 科恩·J·。行为科学的统计能力。埃尔鲍姆;新泽西州希尔斯代尔:1988年。[谷歌学者]
  • 科恩·J、科恩·P。将多元回归/相关分析应用于行为科学。埃尔鲍姆;新泽西州希尔斯代尔:1983年。[谷歌学者]
  • Craig CC。关于xy的频率函数。数理统计年鉴。1936;7:1–15. [谷歌学者]
  • Fox J.结构方程模型中的效应分析。社会学方法与研究。1980;9:3–28. [谷歌学者]
  • Freedman LS,Schatzkin A.观察性研究干预试验中间终点研究的样本量。美国流行病学杂志。1992;136:1148–1159.[公共医学][谷歌学者]
  • 古德曼洛杉矶。关于产品的确切差异。美国统计协会杂志。1960;55:708–713. [谷歌学者]
  • 汉森WB。以学校为基础的药物滥用预防:1980年至1990年课程最新进展综述。健康教育研究:理论与实践。1992;7:403–430.[公共医学][谷歌学者]
  • Holland PW。因果推理、路径分析和递归结构方程模型(含讨论)。收录人:Clogg C,编辑。1988年社会学方法。美国社会学协会;华盛顿特区:1988年。第449-484页。[谷歌学者]
  • James LR、Brett JM。调解员、主持人和调解测试。应用心理学杂志。1984;69:307–321. [谷歌学者]
  • Jöreskog KG,Sörbom D。LISREL(8.12版)[计算机软件]科学软件国际;芝加哥:1993年。[谷歌学者]
  • Judd CM,Kenny DA。评估社会干预的效果。剑桥大学出版社;英国剑桥:1981a。[谷歌学者]
  • Judd CM,Kenny DA。过程分析:评估治疗评估中的调解。评估审查。1981年b;5:602–619. [谷歌学者]
  • Kenny DA、Kashy DA、Bolger N.社会心理学中的数据分析。收件人:Gilbert DT、Fiske ST、Lindzey G,编辑。社会心理学手册。麦格劳·希尔;波士顿:1998年。第233-265页。[谷歌学者]
  • “将军”DH。心理学中的虚假设检验争议。美国统计协会杂志。1999;94:1372–1381. [谷歌学者]
  • MacCorquodale K,Meehl PE。关于假设结构和干预变量之间的区别。心理回顾。1948;55:95–107.[公共医学][谷歌学者]
  • MacKinnon博士。预防和干预研究中的中介变量分析。收件人:Cazares A,Beatty LA,编辑。预防研究中的科学方法。美国政府印刷局;华盛顿特区:1994年。第127-153页。NIDA研究专著139。DHHS出版物编号94-3631。[公共医学][谷歌学者]
  • MacKinnon博士。多中介模型中的对比。收录人:Rose J、Chassin L、Presson CC、Sherman SJ,编辑。物质使用研究中的多元应用。埃尔鲍姆;新泽西州马华市:2000年。第141-160页。[谷歌学者]
  • MacKinnon民主党,Dwyer JH。评估预防研究中的介导效应。评估审查。1993;17:144–158. [谷歌学者]
  • MacKinnon DP、Krull JL、Lockwood CM。调解、混淆和抑制效应的等效性。预防科学。2000;1:173–181. [PMC免费文章][公共医学][谷歌学者]
  • MacKinnon DP、Lockwood C。产品测试的中介效应分布。2001.未出版手稿。
  • MacKinnon DP、Lockwood C、Hoffman J.调解测试的新方法。。在预防研究学会年会上提交的论文;犹他州帕克城,1998年6月。[谷歌学者]
  • MacKinnon DP、Warsi G、Dwyer JH。中介效应措施的模拟研究。多元行为研究。1995;30:41–62. [PMC免费文章][公共医学][谷歌学者]
  • McGuigan K、Langholtz B。关于使用普通最小二乘回归测试中介路径的说明。1988年,未发表注释。
  • Meeker WQ、Cornwell LW、Aroian LA。数理统计精选表,第七卷:两个正态分布随机变量的乘积。美国数学学会;普罗维登斯,RI:1981年。[谷歌学者]
  • Olkin I,Finn法学博士。相关冗余。心理公告。1995;118:155–164. [谷歌学者]
  • Olkin I,Siotani M.相关矩阵函数的渐近分布。收录:池田S,编辑。概率统计论文。津津信子;东京:1976年。第235-251页。[谷歌学者]
  • Sampson CB,Breunig HL。药物含量均匀性的一些统计方面。质量技术杂志。1971;:170–178. [谷歌学者]
  • Shadish WR、Cook TD、Campbell DT。广义因果推理的实验和准实验设计。霍顿-米夫林;波士顿:2002年。[谷歌学者]
  • Sheets VL,Braver SL。组织地位和感知性骚扰:检测无效中介。《个性与社会心理学公报》。1999;25:1159–1171. [谷歌学者]
  • Sobel ME。结构方程模型中间接效应的渐近置信区间。收件人:Leinhardt S,编辑。社会学方法论1982。美国社会学协会;华盛顿特区:1982年。第290-312页。[谷歌学者]
  • Sobel ME。线性结构方程模型中的直接和间接影响。In:Long JS,编辑。常见问题/适当的解决方案。圣人;加利福尼亚州贝弗利山:1988年。第46-64页。[谷歌学者]
  • Springer医学博士,Thompson WE。独立随机变量的分布。SIAM应用数学杂志。1966;14:511–526. [谷歌学者]
  • Stacy AW、Leigh BC、Weingardt KR。记忆可及性和饮酒的相关性及其积极效果。实验和临床精神药理学。1994;2:269–282. [谷歌学者]
  • Stone CA,Sobel ME。最大似然估计协方差结构模型中总间接效应估计的稳健性。心理测量学。1990;55:337–352. [谷歌学者]
  • West SG,Aiken LS。理解多成分预防计划中的个体效应:设计和分析策略。收录人:布莱恩特·科杰(Bryant KJ)、温德尔·M(Windle M)、西圣日耳曼(West SG)、编辑。预防科学:酒精和药物滥用研究的方法学进展。美国心理学会;华盛顿特区:1997年。第167-209页。[谷歌学者]
  • West SG、Biesanz JC、Pitts SC。现场设置中的因果推断和泛化:实验和准实验设计。收件人:Reis HT,Judd CM,编辑。社会和人格心理学研究方法手册。剑桥大学出版社;纽约:2000年。第40-84页。[谷歌学者]
  • 伍德沃思RS.动态心理学。作者:Murchison C,编辑。1925年的心理学。克拉克大学出版社;马萨诸塞州伍斯特:1928年。第111-126页。[谷歌学者]
  • Yang MCK,Robertson DH。通过计算机理解和学习统计学。世界科学;新加坡:1986年。[谷歌学者]