摘要

当与模型假设存在微小偏差时,稳健方法有助于做出可靠的统计推断。通过将标准化残差替换为M(M)-残差。如果假设皮尔逊残差为零无偏,则当误差分布不对称时,稳健方法的参数估计量是渐近有偏的。我们提出了一种无分布的方法来纠正这种偏差。我们的大量数值研究表明,所提出的方法可以大大降低偏差。举例说明。

1.简介

纵向研究的特点是在一定时间内对个体进行重复测量。这些研究导致了有趣的统计研究,以考虑重复观测之间可能的相关性。纵向数据分析的统计方法通常也适用于具有嵌套、空间和家庭/窝结构的数据(Diggle等人,2002年).

广义线性模型的方法提供了一个方便的框架,用于将异质方差建模为分析连续/离散数据时均值的函数。然而,这种框架不能用于分析相关数据,因为很难建立具有必要边缘属性的多元似然函数。这激发了梁泽格(1986)开发广义估计方程(GEE)方法,该方法涉及“工作”相关矩阵,以提高估计效率。事实上,协方差矩阵应被视为“工作”矩阵,因为方差函数在实践中也会出现错误规定(王和林,2005).

分析纵向数据有几种方法,包括随机效应模型、边际模型和条件模型。特别是,众所周知的GEE方法只需要指定边际均值和协方差函数。该理论来源于构造参数估计的皮尔逊残差的最佳线性组合。该方法原则上与加权最小二乘法非常相似,不具有任何鲁棒性。

传统的稳健方法M(M)-独立数据的估计可以很好地描述为Huber(1981)最近,一些作者考虑了纵向数据分析的稳健方法。例如,何、朱、冯(2002)提出M(M)-部分线性模型中的估计量,以及Jung和Ying(2003)探索了重复测量的排序方法。但他们的方法忽略了来自同一主题的观察结果之间的相关性。Preisser和Qaqish(1999)通过向下加权有影响的数据点,提出了GEE方法的抵抗版本。如果权重取决于响应,则需要高阶矩假设才能获得无偏估计方程。哈金斯(1993)吉尔(2000)还将稳健方法应用于基于多元正态分布的重复测量。他们的方法类似于使用稳健似然作为工作模型。Welsh和Richardson(1997)调查的多变量t吨-分布和截断正态分布。皮尔逊残差的线性变换可以导致不相关的残差,因此传统的M(M)-可以使用估计。然而,对于这些方法,需要联合分布的对称性,这是一个很强的假设。

Hu和Lachin(2001)建议通过将Huber函数应用于标准化残差来对GEE方法进行稳健化。这种方法仅适用于误差分布对称的情况。许多其他人也需要这种假设(Schrader和Hettmansperger,1980年;街道、卡罗尔和鲁珀特,1988年;Chi,1994年;吉尔,2000).Hu和Lachin(2001)对受到各种其他误差分布(可能是倾斜的)污染的正态和柯西响应进行了广泛的模拟,并得出结论,稳健GEE总体上优于普通GEE。Cantoni和Ronchetti(2001)考虑分布通常不对称的广义线性模型的稳健分析。他们还展示了当核心分布为二项式或泊松分布时,如何获得Huber函数的偏差项。

过度分散和偏斜在实践中很常见。纵向数据中的主题相关性使得稳健推断更具挑战性。在本文中,我们考虑了GEE方法的一个稳健版本,并介绍了一种不需要任何分布假设的一步偏差校正技术。我们的大量仿真研究表明,所提出的方法可以大大减少从鲁棒函数继承的参数估计中的偏差。还利用一项癫痫发作研究的数据说明了所提出的方法。

2.稳健估计函数

表示t吨第个观察结果第个主题,其中= 1, … , K(K)t吨= 1, … , n个,然后==========================================================(1, … , 论坛)T型主题。还让X(X)= (x个1, … , x个论坛)T型是的设计矩阵n个×第页尺寸第个主题,其中x个= (x个1, … , x个信息技术计划)是t吨th观察值和βis第页-维度向量。所以我们有E() =μ=(X(X)T型β) ,其中(·)是广义线性模型(GLM)框架中定义的链接函数,响应的方差定义为平均值var的函数() =φA类2),其中φ是色散参数A类2)是一个n个×n个对角方差函数。稍后,我们将抑制对A类在μ上当没有混淆时。对于GEE方法(Liang和Zeger,1986年),让D类=∂μ/∂βT型; 我们可以得到第页-向量β通过求解以下估算方程:

(1)

哪里(α) 是一个“工作”相关矩阵,通常假设其具有参数α的指定结构。相关参数α可以通过基于残差的方法获得,如矩法、高斯法和准最小二乘法(Wang和Carey,2003年,2004).

假设论坛是β的估计量,通过求解U型(β) = 0. 正如所指出的Hu和Lachin(2001)GEE方法在纵向数据分析中非常有用;然而,在某些情况下,它对非正态残差和异常值的敏感性可能导致矛盾的结果。因此,稳健的方法也适用于纵向数据。独立数据的传统方法是将总损失函数定义为个人数据损失的总和。然而,这种方法忽略了相关性,这对于分析纵向数据是不可取的。还很难定义多元损失函数,以便有效地考虑相关性。

为了继续,让第页= (第页1, …,第页论坛)T型= (φ1/2A类)−1()为标准化残差。当以真实值进行评估时,β=β0,第页成为真实误差(未观察到),表示为ε假设ε的cdf和pdfF类(f)分别是。对于选定的函数ψ,我们指ψ(第页) ={ψ(第页1), … , ψ(第页论坛)}T型作为M(M)-残差。这里ψ(·)是一个向下加权函数。例如,众所周知的Huber函数是ψ(第页)=最小{τ,最大{第页,-τ}}(τ是一个正调谐常数,通常选为1.345)。如果L(左)第页使用范数,我们有ψ(第页) = |第页|第页−1sgn公司(第页). 请注意L(左)第页范数不会导致有界推理,除非第页= 1. 稳健残差ψ(第页),也称为M(M)-本文中的残差。

考虑基本估计函数η似乎是合理的=ψ(第页)−E{ψ(ε)}并构造这些鲁棒残差的最优或次优线性组合用于参数估计(Qaqish和Preisser,1999年). 请注意t吨η的th元素是ψ(第页)−E{ψ(ε)},仅涉及第页但不是第页伊尔对于t吨这种方法将使我们能够利用单变量“稳健”损失函数,例如L(左)第页纵向数据的范数和Huber函数。根据广义高斯-马尔可夫定理,基估计函数的最佳线性组合形式为(Small和McLeish,1994年)

(2)

哪里论坛是由var(η)组成的对角矩阵)、和论坛为corr(η). 方差矩阵论坛可以选择为常量,因为第页是标准化的。例如,论坛(此处是单位矩阵),用于与τ=0的Huber函数相对应的中值回归或L(左)第页规范第页= 1 (Jung,1996年).

与GEE方法相同论坛论坛应被视为“工作”矩阵,用于M(M)-残差ψ(第页). 尽管(2)提供了一种可行的鲁棒推理方法,有一些基本问题需要解决,(i)E{ψ(ε)}理论上取决于误差分布,以及(ii)雅可比矩阵论坛和工作矩阵论坛还需要进一步建模或近似。

一般来说,论坛,它变为论坛对于Huber函数,以及论坛对于L(左)第页规范。显然,我们有E{ψ(ε)}对称分布为0。我们将考虑ε可能不是对称的。

如果ψ(·)是可微的,我们让=E[εψ′(ε)]和b条=E[ψ′(ε)]. 为了更一般并涵盖ψ(·)不可微的情况,设(,b条)由以下展开式确定:

作为δ21220。这意味着

在哪儿B类=诊断(b条)和S公司=诊断()是对角矩阵,F类=∂σ/∂βT型是一个n个×第页矩阵和σ2={var()}/φ、 对角矩阵。

对于已知或给定的E{ψ(ε)},最佳估计函数为

(3)

当σ2不是β的函数,F类是0的矩阵。矩阵A类D类是熟悉的,而B类F类在文献中不太熟悉。对于Huber函数,b条=Pr(|ɛ|≤τ),即2F类(τ) −1,和论坛。对于L(左)第页正常,我们有=0和

估算F类T型S公司论坛因此很难,因为它涉及ε的密度函数另一方面,F类T型S公司通常很小,如果不是0,var(η)应近似为常数;因此,我们建议使用以下次优稳健估计函数,

(4)

然而,上述估计函数仍需要计算E{ψ(ε)}如果没有分配假设,这也被认为是很困难的。假设对称误差分布和B类=计算机接口对于某个常量标量c(c),U型N个(β) 成为评估函数Hu和Lachin(2001),

(5)

得到的估计器,论坛,当E{ψ(ε)}≠0,当误差分布倾斜时为真。

为了考虑非对称分布,我们需要推导E{ψ(ε)},b条,这需要指定错误分布。例如,Cantoni和Ronchetti(2001)导出E{ψ(ε)}假设二项分布和泊松分布的Huber函数。我们旨在纠正论坛不做任何分配假设。

要消除中的偏差论坛,我们可以相提并论(5)而不是0,即。,

(6)

其中右侧是E的估计量[U型0)]. 这导致了偏差校正的鲁棒估计器,论坛。让我们再次检查论坛.将泰勒级数展开应用于U型(β) 实际值β0,我们有

因此我们得到了论坛,其中

注意,通过在论坛将不起作用,因为根据以下定义,估计偏差将变为0论坛.尽管论坛不具备稳健性,可以用它来获得Δ的合理估计。这导致了偏差修正估计函数(6).

如果ψ(·)是可微的,则论坛,对于中值回归,我们可以使用论坛,其中论坛包括2个估计值(f)(0) (Jung,1996年). 平均值(f)(0)可以通过

其中δ是(K(K)−1/5)Ind是指示函数。因此,我们得到Δas的估计量

因此是一个偏差修正估计量论坛这里,α和φ也是用稳健方法估计的。例如,Hu和Lachin(2001)使用以下稳健的规模估计:

哪里论坛是皮尔逊残差小时是一个常数,取决于误差的分布(小时≈1.483(正常残差)。α的稳健估计可以通过矩方法获得,

对于自回归模型和

对于可交换模型,其中S公司2是{ψ的平均值2(第页)},= 1, … , K(K)t吨= 1, … , n个。的渐近协方差论坛可以通过夹心法获得

3.数值研究

为了研究偏差校正方法的性能,我们对通过组合不同分布、污染率(λ)、相关结构和协变量结构获得的各种模型进行了仿真研究。考虑了两种类型的分布:

  • 回应正态分布,平均μ和方差1,但误差受χ污染2(4) −4,概率λ;

  • 污染泊松数据,,因此
    哪里Z轴~泊松(μ). 我们将表示~(1-λ)泊松(μ)+λ泊松(M(M)μ). 的平均值, μ,为β12x个对于情况(i)和exp(β12x个)对于情况(ii)。(β)的真值1, β2)是(1,1),以及样本大小K(K)等于100n个=5,对于平衡情况和n个=4或8,对于不平衡情况。考虑了两种类型的协变量:(a)协变量随时间变化:x个均匀分布在(j个,j个+ 1),j个= 1, … , n个(n个=5)对于情况(i)和exp(x个)均匀分布在(j个,j个+1)对于情况(ii);(b) 受试者特有的协变量,50%的受试者取值为0,其他50%的受测者取值为1。此设置表示使用相同数量患者的两种治疗方法的比较。估计中使用了两种工作相关结构,一阶自回归(AR1)和可交换(EXC)。使用5%和20%这两种污染率来观察λ变化时结果的差异。

对于正常响应,稳健估计确实改进了GEE方法,并且U型N个类似于U型在偏差和MSE方面(表1). 这是因为母N(0,1)分布使E{ψ(ε)}=0近似为真,在这种情况下,稳健的GEE比GEE工作得更好(胡和拉钦,2001). 注意,对于对称分布(如正态分布)的响应,U型C类与…一致U型。因此没有关于的结果U型C类在里面表1.

表1

当反应被χ污染时,100×偏差和100×MSE的比较2(4) −4基于200次模拟

AR1型EXC公司AR1公司EXC公司
ρU型U型U型N个U型U型U型N个ρU型U型U型N个U型U型U型N个
(a) λ=5%
100×偏差(β1)100×偏差(β2)
0−0.09−1.34−0.09−0.10−1.310.3700.01−0.070.010.01−0.08−0.15
0.25−1.27−2.07−1.26−0.81−1.76−0.580.250.420.210.420.310.140.16
0.50.68−0.540.680.64−0.54−1.480.5−0.19−0.31−0.19−0.18−0.330.35
0.8−0.06−0.97−0.06−0.08−1.04−0.120.8−0.05−0.34−0.50−0.02−0.340.28
100×MSE(β1)100×MSE(β2)
01.691.391.691.691.391.7000.120.100.120.120.100.12
0.252.212.192.212.242.202.240.250.140.140.140.140.140.14
0.52.712.222.712.772.342.770.50.170.140.170.170.150.17
0.82.211.952.222.272.052.270.80.090.090.090.100.100.10
(b) λ=20%
100×偏差(β1)100×偏差(β2)
01.46−4.961.471.41−4.991.430−0.05−0.16−0.05−0.04−0.15−0.04
0.25−0.26−6.81−0.24−0.53−7.10−0.520.250.140.150.140.220.220.22
0.5−2.19−6.76−2.19−2.36−7.52−2.360.50.720.040.730.760.160.76
0.8−0.86−7.32−0.82−0.67−7.48−0.630.8−0.28−0.60−0.28−0.27−0.61−0.28
100×MSE(β1)100×MSE(β2)
03.652.493.663.662.483.6700.260.160.260.260.160.26
0.253.623.273.633.593.303.590.250.220.180.230.230.180.23
0.53.843.303.854.623.734.640.50.250.170.250.270.180.28
0.82.892.582.913.202.923.220.80.130.120.140.150.130.15
AR1公司EXC公司AR1公司EXC公司
ρU型U型U型N个U型U型U型N个ρU型U型U型N个U型U型U型N个
(a) λ=5%
100×偏差(β1)100×偏差(β2)
0−0.09−1.34−0.09−0.10−1.310.3700.01−0.070.010.01−0.08−0.15
0.25−1.27−2.07−1.26−0.81−1.76−0.580.250.420.210.420.310.140.16
0.50.68−0.540.680.64−0.54−1.480.5−0.19−0.31−0.19−0.18−0.330.35
0.8−0.06−0.97−0.06−0.08−1.04−0.120.8−0.05−0.34−0.50−0.02−0.340.28
100×MSE(β1)100×MSE(β2)
01.691.391.691.691.391.7000.120.100.120.120.100.12
0.252.212.192.212.242.202.240.250.140.140.140.140.140.14
0.52.712.222.712.772.342.770.50.170.140.170.170.150.17
0.82.211.952.222.272.052.270.80.090.090.090.100.100.10
(b) λ=20%
100×偏差(β1)100×偏差(β2)
01.46−4.961.471.41−4.991.430−0.05−0.16−0.05−0.04−0.15−0.04
0.25−0.26−6.81−0.24−0.53−7.10−0.520.250.140.150.140.220.220.22
0.5−2.19−6.76−2.19−2.36−7.52−2.360.50.720.040.730.760.160.76
0.8−0.86−7.32−0.82−0.67−7.48−0.630.8−0.28−0.60−0.28−0.27−0.61−0.28
100×MSE(β1)100×MSE(β2)
03.652.493.663.662.483.6700.260.160.260.260.160.26
0.253.623.273.633.593.303.590.250.220.180.230.230.180.23
0.53.843.303.854.623.734.640.50.250.170.250.270.180.28
0.82.892.582.913.202.923.220.80.130.120.140.150.130.15

注:样本量K(K)为100,真实数据具有AR1相关结构。协变量随时间变化。鲁棒方法基于Huber函数,τ=1.345。考虑了AR1和EXC工作相关结构。

表1

当反应被χ污染时,100×偏差和100×MSE的比较2(4) −4基于200次模拟

AR1公司EXC公司AR1公司EXC公司
ρU型U型U型N个U型U型U型N个ρU型U型U型N个U型U型U型N个
(a) λ=5%
100×偏差(β1)100×偏差(β2)
0−0.09−1.34−0.09−0.10−1.310.3700.01−0.070.010.01−0.08−0.15
0.25−1.27−2.07−1.26−0.81−1.76−0.580.250.420.210.420.310.140.16
0.50.68−0.540.680.64−0.54−1.480.5−0.19−0.31−0.19−0.18−0.330.35
0.8−0.06−0.97−0.06−0.08−1.04−0.120.8−0.05−0.34−0.50−0.02−0.340.28
100×MSE(β1)100×MSE(β2)
01.691.391.691.691.391.7000.120.100.120.120.100.12
0.252.212.192.212.242.202.240.250.140.140.140.140.140.14
0.52.712.222.712.772.342.770.50.170.140.170.170.150.17
0.82.211.952.222.272.052.270.80.090.090.090.100.100.10
(b) λ=20%
100×偏差(β1)100×偏差(β2)
01.46−4.961.471.41−4.991.430−0.05−0.16−0.05−0.04−0.15−0.04
0.25−0.26−6.81−0.24−0.53−7.10−0.520.250.140.150.140.220.220.22
0.5−2.19−6.76−2.19−2.36−7.52−2.360.50.720.040.730.760.160.76
0.8−0.86−7.32−0.82−0.67−7.48−0.630.8−0.28−0.60−0.28−0.27−0.61−0.28
100×MSE(β1)100×MSE(β2)
03.652.493.663.662.483.6700.260.160.260.260.160.26
0.253.623.273.633.593.303.590.250.220.180.230.230.180.23
0.53.843.303.854.623.734.640.50.250.170.250.270.180.28
0.82.892.582.913.202.923.220.80.130.120.140.150.130.15
AR1公司EXC公司AR1型EXC公司
ρU型U型U型N个U型U型U型N个ρU型U型U型N个U型U型U型N个
(a) λ=5%
100×偏差(β1)100×偏差(β2)
0−0.09−1.34−0.09−0.10−1.310.3700.01−0.070.010.01−0.08−0.15
0.25−1.27−2.07−1.26−0.81−1.76−0.580.250.420.210.420.310.140.16
0.50.68−0.540.680.64−0.54−1.480.5−0.19−0.31−0.19−0.18−0.330.35
0.8−0.06−0.97−0.06−0.08−1.04−0.120.8−0.05−0.34−0.50−0.02−0.340.28
100×MSE(β1)100×MSE(β2)
01.691.391.691.691.391.7000.120.100.120.120.100.12
0.252.212.192.212.242.202.240.250.140.140.140.140.140.14
0.52.712.222.712.772.342.770.50.170.140.170.170.150.17
0.82.211.952.222.272.052.270.80.090.090.090.100.100.10
(b) λ=20%
100×偏差(β1)100×偏差(β2)
01.46−4.961.471.41−4.991.430−0.05−0.16−0.05−0.04−0.15−0.04
0.25−0.26−6.81−0.24−0.53−7.10−0.520.250.140.150.140.220.220.22
0.5−2.19−6.76−2.19−2.36−7.52−2.360.50.720.040.730.760.160.76
0.8−0.86−7.32−0.82−0.67−7.48−0.630.8−0.28−0.60−0.28−0.27−0.61−0.28
100×MSE(β1)100×MSE(β2)
03.652.493.663.662.483.6700.260.160.260.260.160.26
0.253.623.273.633.593.303.590.250.220.180.230.230.180.23
0.53.843.303.854.623.734.640.50.250.170.250.270.180.28
0.82.892.582.913.202.923.220.80.130.120.140.150.130.15

注:样本量K(K)为100,真实数据具有AR1相关结构。协变量随时间变化。稳健方法基于τ=1.345的Huber函数。考虑了AR1和EXC工作相关结构。

然而,由于稳健估计中存在大量偏差,泊松响应不再如此。偏差校正还导致MSE降低。当污染率较高(20%)时,稳健GEE估计值可能会有很大偏差。表2使用Huber方法比较泊松数据的估计量的偏差和均方误差(MSE);注意,表中的“φ”表示泊松数据的过度分散。对于泊松数据,我们还使用Cantoni和Ronchetti(2001)(表示为U型C类).

表2

基于100个模拟的泊松响应100×偏差和100×MSE的比较

ρ; φU型U型U型C类U型N个ρ; φU型U型U型C类U型N个
(a) λ=5%
100×偏差(β1)100×偏差(β2)
0; 10.85−3.28−0.560.820; 1−0.551.16−0.11−0.54
0; 2−0.60−9.18−5.350.910; 20.453.872.08−0.15
0.25; 2−0.69−10.49−6.550.900.25; 20.484.772.92−0.19
0.5; 2−0.49−9.18−5.331.030.5; 20.293.661.86−0.31
0.8;−2.97−16.80−12.102.060.8; 1.807.104.85−0.06
100×毫秒(β1)100×MSE(β2)
0; 10.430.480.360.420; 10.210.190.170.21
0; 20.641.420.830.680; 20.330.440.320.35
0.25; 20.691.851.140.710.25; 20.350.600.440.36
0.5; 21.091.831.221.180.5; 20.520.580.470.55
0.8; 1.484.292.831.680.8; 0.571.010.710.64
(b) λ=20%
100×偏差(β1)100×偏差(β2)
0; 1−1.30−13.40−9.48−1.400; 10.955.623.810.93
0; 2−0.88−17.10−12.203.940; 21.086.213.99−0.86
0.25; 2−0.27−16.90−11.904.180.25; 2−0.205.473.25−2.05
0.5; 20.08−17时−12.105.050.5; 2−0.435.353.14−2.46
100×MSE(β1)100×MSE(β2)
0; 10.942.281.360.900; 10.570.590.410.55
0; 21.754.432.882.130; 20.951.110.841.03
0.25; 21.263.962.461.590.25; 20.670.800.570.76
0.5; 21.714.332.802.260.5; 20.8710.741.02
ρ; φU型U型U型C类U型N个ρ; φU型U型U型C类U型N个
(a) λ=5%
100×偏差(β1)100×偏差(β2)
0; 10.85−3.28−0.560.820; 1−0.551.16−0.11−0.54
0; 2−0.60−9.18−5.350.910; 20.453.872.08−0.15
0.25; 2−0.69−10.49−6.550.900.25; 20.484.772.92−0.19
0.5; 2−0.49−9.18−5.331.030.5; 20.293.661.86−0.31
0.8; −2.97−16.80−12.102.060.8; 1.807.104.85−0.06
100×MSE(β1)100×MSE(β2)
0; 10.430.480.360.420; 10.210.190.170.21
0; 20.641.420.830.680; 20.330.440.320.35
0.25; 20.691.851.140.710.25; 20.350.600.440.36
0.5; 21.091.831.221.180.5; 20.520.580.470.55
0.8; 1.484.292.831.680.8; 0.571.010.710.64
(b) λ=20%
100×偏差(β1)100×偏差(β2)
0; 1−1.30−13.40−9.48−1.400; 10.955.623.810.93
0; 2−0.88−17.10−12.203.940; 21.086.213.99−0.86
0.25; 2−0.27−16.90−11.904.180.25; 2−0.205.473.25−2.05
0.5; 20.08−17.00−12.105.050.5; 2−0.435.353.14−2.46
100×MSE(β1)100×MSE(β2)
0; 10.942.281.360.900; 10.570.590.410.55
0; 21.754.432.882.130; 20.951.110.841.03
0.25; 21.263.962.461.590.25; 20.670.800.570.76
0.5; 21.714.332.802.260.5; 20.8710.741.02

注:样本量K(K)为100,则真相关结构和工作相关结构均为AR1。协变量随时间变化。稳健方法基于τ=1.345的Huber函数。

表2

基于100个模拟的泊松响应100×偏差和100×MSE的比较

ρ; φU型U型U型C类U型N个ρ;φU型U型U型C类U型N个
(a) λ=5%
100×偏差(β1)100×偏差(β2)
0; 10.85−3.28−0.560.820; 1−0.551.16−0.11−0.54
0; 2−0.60−9.18−5.350.910; 20.453.872.08−0.15
0.25; 2−0.69−10.49−6.550.900.25; 20.484.772.92−0.19
0.5; 2−0.49−9.18−5.331.030.5; 20.293.661.86−0.31
0.8; −2.97−16.80−12.102.060.8; 1.807.104.85−0.06
100×MSE(β1)100×MSE(β2)
0; 10.430.480.360.420; 10.210.190.170.21
0; 20.641.420.830.680; 20.330.440.320.35
0.25; 20.691.851.140.710.25; 20.350.600.440.36
0.5; 21.091.831.221.180.5; 20.520.580.470.55
0.8;1.484.292.831.680.8; 0.571.010.710.64
(b) λ=20%
100×偏差(β1)100×偏差(β2)
0; 1−1.30−13.40−9.48−1.400; 10.955.623.810.93
0; 2−0.88−17.10−12.203.940; 21.086.213.99−0.86
0.25; 2−0.27−16.90−11.904.180.25; 2−0.205.473.25−2.05
0.5; 20.08−17.00−12.105.050.5; 2−0.435.353.14−2.46
100×MSE(β1)100×MSE(β2)
0; 10.942.281.360.900; 10.570.590.410.55
0; 21.754.432.882.130; 20.951.110.841.03
0.25; 21.263.962.461.590.25; 20.670.800.570.76
0.5; 21.714.332.802.260.5; 20.8710.741.02
ρ; φU型U型U型C类U型N个ρ; φU型U型U型C类U型N个
(a) λ=5%
100×偏差(β1)100×偏差(β2)
0; 10.85−3.28−0.560.820; 1−0.551.16−0.11−0.54
0; 2−0.60−9.18−5.350.910; 20.453.872.08−0.15
0.25; 2−0.69−10.49−6.550.900.25; 20.484.772.92−0.19
0.5; 2−0.49−9.18−5.331.030.5; 20.293.661.86−0.31
0.8; −2.97−16.80−12时10分2.060.8; 1.807.104.85−0.06
100×MSE(β1)100×MSE(β2)
0; 10.430.480.360.420; 10.210.190.170.21
0; 20.641.420.830.680; 20.330.440.320.35
0.25; 20.691.851.140.710.25; 20.350.600.440.36
0.5; 21.091.831.221.180.5; 20.520.580.470.55
0.8; 1.484.292.831.680.8; 0.571.010.710.64
(b) λ=20%
100×偏差(β1)100×偏差(β2)
0; 1−1.30−13.40−9.48−1.400; 10.955.623.810.93
0; 2−0.88−17.10−12.203.940; 21.086.213.99−0.86
0.25; 2−0.27−16.90−11.904.180.25; 2−0.205.473.25−2.05
0.5; 20.08−17.00−12.105.050.5; 2−0.435.353.14−2.46
100×MSE(β1)100×MSE(β2)
0; 10.942.281.360.900; 10.570.590.410.55
0; 21.754.432.882.130; 20.951.110.841.03
0.25; 21.263.962.461.590.25; 20.670.800.570.76
0.5; 21.714.332.802.260.5; 20.8710.741.02

注:样本量K(K)为100,则真相关结构和工作相关结构均为AR1。协变量随时间变化。稳健方法基于τ=1.345的Huber函数。

即使在正常情况下,如果污染分布不对称,也存在明显的偏差。当λ=20%时,所有情况下的偏差都会变得更大。我们的方法在所有情况下都成功地消除了稳健GEE估计中的偏差。EXC和AR1工作模型下的类似结果表明,工作相关性矩阵似乎对性能没有影响。

然而,对于对称分布(正态),正如我们所预期的那样,在偏差校正中没有增益。表3,偏差论坛对于受污染的泊松数据,即使λ=5%,也约为12%,这表明需要对有效的统计推断进行偏差校正。

表3

基于100个模拟的泊松响应100×偏差和100×MSE的比较

ρ; φU型U型U型C类U型N个ρ; φU型U型U型C类U型N个
(a) λ=5%,协变量为二元(0或1,各50%)
100×偏差(β1)100×偏差(β2)
0; 1−0.43−3.78−1.63−0.480; 10.170.300.180.17
0; 20.02−7.65−4.78−0.250; 20.240.870.510.24
0.25; 2−0.85−8.97−6.27−1.150.25; 20.531.310.890.53
0.5; 20.41−8.37−5.72−0.010.5; 20.791.711.340.81
0.8; −1.68−11.70−8.00−2.180.8; 1.732.902.081.72
(b) λ=20%,协变量为二元(0或1,各50%)
100×偏差(β1)100×偏差(β2)
0; 11.38−7.73−5.041.100; 10.290.790.450.27
0; 2−0.33−10.20−6.48−0.670; 20.491.380.750.47
0.25; 2−0.79−10.80−7.15−1.160.25; 20.561.590.910.55
0.5; 2−1.41−11.50−7.93−1.800.5; 20.731.891.170.73
0.8; 1.76−13.50−8.90.780.8;1.513.672.561.51
(c) λ=20%,协变量随时间变化
100×偏差(β1)100×偏差(β2)
0; 10.98−9.88−7.911.170; 11.071.401.041.03
0; 2−0.83−11.50−8.95−0.510; 20.932.081.550.89
0.25; 21.54−10.00−7.531.790.25; 21.211.821.351.14
0.5; 2−0.93−12.10−9.55−0.660.5; 21.272.481.911.23
0.8; 2.74−10.70−7.872.880.8;2.142.772.202.06
ρ; φU型U型U型C类U型N个ρ; φU型U型U型C类U型N个
(a) λ=5%,协变量为二元(0或1,各50%)
100×偏差(β1)100×偏差(β2)
0; 1−0.43−3.78−1.63−0.480; 10.170.300.180.17
0; 20.02−7.65−4.78−0.250; 20.240.870.510.24
0.25; 2−0.85−8.97−6.27−1.150.25; 20.531.310.890.53
0.5; 20.41−8.37−5.72−0.010.5; 20.791.711.340.81
0.8; −1.68−11.70−8.00−2.180.8; 1.732.902.081.72
(b) λ=20%,协变量为二元(0或1,各50%)
100×偏差(β1)100×偏差(β2)
0; 11.38−7.73−5.041.100; 10.290.790.450.27
0; 2−0.33−10.20−6.48−0.670; 20.491.380.750.47
0.25; 2−0.79−10.80−7.15−1.160.25; 20.561.590.910.55
0.5; 2−1.41−11.50−7.93−1.800.5; 20.731.891.170.73
0.8; 1.76−13.50−8.90.780.8; 1.513.672.561.51
(c) λ=20%,协变量随时间变化
100×偏差(β1)100×偏差(β2)
0; 10.98−9.88−7.911.170; 11.071.401.041.03
0; 2−0.83−11.50−8.95−0.510; 20.932.081.550.89
0.25; 21.54−10.00−7.531.790.25; 21.211.821.351.14
0.5; 2−0.93−12.10−9.55−0.660.5; 21.272.481.911.23
0.8; 2.74−10.70−7.872.880.8; 2.142.772.202.06

注:样本量K(K)为100,Huber函数(τ=1.8)。真相关结构为AR1,工作相关为EXC。污染率为λ=0.05。

表3

基于100个模拟的泊松响应100×偏差和100×MSE的比较

ρ; φU型U型U型C类U型N个ρ; φU型U型U型C类U型N个
(a) λ=5%,协变量为二元(0或1,各50%)
100×偏差(β1)100×偏差(β2)
0; 1−0.43−3.78−1.63−0.480; 10.170.300.180.17
0; 20.02−7.65−4.78−0.250; 20.240.870.510.24
0.25; 2−0.85−8.97−6.27−1.150.25; 20.531.310.890.53
0.5; 20.41−8.37−5.72−0.010.5; 20.791.711.340.81
0.8; −1.68−11.70−8点−2.180.8; 1.732.902.081.72
(b) λ=20%,协变量为二元(0或1,各50%)
100×偏差(β1)100×偏差(β2)
0; 11.38−7.73−5.041.100; 10.290.790.450.27
0; 2−0.33−10.20−6.48−0.670; 20.491.380.750.47
0.25; 2−0.79−10.80−7.15−1.160.25; 20.561.590.910.55
0.5; 2−1.41−11.50−7.93−1.800.5; 20.731.891.170.73
0.8; 1.76−13.50−8.90.780.8; 1.513.672.561.51
(c) λ=20%,协变随时间变化
100×偏差(β1)100×偏差(β2)
0; 10.98−9.88−7.911.170; 11.071.401.041.03
0; 2−0.83−11.50−8.95−0.510; 20.932.081.550.89
0.25; 21.54−10.00−7.531.790.25; 21.211.821.351.14
0.5; 2−0.93−12.10−9.55−0.660.5; 21.272.481.911.23
0.8; 2.74−10.70−7.872.880.8; 2.142.772.202.06
ρ; φU型U型U型C类U型N个ρ; φU型U型U型C类U型N个
(a) λ=5%,协变为二进制(0或1,各50%)
100×偏差(β1)100×偏差(β2)
0; 1−0.43−3.78−1.63−0.480; 10.170.300.180.17
0; 20.02−7.65−4.78−0.250; 20.240.870.510.24
0.25; 2−0.85−8.97−6.27−1.150.25; 20.531.310.890.53
0.5; 20.41−8.37−5.72−0.010.5; 20.791.711.340.81
0.8; −1.68−11.70−8.00−2.180.8; 1.732.902.081.72
(b) λ=20%,协变量为二元(0或1,各50%)
100×偏差(β1)100×偏差(β2)
0; 11.38−7.73−5.041.100; 10.290.790.450.27
0; 2−0.33−10月20日−6.48−0.670; 20.491.380.750.47
0.25; 2−0.79−10.80−7.15−1.160.25; 20.561.590.910.55
0.5; 2−1.41−11.50−7.93−1.800.5; 20.731.891.170.73
0.8; 1.76−13.50−8.90.780.8; 1.513.672.561.51
(c) λ=20%,协变量随时间变化
100×偏差(β1)100×偏差(β2)
0; 10.98−9.88−7.911.170; 11.071.401.041.03
0; 2−0.83−11.50−8.95−0.510; 20.932.081.550.89
0.25; 21.54−10.00−7.531.790.25; 21.211.821.351.14
0.5; 2−0.93−12.10−9.55−0.660.5; 21.272.481.911.23
0.8; 2.74−10.70−7.872.880.8; 2.142.772.202.06

注:样本量K(K)为100,Huber函数(τ=1.8)。真相关结构为AR1,工作相关为EXC。污染率为λ=0.05。

表3还显示了50%的受试者有四个观察值,而其他50%受试者则有八个观察值时泊松数据估计值的MSE。考虑了两种类型的协变量(簇级和簇内)。同样论坛已基本移除。与其他估计量相比,偏差修正估计量的MSE也大大降低。

偏差修正估计器的性能与GEE估计器类似。这是因为对于GEE方法,平均值和方差函数几乎是正确指定的。但对于稳健方法,均值和方差函数总是被错误指定。因此,我们的模拟设置有利于GEE方法。

偏差校正成功地减少了偏差。但这通常会导致新估计器的方差较大,因此MSE较大。的确,如所示表12,在某些情况下,建议的方法效果较差。因为我们对偏差的估计是基于对异常值不敏感的稳健估计函数,所以我们期望在某些情况下表现良好(请参阅表3).

我们还检查了各种其他λ值和M(M)结合不同的协变量设计和Huber函数中不同的τ值(簇大小相等和不等),得出了非常相似的结论。

4.示例

我们现在使用癫痫发作研究的数据集进行说明。有关研究的详细信息,请参阅塔尔和维尔(1990)这项随机试验包括31名接受进展治疗的患者和28名接受安慰剂治疗的患者。59名患者的癫痫发作计数以连续4个2周的间隔进行记录,基线周期为8周。实验期间使用了两种不同的治疗方法(安慰剂和药物)。我们在模型中考虑了四个因素:治疗(安慰剂为0,药物为1),年龄对数,基线发作次数(除以4,然后进行对数转换),以及治疗与基线发作之间的相互作用。log-link函数,μ=经验(x个T型β) ,以及过分散的泊松方差var() =φμ在我们的分析中使用。发现与受试者的相关性很强(论坛对于具有AR1工作相关假设的GEE方法),提出了各种协方差模型来解释泊松回归模型中的额外变化。

我们首先使用GLM(独立GEE模型)对数据进行拟合,发现过度分散参数φ为3.8。所有受试者的平均成对剩余产品也显示出显著的受试者内相关性。因此,我们采用了普通的GEE方法(即。,L(左)第页-标准,第页=2)具有AR1工作相关结构。β及其相应标准误差的估计值见表4.正如所指出的Diggle等人(2002年),207号患者在基线检查时癫痫发作次数极高,治疗后癫痫发作次数增加了一倍(见图1.5Diggle等人,2002年). 一种简单的方法是丢弃该患者的数据(Diggle等人,2002年). 然而,我们的残差图显示,112、207、225和227名患者都可能是“异常值”(图1),并且很难证明将它们全部排除在分析之外是合理的,因为这样做没有临床依据(塔尔和维尔,1990年). 因此,使用一些稳健估计方法进行分析非常有趣。

表4

使用AR1工作模型对癫痫数据的参数估计(括号中的标准误差)

拦截治疗日志(年龄)日志(基线)互动
τ=1.345的Huber函数
论坛−3.07 (0.93)−1.49 (0.42)0.98 (0.27)0.94(0.09)0.62 (0.17)
论坛−2.83 (0.99)−1.48 (0.39)0.88 (0.30)0.96 (0.08)0.59(0.17)
论坛−2.70 (0.98)−1.43 (0.39)0.86 (0.29)0.94 (0.07)0.58 (0.17)
论坛−3.00 (1.02)−1.49 (0.35)0.97 (0.31)0.94(0.07)0.62 (0.14)
向右:L(左)第页规范(第页= 2.0)
论坛−3.07 (0.93)−1.49 (0.42)0.98 (0.27)0.94 (0.09)0.62 (0.17)
稳健的GEE(第页= 1.5)
论坛−2.75 (1.08)−1.51 (0.42)0.86 (0.33)0.96 (0.08)0.62 (0.18)
论坛−2.69 (1.33)−1.31 (0.46)0.87 (0.40)0.93 (0.07)0.57 (0.20)
论坛−3.16 (1.08)−1.54(0.37)1.01 (0.33)0.94 (0.10)0.64 (0.15)
拦截治疗日志(年龄)日志(基线)互动
τ=1.345的Huber函数
论坛−3.07 (0.93)−1.49 (0.42)0.98 (0.27)0.94 (0.09)0.62 (0.17)
论坛−2.83 (0.99)−1.48 (0.39)0.88 (0.30)0.96(0.08)0.59 (0.17)
论坛−2.70 (0.98)−1.43 (0.39)0.86 (0.29)0.94 (0.07)0.58 (0.17)
论坛−3.00 (1.02)−1.49 (0.35)0.97 (0.31)0.94 (0.07)0.62 (0.14)
向右:L(左)第页规范(第页= 2.0)
论坛−3.07 (0.93)−1.49 (0.42)0.98 (0.27)0.94 (0.09)0.62 (0.17)
稳健的GEE(第页= 1.5)
论坛−2.75 (1.08)−1.51(0.42)0.86 (0.33)0.96 (0.08)0.62 (0.18)
论坛−2.69 (1.33)−1.31 (0.46)0.87(0.40)0.93 (0.07)0.57 (0.20)
论坛−3.16 (1.08)−1.54 (0.37)1.01 (0.33)0.94 (0.10)0.64 (0.15)
表4

使用AR1工作模型对癫痫数据的参数估计(括号中的标准误差)

拦截治疗日志(年龄)日志(基线)互动
τ=1.345的Huber函数
论坛−3.07 (0.93)−1.49 (0.42)0.98 (0.27)0.94 (0.09)0.62 (0.17)
论坛−2.83 (0.99)−1.48 (0.39)0.88 (0.30)0.96 (0.08)0.59 (0.17)
论坛−2.70 (0.98)−1.43 (0.39)0.86 (0.29)0.94 (0.07)0.58 (0.17)
论坛−3.00 (1.02)−1.49 (0.35)0.97 (0.31)0.94 (0.07)0.62 (0.14)
地点:L(左)第页规范(第页= 2.0)
论坛−3.07 (0.93)−1.49 (0.42)0.98 (0.27)0.94(0.09)0.62 (0.17)
稳健的GEE(第页= 1.5)
论坛−2.75 (1.08)−1.51 (0.42)0.86 (0.33)0.96 (0.08)0.62 (0.18)
论坛−2.69(1.33)−1.31 (0.46)0.87 (0.40)0.93 (0.07)0.57 (0.20)
论坛−3.16 (1.08)−1.54 (0.37)1.01 (0.33)0.94 (0.10)0.64 (0.15)
拦截治疗日志(年龄)日志(基线)互动
τ=1.345的Huber函数
论坛−3.07 (0.93)−1.49 (0.42)0.98 (0.27)0.94 (0.09)0.62 (0.17)
论坛−2.83 (0.99)−1.48 (0.39)0.88 (0.30)0.96 (0.08)0.59 (0.17)
论坛−2.70(0.98)−1.43 (0.39)0.86 (0.29)0.94 (0.07)0.58 (0.17)
论坛−3.00 (1.02)−1.49(0.35)0.97 (0.31)0.94 (0.07)0.62 (0.14)
向右:L(左)第页规范(第页= 2.0)
论坛−3.07 (0.93)−1.49 (0.42)0.98(0.27)0.94 (0.09)0.62 (0.17)
稳健的GEE(第页= 1.5)
论坛−2.75 (1.08)−1.51 (0.42)0.86 (0.33)0.96 (0.08)0.62 (0.18)
论坛−2.69 (1.33)−1.31 (0.46)0.87 (0.40)0.93 (0.07)0.57 (0.20)
论坛−3.16 (1.08)−1.54 (0.37)1.01 (0.33)0.94 (0.10)0.64 (0.15)
癫痫发作数据的残差图。可能的异常值由患者ID识别。
图1

癫痫发作数据的残差图。通过患者ID识别可能的异常值。

我们使用τ=1.345的Huber函数进一步应用了稳健的GEE方法。这种方法导致估计值发生了重大变化。正如人们所料,残差图显示出高度偏斜。因此,在应用稳健方法时,有必要进行偏差修正。因此,我们考虑了两者论坛论坛。请注意论坛与GEE估计值有很大不同,这意味着在评估E{ψ(ε)}可能不合适。因此,我们的无分布偏差校正方法在稳健估计过程中可能有用。我们还发现E的偏差(U型)用这两种方法估计论坛论坛,显示出实质性差异。作为进一步的检查,我们使用预测值作为平均值生成了泊松数据,并获得了皮尔逊残差。情节比年的情节对称得多图1,表明发作计数数据比泊松分布更为偏斜。

另一种使GEE估计器鲁棒的方法是使用L(左)第页-范数而不是Huber函数。这是因为当1≤第页< 2. 表4,我们还对第页= 1.5. 与GEE相比(即。,第页=2)结果,估计值,尤其是截距,差异很大。然而,对于第页=1.5,稳健GEE的估计值显示出与普通GEE的一些显著差异。注意,所有稳健估计,包括Huber方法的估计,都不再保留相同的含义。因此,我们预计估计值会有所不同,因为残差是高度倾斜的,为了进行有效的推断,有必要进行偏差校正。此外,通过偏差修正,估计值应具有相同的含义,以便直接比较变得有意义。带有偏差修正的估计值更接近GEE估计值。从Huber估计结果中也可以得出关于偏差修正的类似结论。

5.讨论

考虑的稳健方法Preisser和Qaqish(1999),Hu和Lachin(2001)、和Cantoni和Ronchetti(2001)为稳健推断建立了一种有用且方便的方法。我们的目的是消除由于增强GEE估计量而产生的偏差。这里提出的方法是无分布的,一般适用。我们的模拟研究表明,偏差校正对连续分布和离散分布都有效。如前所述,U型选择(β) 是理论上的最优估计函数。但它需要分布假设,因此它仍然是一种基于相似性的方法。当难以指定“真实”分布时,我们的无分布方法提供了一种有用的替代方法。

在存在过度分散的情况下Cantoni和Ronchetti(2001)只能根据二项式或泊松分布等已知分布校正部分偏差。通过使用β二项式和负二项式分布,将他们的方法推广到过分散二项式和泊松分布是很有意思的。然而,这种偏差校正是特定于分布的,即诱导过度分散的不同分布将导致不同的偏差表达式。当可能性出现错误时,进一步检查这些基于相似性的偏差校正方法的性能也很有意思。另一方面,我们可能希望根据转换后的残差(如中位数)得出结论,即使对于偏态分布,也可能不需要进行偏差校正。例如,在比较两种治疗方法时,中位数而不是平均值也是合适的,并且无需校正中位数估计值以使其成为平均值估计值。

致谢

我们要感谢联合主编和副主编的建设性意见,这些意见使论文得到了很大的改进。这项研究得到了新加坡国立大学拨款R-155-000-037-112的部分支持。

工具书类

坎通尼
,
E.公司。
龙凯蒂
,
E.公司。
(
2001
).
广义线性模型的稳健推理。
 
美国统计协会杂志
 
96
,
1022
1030
.

芝加哥
,
电子显微镜。
(
1994
).
交叉试验中的M估计
.
生物识别
 
50
,
486
493
.

挖掘
,
第J页。
,
亨格蒂
,
第页。
,
,
K.Y.公司。
、和
Zeger公司
,
S.L.公司。
(
2002
).
纵向数据分析
,第2版。
牛津
:
牛津大学出版社
.

,
附言。
(
2000
).
纵向数据的稳健混合线性模型分析。
 
医学统计学
 
19
,
975
987
.

,
十、。
,
,
Z.-Y.公司。
、和
,
W.K.公司。
(
2002
).
具有未指定依赖结构的纵向数据的半参数模型估计。
 
生物计量学
 
89
,
579
590
.

,
墨西哥。
拉金
,
J·M·。
(
2001
).
稳健估计方程在定量纵向数据分析中的应用。
 
医学统计学
 
20
,
3411
3428
.

胡贝尔
,
第J页。
(
1981
).
稳健的统计
.
纽约
:
威利
.

哈金斯
,
风险管理。
(
1993
).
一种稳健的重复测量分析方法
.
生物识别
 
49
,
715
720
.

荣格
,
S.-H.公司。
(
1996
).
中值回归模型的拟似然
.
美国统计协会杂志
 
91
,
251
257
.

荣格(Jung)
,
S.-H.公司。
,
Z.公司。
(
2003
).
重复测量数据的基于秩的回归。
 
生物计量学
 
90
,
731
740
.

,
K.Y.公司。
泽格
,
S.L.公司。
(
1986
).
使用广义线性模型进行纵向数据分析。
 
生物计量学
 
73
,
13
22
.

普赖塞尔
,
J.S.公司。
卡奇什
,
B.F.公司。
(
1999
).
基于二进制响应的聚类数据稳健回归
.
生物识别
 
55
,
574
579
.

卡奇什
,
B.F.公司。
普赖塞尔
,
J.S.公司。
(
1999
).
相关结果回归的阻力拟合——估计方程法
.
统计规划与推断杂志
 
75
,
415
431
.

施拉德尔
,
风险管理。
赫特曼斯佩格
,
T.P.公司。
(
1980
).
基于似然比准则的方差稳健分析
.
生物计量学
 
67
,
93
101
.

小型
,
C.G.公司。
麦克利什
,
D.升。
(
1994
).
概率统计推断中的希尔伯特空间方法
.
纽约
:
威利
.

街道
,
J.O.公司。
,
卡罗尔
,
右J。
、和
鲁珀特
,
D。
(
1988
).
关于用迭代加权最小二乘法计算稳健回归估计的注记
.
美国统计学家
 
42
,
152
154
.

塔尔
,
P.F.公司。
维尔
,
南卡罗来纳州。
(
1990
).
具有过分散性的纵向计数数据的协方差模型
.
生物识别
 
46
,
657
671
.

,
Y.-G.公司。
凯里
,
V·J。
(
2003
).
工作相关结构错误指定、估计和协变量设计:对GEE绩效的影响
.
生物计量学
 
90
,
29
41
.

,
Y.-G.公司。
凯里
,
V·J。
(
2004
).
非定时重复测量的工作相关模型的无偏估计方程。
 
美国统计协会杂志
 
99
,
845
853
.

,
Y.-G.公司。
,
十、。
(
2005
).
纵向数据分析中方差函数错误指定的影响
.
生物识别
doi:doi:.

威尔士的
,
A.H.公司。
理查森
,
上午。
(
1997
). 混合模型的稳健估计方法。
统计手册
,音量
15
,
通用标准。
 
马达拉
C.R.公司。
 
(编辑),
343
384
.
阿姆斯特丹
:
爱思维尔
.

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)