摘要
当与模型假设存在微小偏差时,稳健方法有助于做出可靠的统计推断。通过将标准化残差替换为M(M)-残差。如果假设皮尔逊残差为零无偏,则当误差分布不对称时,稳健方法的参数估计量是渐近有偏的。我们提出了一种无分布的方法来纠正这种偏差。我们的大量数值研究表明,所提出的方法可以大大降低偏差。举例说明。
1.简介
纵向研究的特点是在一定时间内对个体进行重复测量。这些研究导致了有趣的统计研究,以考虑重复观测之间可能的相关性。纵向数据分析的统计方法通常也适用于具有嵌套、空间和家庭/窝结构的数据(Diggle等人,2002年).
广义线性模型的方法提供了一个方便的框架,用于将异质方差建模为分析连续/离散数据时均值的函数。然而,这种框架不能用于分析相关数据,因为很难建立具有必要边缘属性的多元似然函数。这激发了梁泽格(1986)开发广义估计方程(GEE)方法,该方法涉及“工作”相关矩阵,以提高估计效率。事实上,协方差矩阵应被视为“工作”矩阵,因为方差函数在实践中也会出现错误规定(王和林,2005).
分析纵向数据有几种方法,包括随机效应模型、边际模型和条件模型。特别是,众所周知的GEE方法只需要指定边际均值和协方差函数。该理论来源于构造参数估计的皮尔逊残差的最佳线性组合。该方法原则上与加权最小二乘法非常相似,不具有任何鲁棒性。
传统的稳健方法M(M)-独立数据的估计可以很好地描述为Huber(1981)最近,一些作者考虑了纵向数据分析的稳健方法。例如,何、朱、冯(2002)提出M(M)-部分线性模型中的估计量,以及Jung和Ying(2003)探索了重复测量的排序方法。但他们的方法忽略了来自同一主题的观察结果之间的相关性。Preisser和Qaqish(1999)通过向下加权有影响的数据点,提出了GEE方法的抵抗版本。如果权重取决于响应,则需要高阶矩假设才能获得无偏估计方程。哈金斯(1993)和吉尔(2000)还将稳健方法应用于基于多元正态分布的重复测量。他们的方法类似于使用稳健似然作为工作模型。Welsh和Richardson(1997)调查的多变量t吨-分布和截断正态分布。皮尔逊残差的线性变换可以导致不相关的残差,因此传统的M(M)-可以使用估计。然而,对于这些方法,需要联合分布的对称性,这是一个很强的假设。
Hu和Lachin(2001)建议通过将Huber函数应用于标准化残差来对GEE方法进行稳健化。这种方法仅适用于误差分布对称的情况。许多其他人也需要这种假设(Schrader和Hettmansperger,1980年;街道、卡罗尔和鲁珀特,1988年;Chi,1994年;吉尔,2000).Hu和Lachin(2001)对受到各种其他误差分布(可能是倾斜的)污染的正态和柯西响应进行了广泛的模拟,并得出结论,稳健GEE总体上优于普通GEE。Cantoni和Ronchetti(2001)考虑分布通常不对称的广义线性模型的稳健分析。他们还展示了当核心分布为二项式或泊松分布时,如何获得Huber函数的偏差项。
过度分散和偏斜在实践中很常见。纵向数据中的主题相关性使得稳健推断更具挑战性。在本文中,我们考虑了GEE方法的一个稳健版本,并介绍了一种不需要任何分布假设的一步偏差校正技术。我们的大量仿真研究表明,所提出的方法可以大大减少从鲁棒函数继承的参数估计中的偏差。还利用一项癫痫发作研究的数据说明了所提出的方法。
2.稳健估计函数
让年它表示t吨第个观察结果我第个主题,其中我= 1, … , K(K)和t吨= 1, … , n个我,然后年我==========================================================(年我1, … , 年)T型是我主题。还让X(X)我= (x个我1, … , x个)T型是的设计矩阵n个我×第页尺寸我第个主题,其中x个它= (x个它1, … , x个信息技术计划)是t吨th观察值和βis第页-维度向量。所以我们有E(年我) =μ我=克(X(X)T型我β) ,其中克(·)是广义线性模型(GLM)框架中定义的链接函数,响应的方差定义为平均值var的函数(年我) =φA类2我(μ我),其中φ是色散参数A类2我(μ我)是一个n个我×n个我对角方差函数。稍后,我们将抑制对A类我在μ上我当没有混淆时。对于GEE方法(Liang和Zeger,1986年),让D类我=∂μ我/∂βT型; 我们可以得到第页-向量β通过求解以下估算方程:
哪里对我(α) 是一个“工作”相关矩阵,通常假设其具有参数α的指定结构。相关参数α可以通过基于残差的方法获得,如矩法、高斯法和准最小二乘法(Wang和Carey,2003年,2004).
假设是β的估计量,通过求解U型克(β) = 0. 正如所指出的Hu和Lachin(2001)GEE方法在纵向数据分析中非常有用;然而,在某些情况下,它对非正态残差和异常值的敏感性可能导致矛盾的结果。因此,稳健的方法也适用于纵向数据。独立数据的传统方法是将总损失函数定义为个人数据损失的总和。然而,这种方法忽略了相关性,这对于分析纵向数据是不可取的。还很难定义多元损失函数,以便有效地考虑相关性。
为了继续,让第页我= (第页我1, …,第页)T型= (φ1/2A类我)−1(年我-μ我)为标准化残差。当以真实值进行评估时,β=β0,第页我成为真实误差(未观察到),表示为ε我假设ε的cdf和pdf它是F类它和(f)它分别是。对于选定的函数ψ,我们指ψ(第页我) ={ψ(第页我1), … , ψ(第页)}T型作为M(M)-残差。这里ψ(·)是一个向下加权函数。例如,众所周知的Huber函数是ψ(第页)=最小{τ,最大{第页,-τ}}(τ是一个正调谐常数,通常选为1.345)。如果L(左)第页使用范数,我们有ψ(第页) = |第页|第页−1sgn公司(第页). 请注意L(左)第页范数不会导致有界推理,除非第页= 1. 稳健残差ψ(第页我),也称为M(M)-本文中的残差。
考虑基本估计函数η似乎是合理的我=ψ(第页我)−E{ψ(ε我)}并构造这些鲁棒残差的最优或次优线性组合用于参数估计(Qaqish和Preisser,1999年). 请注意t吨η的th元素我是ψ(第页它)−E{ψ(ε它)},仅涉及第页它但不是第页伊尔对于我≠t吨这种方法将使我们能够利用单变量“稳健”损失函数,例如L(左)第页纵向数据的范数和Huber函数。根据广义高斯-马尔可夫定理,基估计函数的最佳线性组合形式为(Small和McLeish,1994年)
哪里是由var(η)组成的对角矩阵我)、和为corr(η我). 方差矩阵可以选择为常量,因为第页我是标准化的。例如,(此处我是单位矩阵),用于与τ=0的Huber函数相对应的中值回归或L(左)第页规范第页= 1 (Jung,1996年).
与GEE方法相同和应被视为“工作”矩阵,用于M(M)-残差ψ(第页我). 尽管(2)提供了一种可行的鲁棒推理方法,有一些基本问题需要解决,(i)E{ψ(ε它)}理论上取决于误差分布,以及(ii)雅可比矩阵和工作矩阵还需要进一步建模或近似。
一般来说,,它变为对于Huber函数,以及对于L(左)第页规范。显然,我们有E{ψ(ε它)}对称分布为0。我们将考虑ε它可能不是对称的。
如果ψ(·)是可微的,我们让一它=E[ε它ψ′(ε它)]和b条它=E[ψ′(ε它)]. 为了更一般并涵盖ψ(·)不可微的情况,设(一它,b条它)由以下展开式确定:
作为δ21+δ22→ 0。这意味着
在哪儿B类我=诊断(b条它)和S公司我=诊断(一它)是对角矩阵,F类我=∂σ我/∂βT型是一个n个我×第页矩阵和σ2我={var(年它)}/φ、 对角矩阵。
对于已知或给定的E{ψ(ε我)},最佳估计函数为
当σ2我不是β的函数,F类我是0的矩阵。矩阵A类我和D类我是熟悉的,而B类我和F类我在文献中不太熟悉。对于Huber函数,b条它=Pr(|ɛ它|≤τ),即2F类它(τ) −1,和。对于L(左)第页正常,我们有一它=0和
估算F类T型我S公司我和因此很难,因为它涉及ε的密度函数它另一方面,F类T型我S公司我通常很小,如果不是0,var(η我)应近似为常数;因此,我们建议使用以下次优稳健估计函数,
然而,上述估计函数仍需要计算E{ψ(ε我)}如果没有分配假设,这也被认为是很困难的。假设对称误差分布和B类我=计算机接口对于某个常量标量c(c),U型N个(β) 成为评估函数Hu和Lachin(2001),
得到的估计器,,当E{ψ(ε我)}≠0,当误差分布倾斜时为真。
为了考虑非对称分布,我们需要推导E{ψ(ε我)},一它和b条它,这需要指定错误分布。例如,Cantoni和Ronchetti(2001)导出E{ψ(ε我)}假设二项分布和泊松分布的Huber函数。我们旨在纠正不做任何分配假设。
要消除中的偏差,我们可以相提并论(5)而不是0,即。,
其中右侧是E的估计量[U型对(β0)]. 这导致了偏差校正的鲁棒估计器,。让我们再次检查.将泰勒级数展开应用于U型对(β) 实际值β0,我们有
因此我们得到了,其中
注意,通过在将不起作用,因为根据以下定义,估计偏差将变为0.尽管不具备稳健性,可以用它来获得Δ的合理估计。这导致了偏差修正估计函数(6).
如果ψ(·)是可微的,则,对于中值回归,我们可以使用,其中包括2个估计值(f)它(0) (Jung,1996年). 平均值(f)它(0)可以通过
其中δ是哦(K(K)−1/5)Ind是指示函数。因此,我们得到Δas的估计量
因此是一个偏差修正估计量这里,α和φ也是用稳健方法估计的。例如,Hu和Lachin(2001)使用以下稳健的规模估计:
哪里是皮尔逊残差小时是一个常数,取决于误差的分布(小时≈1.483(正常残差)。α的稳健估计可以通过矩方法获得,
对于自回归模型和
对于可交换模型,其中S公司2是{ψ的平均值2(第页它)},我= 1, … , K(K)和t吨= 1, … , n个我。的渐近协方差可以通过夹心法获得
3.数值研究
为了研究偏差校正方法的性能,我们对通过组合不同分布、污染率(λ)、相关结构和协变量结构获得的各种模型进行了仿真研究。考虑了两种类型的分布:
对于正常响应,稳健估计确实改进了GEE方法,并且U型N个类似于U型克在偏差和MSE方面(表1). 这是因为母N(0,1)分布使E{ψ(ε我)}=0近似为真,在这种情况下,稳健的GEE比GEE工作得更好(胡和拉钦,2001). 注意,对于对称分布(如正态分布)的响应,U型C类与…一致U型对。因此没有关于的结果U型C类在里面表1.
表1当反应被χ污染时,100×偏差和100×MSE的比较2(4) −4基于200次模拟
. | AR1型. | EXC公司. | . | AR1公司. | EXC公司. |
---|
ρ. | U型克. | U型对. | U型N个. | U型克. | U型对. | U型N个. | ρ. | U型克. | U型对. | U型N个. | U型克. | U型对. | U型N个. |
---|
(a) λ=5% |
| | | 100×偏差(β1) | | 100×偏差(β2) | |
0 | −0.09 | −1.34 | −0.09 | −0.10 | −1.31 | 0.37 | 0 | 0.01 | −0.07 | 0.01 | 0.01 | −0.08 | −0.15 |
0.25 | −1.27 | −2.07 | −1.26 | −0.81 | −1.76 | −0.58 | 0.25 | 0.42 | 0.21 | 0.42 | 0.31 | 0.14 | 0.16 |
0.5 | 0.68 | −0.54 | 0.68 | 0.64 | −0.54 | −1.48 | 0.5 | −0.19 | −0.31 | −0.19 | −0.18 | −0.33 | 0.35 |
0.8 | −0.06 | −0.97 | −0.06 | −0.08 | −1.04 | −0.12 | 0.8 | −0.05 | −0.34 | −0.50 | −0.02 | −0.34 | 0.28 |
| | | 100×MSE(β1) | | 100×MSE(β2) | |
0 | 1.69 | 1.39 | 1.69 | 1.69 | 1.39 | 1.70 | 0 | 0.12 | 0.10 | 0.12 | 0.12 | 0.10 | 0.12 |
0.25 | 2.21 | 2.19 | 2.21 | 2.24 | 2.20 | 2.24 | 0.25 | 0.14 | 0.14 | 0.14 | 0.14 | 0.14 | 0.14 |
0.5 | 2.71 | 2.22 | 2.71 | 2.77 | 2.34 | 2.77 | 0.5 | 0.17 | 0.14 | 0.17 | 0.17 | 0.15 | 0.17 |
0.8 | 2.21 | 1.95 | 2.22 | 2.27 | 2.05 | 2.27 | 0.8 | 0.09 | 0.09 | 0.09 | 0.10 | 0.10 | 0.10 |
(b) λ=20% |
| | | 100×偏差(β1) | | 100×偏差(β2) | |
0 | 1.46 | −4.96 | 1.47 | 1.41 | −4.99 | 1.43 | 0 | −0.05 | −0.16 | −0.05 | −0.04 | −0.15 | −0.04 |
0.25 | −0.26 | −6.81 | −0.24 | −0.53 | −7.10 | −0.52 | 0.25 | 0.14 | 0.15 | 0.14 | 0.22 | 0.22 | 0.22 |
0.5 | −2.19 | −6.76 | −2.19 | −2.36 | −7.52 | −2.36 | 0.5 | 0.72 | 0.04 | 0.73 | 0.76 | 0.16 | 0.76 |
0.8 | −0.86 | −7.32 | −0.82 | −0.67 | −7.48 | −0.63 | 0.8 | −0.28 | −0.60 | −0.28 | −0.27 | −0.61 | −0.28 |
| | | 100×MSE(β1) | | 100×MSE(β2) | |
0 | 3.65 | 2.49 | 3.66 | 3.66 | 2.48 | 3.67 | 0 | 0.26 | 0.16 | 0.26 | 0.26 | 0.16 | 0.26 |
0.25 | 3.62 | 3.27 | 3.63 | 3.59 | 3.30 | 3.59 | 0.25 | 0.22 | 0.18 | 0.23 | 0.23 | 0.18 | 0.23 |
0.5 | 3.84 | 3.30 | 3.85 | 4.62 | 3.73 | 4.64 | 0.5 | 0.25 | 0.17 | 0.25 | 0.27 | 0.18 | 0.28 |
0.8 | 2.89 | 2.58 | 2.91 | 3.20 | 2.92 | 3.22 | 0.8 | 0.13 | 0.12 | 0.14 | 0.15 | 0.13 | 0.15 |
. | AR1公司. | EXC公司. | . | AR1公司. | EXC公司. |
---|
ρ. | U型克. | U型对. | U型N个. | U型克. | U型对. | U型N个. | ρ. | U型克. | U型对. | U型N个. | U型克. | U型对. | U型N个. |
---|
(a) λ=5% |
| | | 100×偏差(β1) | | 100×偏差(β2) | |
0 | −0.09 | −1.34 | −0.09 | −0.10 | −1.31 | 0.37 | 0 | 0.01 | −0.07 | 0.01 | 0.01 | −0.08 | −0.15 |
0.25 | −1.27 | −2.07 | −1.26 | −0.81 | −1.76 | −0.58 | 0.25 | 0.42 | 0.21 | 0.42 | 0.31 | 0.14 | 0.16 |
0.5 | 0.68 | −0.54 | 0.68 | 0.64 | −0.54 | −1.48 | 0.5 | −0.19 | −0.31 | −0.19 | −0.18 | −0.33 | 0.35 |
0.8 | −0.06 | −0.97 | −0.06 | −0.08 | −1.04 | −0.12 | 0.8 | −0.05 | −0.34 | −0.50 | −0.02 | −0.34 | 0.28 |
| | | 100×MSE(β1) | | 100×MSE(β2) | |
0 | 1.69 | 1.39 | 1.69 | 1.69 | 1.39 | 1.70 | 0 | 0.12 | 0.10 | 0.12 | 0.12 | 0.10 | 0.12 |
0.25 | 2.21 | 2.19 | 2.21 | 2.24 | 2.20 | 2.24 | 0.25 | 0.14 | 0.14 | 0.14 | 0.14 | 0.14 | 0.14 |
0.5 | 2.71 | 2.22 | 2.71 | 2.77 | 2.34 | 2.77 | 0.5 | 0.17 | 0.14 | 0.17 | 0.17 | 0.15 | 0.17 |
0.8 | 2.21 | 1.95 | 2.22 | 2.27 | 2.05 | 2.27 | 0.8 | 0.09 | 0.09 | 0.09 | 0.10 | 0.10 | 0.10 |
(b) λ=20% |
| | | 100×偏差(β1) | | 100×偏差(β2) | |
0 | 1.46 | −4.96 | 1.47 | 1.41 | −4.99 | 1.43 | 0 | −0.05 | −0.16 | −0.05 | −0.04 | −0.15 | −0.04 |
0.25 | −0.26 | −6.81 | −0.24 | −0.53 | −7.10 | −0.52 | 0.25 | 0.14 | 0.15 | 0.14 | 0.22 | 0.22 | 0.22 |
0.5 | −2.19 | −6.76 | −2.19 | −2.36 | −7.52 | −2.36 | 0.5 | 0.72 | 0.04 | 0.73 | 0.76 | 0.16 | 0.76 |
0.8 | −0.86 | −7.32 | −0.82 | −0.67 | −7.48 | −0.63 | 0.8 | −0.28 | −0.60 | −0.28 | −0.27 | −0.61 | −0.28 |
| | | 100×MSE(β1) | | 100×MSE(β2) | |
0 | 3.65 | 2.49 | 3.66 | 3.66 | 2.48 | 3.67 | 0 | 0.26 | 0.16 | 0.26 | 0.26 | 0.16 | 0.26 |
0.25 | 3.62 | 3.27 | 3.63 | 3.59 | 3.30 | 3.59 | 0.25 | 0.22 | 0.18 | 0.23 | 0.23 | 0.18 | 0.23 |
0.5 | 3.84 | 3.30 | 3.85 | 4.62 | 3.73 | 4.64 | 0.5 | 0.25 | 0.17 | 0.25 | 0.27 | 0.18 | 0.28 |
0.8 | 2.89 | 2.58 | 2.91 | 3.20 | 2.92 | 3.22 | 0.8 | 0.13 | 0.12 | 0.14 | 0.15 | 0.13 | 0.15 |
表1当反应被χ污染时,100×偏差和100×MSE的比较2(4) −4基于200次模拟
. | AR1公司. | EXC公司. | . | AR1公司. | EXC公司. |
---|
ρ. | U型克. | U型对. | U型N个. | U型克. | U型对. | U型N个. | ρ. | U型克. | U型对. | U型N个. | U型克. | U型对. | U型N个. |
---|
(a) λ=5% |
| | | 100×偏差(β1) | | 100×偏差(β2) | |
0 | −0.09 | −1.34 | −0.09 | −0.10 | −1.31 | 0.37 | 0 | 0.01 | −0.07 | 0.01 | 0.01 | −0.08 | −0.15 |
0.25 | −1.27 | −2.07 | −1.26 | −0.81 | −1.76 | −0.58 | 0.25 | 0.42 | 0.21 | 0.42 | 0.31 | 0.14 | 0.16 |
0.5 | 0.68 | −0.54 | 0.68 | 0.64 | −0.54 | −1.48 | 0.5 | −0.19 | −0.31 | −0.19 | −0.18 | −0.33 | 0.35 |
0.8 | −0.06 | −0.97 | −0.06 | −0.08 | −1.04 | −0.12 | 0.8 | −0.05 | −0.34 | −0.50 | −0.02 | −0.34 | 0.28 |
| | | 100×MSE(β1) | | 100×MSE(β2) | |
0 | 1.69 | 1.39 | 1.69 | 1.69 | 1.39 | 1.70 | 0 | 0.12 | 0.10 | 0.12 | 0.12 | 0.10 | 0.12 |
0.25 | 2.21 | 2.19 | 2.21 | 2.24 | 2.20 | 2.24 | 0.25 | 0.14 | 0.14 | 0.14 | 0.14 | 0.14 | 0.14 |
0.5 | 2.71 | 2.22 | 2.71 | 2.77 | 2.34 | 2.77 | 0.5 | 0.17 | 0.14 | 0.17 | 0.17 | 0.15 | 0.17 |
0.8 | 2.21 | 1.95 | 2.22 | 2.27 | 2.05 | 2.27 | 0.8 | 0.09 | 0.09 | 0.09 | 0.10 | 0.10 | 0.10 |
(b) λ=20% |
| | | 100×偏差(β1) | | 100×偏差(β2) | |
0 | 1.46 | −4.96 | 1.47 | 1.41 | −4.99 | 1.43 | 0 | −0.05 | −0.16 | −0.05 | −0.04 | −0.15 | −0.04 |
0.25 | −0.26 | −6.81 | −0.24 | −0.53 | −7.10 | −0.52 | 0.25 | 0.14 | 0.15 | 0.14 | 0.22 | 0.22 | 0.22 |
0.5 | −2.19 | −6.76 | −2.19 | −2.36 | −7.52 | −2.36 | 0.5 | 0.72 | 0.04 | 0.73 | 0.76 | 0.16 | 0.76 |
0.8 | −0.86 | −7.32 | −0.82 | −0.67 | −7.48 | −0.63 | 0.8 | −0.28 | −0.60 | −0.28 | −0.27 | −0.61 | −0.28 |
| | | 100×MSE(β1) | | 100×MSE(β2) | |
0 | 3.65 | 2.49 | 3.66 | 3.66 | 2.48 | 3.67 | 0 | 0.26 | 0.16 | 0.26 | 0.26 | 0.16 | 0.26 |
0.25 | 3.62 | 3.27 | 3.63 | 3.59 | 3.30 | 3.59 | 0.25 | 0.22 | 0.18 | 0.23 | 0.23 | 0.18 | 0.23 |
0.5 | 3.84 | 3.30 | 3.85 | 4.62 | 3.73 | 4.64 | 0.5 | 0.25 | 0.17 | 0.25 | 0.27 | 0.18 | 0.28 |
0.8 | 2.89 | 2.58 | 2.91 | 3.20 | 2.92 | 3.22 | 0.8 | 0.13 | 0.12 | 0.14 | 0.15 | 0.13 | 0.15 |
. | AR1公司. | EXC公司. | . | AR1型. | EXC公司. |
---|
ρ. | U型克. | U型对. | U型N个. | U型克. | U型对. | U型N个. | ρ. | U型克. | U型对. | U型N个. | U型克. | U型对. | U型N个. |
---|
(a) λ=5% |
| | | 100×偏差(β1) | | 100×偏差(β2) | |
0 | −0.09 | −1.34 | −0.09 | −0.10 | −1.31 | 0.37 | 0 | 0.01 | −0.07 | 0.01 | 0.01 | −0.08 | −0.15 |
0.25 | −1.27 | −2.07 | −1.26 | −0.81 | −1.76 | −0.58 | 0.25 | 0.42 | 0.21 | 0.42 | 0.31 | 0.14 | 0.16 |
0.5 | 0.68 | −0.54 | 0.68 | 0.64 | −0.54 | −1.48 | 0.5 | −0.19 | −0.31 | −0.19 | −0.18 | −0.33 | 0.35 |
0.8 | −0.06 | −0.97 | −0.06 | −0.08 | −1.04 | −0.12 | 0.8 | −0.05 | −0.34 | −0.50 | −0.02 | −0.34 | 0.28 |
| | | 100×MSE(β1) | | 100×MSE(β2) | |
0 | 1.69 | 1.39 | 1.69 | 1.69 | 1.39 | 1.70 | 0 | 0.12 | 0.10 | 0.12 | 0.12 | 0.10 | 0.12 |
0.25 | 2.21 | 2.19 | 2.21 | 2.24 | 2.20 | 2.24 | 0.25 | 0.14 | 0.14 | 0.14 | 0.14 | 0.14 | 0.14 |
0.5 | 2.71 | 2.22 | 2.71 | 2.77 | 2.34 | 2.77 | 0.5 | 0.17 | 0.14 | 0.17 | 0.17 | 0.15 | 0.17 |
0.8 | 2.21 | 1.95 | 2.22 | 2.27 | 2.05 | 2.27 | 0.8 | 0.09 | 0.09 | 0.09 | 0.10 | 0.10 | 0.10 |
(b) λ=20% |
| | | 100×偏差(β1) | | 100×偏差(β2) | |
0 | 1.46 | −4.96 | 1.47 | 1.41 | −4.99 | 1.43 | 0 | −0.05 | −0.16 | −0.05 | −0.04 | −0.15 | −0.04 |
0.25 | −0.26 | −6.81 | −0.24 | −0.53 | −7.10 | −0.52 | 0.25 | 0.14 | 0.15 | 0.14 | 0.22 | 0.22 | 0.22 |
0.5 | −2.19 | −6.76 | −2.19 | −2.36 | −7.52 | −2.36 | 0.5 | 0.72 | 0.04 | 0.73 | 0.76 | 0.16 | 0.76 |
0.8 | −0.86 | −7.32 | −0.82 | −0.67 | −7.48 | −0.63 | 0.8 | −0.28 | −0.60 | −0.28 | −0.27 | −0.61 | −0.28 |
| | | 100×MSE(β1) | | 100×MSE(β2) | |
0 | 3.65 | 2.49 | 3.66 | 3.66 | 2.48 | 3.67 | 0 | 0.26 | 0.16 | 0.26 | 0.26 | 0.16 | 0.26 |
0.25 | 3.62 | 3.27 | 3.63 | 3.59 | 3.30 | 3.59 | 0.25 | 0.22 | 0.18 | 0.23 | 0.23 | 0.18 | 0.23 |
0.5 | 3.84 | 3.30 | 3.85 | 4.62 | 3.73 | 4.64 | 0.5 | 0.25 | 0.17 | 0.25 | 0.27 | 0.18 | 0.28 |
0.8 | 2.89 | 2.58 | 2.91 | 3.20 | 2.92 | 3.22 | 0.8 | 0.13 | 0.12 | 0.14 | 0.15 | 0.13 | 0.15 |
然而,由于稳健估计中存在大量偏差,泊松响应不再如此。偏差校正还导致MSE降低。当污染率较高(20%)时,稳健GEE估计值可能会有很大偏差。表2使用Huber方法比较泊松数据的估计量的偏差和均方误差(MSE);注意,表中的“φ”表示泊松数据的过度分散。对于泊松数据,我们还使用Cantoni和Ronchetti(2001)(表示为U型C类).
表2基于100个模拟的泊松响应100×偏差和100×MSE的比较
ρ; φ. | U型克. | U型对. | U型C类. | U型N个. | ρ; φ. | U型克. | U型对. | U型C类. | U型N个. |
---|
(a) λ=5% |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | 0.85 | −3.28 | −0.56 | 0.82 | 0; 1 | −0.55 | 1.16 | −0.11 | −0.54 |
0; 2 | −0.60 | −9.18 | −5.35 | 0.91 | 0; 2 | 0.45 | 3.87 | 2.08 | −0.15 |
0.25; 2 | −0.69 | −10.49 | −6.55 | 0.90 | 0.25; 2 | 0.48 | 4.77 | 2.92 | −0.19 |
0.5; 2 | −0.49 | −9.18 | −5.33 | 1.03 | 0.5; 2 | 0.29 | 3.66 | 1.86 | −0.31 |
0.8;三 | −2.97 | −16.80 | −12.10 | 2.06 | 0.8; 三 | 1.80 | 7.10 | 4.85 | −0.06 |
| | 100×毫秒(β1) | | 100×MSE(β2) | |
0; 1 | 0.43 | 0.48 | 0.36 | 0.42 | 0; 1 | 0.21 | 0.19 | 0.17 | 0.21 |
0; 2 | 0.64 | 1.42 | 0.83 | 0.68 | 0; 2 | 0.33 | 0.44 | 0.32 | 0.35 |
0.25; 2 | 0.69 | 1.85 | 1.14 | 0.71 | 0.25; 2 | 0.35 | 0.60 | 0.44 | 0.36 |
0.5; 2 | 1.09 | 1.83 | 1.22 | 1.18 | 0.5; 2 | 0.52 | 0.58 | 0.47 | 0.55 |
0.8; 三 | 1.48 | 4.29 | 2.83 | 1.68 | 0.8; 三 | 0.57 | 1.01 | 0.71 | 0.64 |
(b) λ=20% |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | −1.30 | −13.40 | −9.48 | −1.40 | 0; 1 | 0.95 | 5.62 | 3.81 | 0.93 |
0; 2 | −0.88 | −17.10 | −12.20 | 3.94 | 0; 2 | 1.08 | 6.21 | 3.99 | −0.86 |
0.25; 2 | −0.27 | −16.90 | −11.90 | 4.18 | 0.25; 2 | −0.20 | 5.47 | 3.25 | −2.05 |
0.5; 2 | 0.08 | −17时 | −12.10 | 5.05 | 0.5; 2 | −0.43 | 5.35 | 3.14 | −2.46 |
| | 100×MSE(β1) | | 100×MSE(β2) | |
0; 1 | 0.94 | 2.28 | 1.36 | 0.90 | 0; 1 | 0.57 | 0.59 | 0.41 | 0.55 |
0; 2 | 1.75 | 4.43 | 2.88 | 2.13 | 0; 2 | 0.95 | 1.11 | 0.84 | 1.03 |
0.25; 2 | 1.26 | 3.96 | 2.46 | 1.59 | 0.25; 2 | 0.67 | 0.80 | 0.57 | 0.76 |
0.5; 2 | 1.71 | 4.33 | 2.80 | 2.26 | 0.5; 2 | 0.87 | 1 | 0.74 | 1.02 |
ρ; φ. | U型克. | U型对. | U型C类. | U型N个. | ρ; φ. | U型克. | U型对. | U型C类. | U型N个. |
---|
(a) λ=5% |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | 0.85 | −3.28 | −0.56 | 0.82 | 0; 1 | −0.55 | 1.16 | −0.11 | −0.54 |
0; 2 | −0.60 | −9.18 | −5.35 | 0.91 | 0; 2 | 0.45 | 3.87 | 2.08 | −0.15 |
0.25; 2 | −0.69 | −10.49 | −6.55 | 0.90 | 0.25; 2 | 0.48 | 4.77 | 2.92 | −0.19 |
0.5; 2 | −0.49 | −9.18 | −5.33 | 1.03 | 0.5; 2 | 0.29 | 3.66 | 1.86 | −0.31 |
0.8; 三 | −2.97 | −16.80 | −12.10 | 2.06 | 0.8; 三 | 1.80 | 7.10 | 4.85 | −0.06 |
| | 100×MSE(β1) | | 100×MSE(β2) | |
0; 1 | 0.43 | 0.48 | 0.36 | 0.42 | 0; 1 | 0.21 | 0.19 | 0.17 | 0.21 |
0; 2 | 0.64 | 1.42 | 0.83 | 0.68 | 0; 2 | 0.33 | 0.44 | 0.32 | 0.35 |
0.25; 2 | 0.69 | 1.85 | 1.14 | 0.71 | 0.25; 2 | 0.35 | 0.60 | 0.44 | 0.36 |
0.5; 2 | 1.09 | 1.83 | 1.22 | 1.18 | 0.5; 2 | 0.52 | 0.58 | 0.47 | 0.55 |
0.8; 三 | 1.48 | 4.29 | 2.83 | 1.68 | 0.8; 三 | 0.57 | 1.01 | 0.71 | 0.64 |
(b) λ=20% |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | −1.30 | −13.40 | −9.48 | −1.40 | 0; 1 | 0.95 | 5.62 | 3.81 | 0.93 |
0; 2 | −0.88 | −17.10 | −12.20 | 3.94 | 0; 2 | 1.08 | 6.21 | 3.99 | −0.86 |
0.25; 2 | −0.27 | −16.90 | −11.90 | 4.18 | 0.25; 2 | −0.20 | 5.47 | 3.25 | −2.05 |
0.5; 2 | 0.08 | −17.00 | −12.10 | 5.05 | 0.5; 2 | −0.43 | 5.35 | 3.14 | −2.46 |
| | 100×MSE(β1) | | 100×MSE(β2) | |
0; 1 | 0.94 | 2.28 | 1.36 | 0.90 | 0; 1 | 0.57 | 0.59 | 0.41 | 0.55 |
0; 2 | 1.75 | 4.43 | 2.88 | 2.13 | 0; 2 | 0.95 | 1.11 | 0.84 | 1.03 |
0.25; 2 | 1.26 | 3.96 | 2.46 | 1.59 | 0.25; 2 | 0.67 | 0.80 | 0.57 | 0.76 |
0.5; 2 | 1.71 | 4.33 | 2.80 | 2.26 | 0.5; 2 | 0.87 | 1 | 0.74 | 1.02 |
表2基于100个模拟的泊松响应100×偏差和100×MSE的比较
ρ; φ. | U型克. | U型对. | U型C类. | U型N个. | ρ;φ. | U型克. | U型对. | U型C类. | U型N个. |
---|
(a) λ=5% |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | 0.85 | −3.28 | −0.56 | 0.82 | 0; 1 | −0.55 | 1.16 | −0.11 | −0.54 |
0; 2 | −0.60 | −9.18 | −5.35 | 0.91 | 0; 2 | 0.45 | 3.87 | 2.08 | −0.15 |
0.25; 2 | −0.69 | −10.49 | −6.55 | 0.90 | 0.25; 2 | 0.48 | 4.77 | 2.92 | −0.19 |
0.5; 2 | −0.49 | −9.18 | −5.33 | 1.03 | 0.5; 2 | 0.29 | 3.66 | 1.86 | −0.31 |
0.8; 三 | −2.97 | −16.80 | −12.10 | 2.06 | 0.8; 三 | 1.80 | 7.10 | 4.85 | −0.06 |
| | 100×MSE(β1) | | 100×MSE(β2) | |
0; 1 | 0.43 | 0.48 | 0.36 | 0.42 | 0; 1 | 0.21 | 0.19 | 0.17 | 0.21 |
0; 2 | 0.64 | 1.42 | 0.83 | 0.68 | 0; 2 | 0.33 | 0.44 | 0.32 | 0.35 |
0.25; 2 | 0.69 | 1.85 | 1.14 | 0.71 | 0.25; 2 | 0.35 | 0.60 | 0.44 | 0.36 |
0.5; 2 | 1.09 | 1.83 | 1.22 | 1.18 | 0.5; 2 | 0.52 | 0.58 | 0.47 | 0.55 |
0.8;三 | 1.48 | 4.29 | 2.83 | 1.68 | 0.8; 三 | 0.57 | 1.01 | 0.71 | 0.64 |
(b) λ=20% |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | −1.30 | −13.40 | −9.48 | −1.40 | 0; 1 | 0.95 | 5.62 | 3.81 | 0.93 |
0; 2 | −0.88 | −17.10 | −12.20 | 3.94 | 0; 2 | 1.08 | 6.21 | 3.99 | −0.86 |
0.25; 2 | −0.27 | −16.90 | −11.90 | 4.18 | 0.25; 2 | −0.20 | 5.47 | 3.25 | −2.05 |
0.5; 2 | 0.08 | −17.00 | −12.10 | 5.05 | 0.5; 2 | −0.43 | 5.35 | 3.14 | −2.46 |
| | 100×MSE(β1) | | 100×MSE(β2) | |
0; 1 | 0.94 | 2.28 | 1.36 | 0.90 | 0; 1 | 0.57 | 0.59 | 0.41 | 0.55 |
0; 2 | 1.75 | 4.43 | 2.88 | 2.13 | 0; 2 | 0.95 | 1.11 | 0.84 | 1.03 |
0.25; 2 | 1.26 | 3.96 | 2.46 | 1.59 | 0.25; 2 | 0.67 | 0.80 | 0.57 | 0.76 |
0.5; 2 | 1.71 | 4.33 | 2.80 | 2.26 | 0.5; 2 | 0.87 | 1 | 0.74 | 1.02 |
ρ; φ. | U型克. | U型对. | U型C类. | U型N个. | ρ; φ. | U型克. | U型对. | U型C类. | U型N个. |
---|
(a) λ=5% |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | 0.85 | −3.28 | −0.56 | 0.82 | 0; 1 | −0.55 | 1.16 | −0.11 | −0.54 |
0; 2 | −0.60 | −9.18 | −5.35 | 0.91 | 0; 2 | 0.45 | 3.87 | 2.08 | −0.15 |
0.25; 2 | −0.69 | −10.49 | −6.55 | 0.90 | 0.25; 2 | 0.48 | 4.77 | 2.92 | −0.19 |
0.5; 2 | −0.49 | −9.18 | −5.33 | 1.03 | 0.5; 2 | 0.29 | 3.66 | 1.86 | −0.31 |
0.8; 三 | −2.97 | −16.80 | −12时10分 | 2.06 | 0.8; 三 | 1.80 | 7.10 | 4.85 | −0.06 |
| | 100×MSE(β1) | | 100×MSE(β2) | |
0; 1 | 0.43 | 0.48 | 0.36 | 0.42 | 0; 1 | 0.21 | 0.19 | 0.17 | 0.21 |
0; 2 | 0.64 | 1.42 | 0.83 | 0.68 | 0; 2 | 0.33 | 0.44 | 0.32 | 0.35 |
0.25; 2 | 0.69 | 1.85 | 1.14 | 0.71 | 0.25; 2 | 0.35 | 0.60 | 0.44 | 0.36 |
0.5; 2 | 1.09 | 1.83 | 1.22 | 1.18 | 0.5; 2 | 0.52 | 0.58 | 0.47 | 0.55 |
0.8; 三 | 1.48 | 4.29 | 2.83 | 1.68 | 0.8; 三 | 0.57 | 1.01 | 0.71 | 0.64 |
(b) λ=20% |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | −1.30 | −13.40 | −9.48 | −1.40 | 0; 1 | 0.95 | 5.62 | 3.81 | 0.93 |
0; 2 | −0.88 | −17.10 | −12.20 | 3.94 | 0; 2 | 1.08 | 6.21 | 3.99 | −0.86 |
0.25; 2 | −0.27 | −16.90 | −11.90 | 4.18 | 0.25; 2 | −0.20 | 5.47 | 3.25 | −2.05 |
0.5; 2 | 0.08 | −17.00 | −12.10 | 5.05 | 0.5; 2 | −0.43 | 5.35 | 3.14 | −2.46 |
| | 100×MSE(β1) | | 100×MSE(β2) | |
0; 1 | 0.94 | 2.28 | 1.36 | 0.90 | 0; 1 | 0.57 | 0.59 | 0.41 | 0.55 |
0; 2 | 1.75 | 4.43 | 2.88 | 2.13 | 0; 2 | 0.95 | 1.11 | 0.84 | 1.03 |
0.25; 2 | 1.26 | 3.96 | 2.46 | 1.59 | 0.25; 2 | 0.67 | 0.80 | 0.57 | 0.76 |
0.5; 2 | 1.71 | 4.33 | 2.80 | 2.26 | 0.5; 2 | 0.87 | 1 | 0.74 | 1.02 |
即使在正常情况下,如果污染分布不对称,也存在明显的偏差。当λ=20%时,所有情况下的偏差都会变得更大。我们的方法在所有情况下都成功地消除了稳健GEE估计中的偏差。EXC和AR1工作模型下的类似结果表明,工作相关性矩阵似乎对性能没有影响。
然而,对于对称分布(正态),正如我们所预期的那样,在偏差校正中没有增益。在表3,偏差对于受污染的泊松数据,即使λ=5%,也约为12%,这表明需要对有效的统计推断进行偏差校正。
表3基于100个模拟的泊松响应100×偏差和100×MSE的比较
ρ; φ. | U型克. | U型对. | U型C类. | U型N个. | ρ; φ. | U型克. | U型对. | U型C类. | U型N个. |
---|
(a) λ=5%,协变量为二元(0或1,各50%) |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | −0.43 | −3.78 | −1.63 | −0.48 | 0; 1 | 0.17 | 0.30 | 0.18 | 0.17 |
0; 2 | 0.02 | −7.65 | −4.78 | −0.25 | 0; 2 | 0.24 | 0.87 | 0.51 | 0.24 |
0.25; 2 | −0.85 | −8.97 | −6.27 | −1.15 | 0.25; 2 | 0.53 | 1.31 | 0.89 | 0.53 |
0.5; 2 | 0.41 | −8.37 | −5.72 | −0.01 | 0.5; 2 | 0.79 | 1.71 | 1.34 | 0.81 |
0.8; 三 | −1.68 | −11.70 | −8.00 | −2.18 | 0.8; 三 | 1.73 | 2.90 | 2.08 | 1.72 |
(b) λ=20%,协变量为二元(0或1,各50%) |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | 1.38 | −7.73 | −5.04 | 1.10 | 0; 1 | 0.29 | 0.79 | 0.45 | 0.27 |
0; 2 | −0.33 | −10.20 | −6.48 | −0.67 | 0; 2 | 0.49 | 1.38 | 0.75 | 0.47 |
0.25; 2 | −0.79 | −10.80 | −7.15 | −1.16 | 0.25; 2 | 0.56 | 1.59 | 0.91 | 0.55 |
0.5; 2 | −1.41 | −11.50 | −7.93 | −1.80 | 0.5; 2 | 0.73 | 1.89 | 1.17 | 0.73 |
0.8; 三 | 1.76 | −13.50 | −8.9 | 0.78 | 0.8;三 | 1.51 | 3.67 | 2.56 | 1.51 |
(c) λ=20%,协变量随时间变化 |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | 0.98 | −9.88 | −7.91 | 1.17 | 0; 1 | 1.07 | 1.40 | 1.04 | 1.03 |
0; 2 | −0.83 | −11.50 | −8.95 | −0.51 | 0; 2 | 0.93 | 2.08 | 1.55 | 0.89 |
0.25; 2 | 1.54 | −10.00 | −7.53 | 1.79 | 0.25; 2 | 1.21 | 1.82 | 1.35 | 1.14 |
0.5; 2 | −0.93 | −12.10 | −9.55 | −0.66 | 0.5; 2 | 1.27 | 2.48 | 1.91 | 1.23 |
0.8; 三 | 2.74 | −10.70 | −7.87 | 2.88 | 0.8;三 | 2.14 | 2.77 | 2.20 | 2.06 |
ρ; φ. | U型克. | U型对. | U型C类. | U型N个. | ρ; φ. | U型克. | U型对. | U型C类. | U型N个. |
---|
(a) λ=5%,协变量为二元(0或1,各50%) |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | −0.43 | −3.78 | −1.63 | −0.48 | 0; 1 | 0.17 | 0.30 | 0.18 | 0.17 |
0; 2 | 0.02 | −7.65 | −4.78 | −0.25 | 0; 2 | 0.24 | 0.87 | 0.51 | 0.24 |
0.25; 2 | −0.85 | −8.97 | −6.27 | −1.15 | 0.25; 2 | 0.53 | 1.31 | 0.89 | 0.53 |
0.5; 2 | 0.41 | −8.37 | −5.72 | −0.01 | 0.5; 2 | 0.79 | 1.71 | 1.34 | 0.81 |
0.8; 三 | −1.68 | −11.70 | −8.00 | −2.18 | 0.8; 三 | 1.73 | 2.90 | 2.08 | 1.72 |
(b) λ=20%,协变量为二元(0或1,各50%) |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | 1.38 | −7.73 | −5.04 | 1.10 | 0; 1 | 0.29 | 0.79 | 0.45 | 0.27 |
0; 2 | −0.33 | −10.20 | −6.48 | −0.67 | 0; 2 | 0.49 | 1.38 | 0.75 | 0.47 |
0.25; 2 | −0.79 | −10.80 | −7.15 | −1.16 | 0.25; 2 | 0.56 | 1.59 | 0.91 | 0.55 |
0.5; 2 | −1.41 | −11.50 | −7.93 | −1.80 | 0.5; 2 | 0.73 | 1.89 | 1.17 | 0.73 |
0.8; 三 | 1.76 | −13.50 | −8.9 | 0.78 | 0.8; 三 | 1.51 | 3.67 | 2.56 | 1.51 |
(c) λ=20%,协变量随时间变化 |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | 0.98 | −9.88 | −7.91 | 1.17 | 0; 1 | 1.07 | 1.40 | 1.04 | 1.03 |
0; 2 | −0.83 | −11.50 | −8.95 | −0.51 | 0; 2 | 0.93 | 2.08 | 1.55 | 0.89 |
0.25; 2 | 1.54 | −10.00 | −7.53 | 1.79 | 0.25; 2 | 1.21 | 1.82 | 1.35 | 1.14 |
0.5; 2 | −0.93 | −12.10 | −9.55 | −0.66 | 0.5; 2 | 1.27 | 2.48 | 1.91 | 1.23 |
0.8; 三 | 2.74 | −10.70 | −7.87 | 2.88 | 0.8; 三 | 2.14 | 2.77 | 2.20 | 2.06 |
表3基于100个模拟的泊松响应100×偏差和100×MSE的比较
ρ; φ. | U型克. | U型对. | U型C类. | U型N个. | ρ; φ. | U型克. | U型对. | U型C类. | U型N个. |
---|
(a) λ=5%,协变量为二元(0或1,各50%) |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | −0.43 | −3.78 | −1.63 | −0.48 | 0; 1 | 0.17 | 0.30 | 0.18 | 0.17 |
0; 2 | 0.02 | −7.65 | −4.78 | −0.25 | 0; 2 | 0.24 | 0.87 | 0.51 | 0.24 |
0.25; 2 | −0.85 | −8.97 | −6.27 | −1.15 | 0.25; 2 | 0.53 | 1.31 | 0.89 | 0.53 |
0.5; 2 | 0.41 | −8.37 | −5.72 | −0.01 | 0.5; 2 | 0.79 | 1.71 | 1.34 | 0.81 |
0.8; 三 | −1.68 | −11.70 | −8点 | −2.18 | 0.8; 三 | 1.73 | 2.90 | 2.08 | 1.72 |
(b) λ=20%,协变量为二元(0或1,各50%) |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | 1.38 | −7.73 | −5.04 | 1.10 | 0; 1 | 0.29 | 0.79 | 0.45 | 0.27 |
0; 2 | −0.33 | −10.20 | −6.48 | −0.67 | 0; 2 | 0.49 | 1.38 | 0.75 | 0.47 |
0.25; 2 | −0.79 | −10.80 | −7.15 | −1.16 | 0.25; 2 | 0.56 | 1.59 | 0.91 | 0.55 |
0.5; 2 | −1.41 | −11.50 | −7.93 | −1.80 | 0.5; 2 | 0.73 | 1.89 | 1.17 | 0.73 |
0.8; 三 | 1.76 | −13.50 | −8.9 | 0.78 | 0.8; 三 | 1.51 | 3.67 | 2.56 | 1.51 |
(c) λ=20%,协变随时间变化 |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | 0.98 | −9.88 | −7.91 | 1.17 | 0; 1 | 1.07 | 1.40 | 1.04 | 1.03 |
0; 2 | −0.83 | −11.50 | −8.95 | −0.51 | 0; 2 | 0.93 | 2.08 | 1.55 | 0.89 |
0.25; 2 | 1.54 | −10.00 | −7.53 | 1.79 | 0.25; 2 | 1.21 | 1.82 | 1.35 | 1.14 |
0.5; 2 | −0.93 | −12.10 | −9.55 | −0.66 | 0.5; 2 | 1.27 | 2.48 | 1.91 | 1.23 |
0.8; 三 | 2.74 | −10.70 | −7.87 | 2.88 | 0.8; 三 | 2.14 | 2.77 | 2.20 | 2.06 |
ρ; φ. | U型克. | U型对. | U型C类. | U型N个. | ρ; φ. | U型克. | U型对. | U型C类. | U型N个. |
---|
(a) λ=5%,协变为二进制(0或1,各50%) |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | −0.43 | −3.78 | −1.63 | −0.48 | 0; 1 | 0.17 | 0.30 | 0.18 | 0.17 |
0; 2 | 0.02 | −7.65 | −4.78 | −0.25 | 0; 2 | 0.24 | 0.87 | 0.51 | 0.24 |
0.25; 2 | −0.85 | −8.97 | −6.27 | −1.15 | 0.25; 2 | 0.53 | 1.31 | 0.89 | 0.53 |
0.5; 2 | 0.41 | −8.37 | −5.72 | −0.01 | 0.5; 2 | 0.79 | 1.71 | 1.34 | 0.81 |
0.8; 三 | −1.68 | −11.70 | −8.00 | −2.18 | 0.8; 三 | 1.73 | 2.90 | 2.08 | 1.72 |
(b) λ=20%,协变量为二元(0或1,各50%) |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | 1.38 | −7.73 | −5.04 | 1.10 | 0; 1 | 0.29 | 0.79 | 0.45 | 0.27 |
0; 2 | −0.33 | −10月20日 | −6.48 | −0.67 | 0; 2 | 0.49 | 1.38 | 0.75 | 0.47 |
0.25; 2 | −0.79 | −10.80 | −7.15 | −1.16 | 0.25; 2 | 0.56 | 1.59 | 0.91 | 0.55 |
0.5; 2 | −1.41 | −11.50 | −7.93 | −1.80 | 0.5; 2 | 0.73 | 1.89 | 1.17 | 0.73 |
0.8; 三 | 1.76 | −13.50 | −8.9 | 0.78 | 0.8; 三 | 1.51 | 3.67 | 2.56 | 1.51 |
(c) λ=20%,协变量随时间变化 |
| | 100×偏差(β1) | | 100×偏差(β2) | |
0; 1 | 0.98 | −9.88 | −7.91 | 1.17 | 0; 1 | 1.07 | 1.40 | 1.04 | 1.03 |
0; 2 | −0.83 | −11.50 | −8.95 | −0.51 | 0; 2 | 0.93 | 2.08 | 1.55 | 0.89 |
0.25; 2 | 1.54 | −10.00 | −7.53 | 1.79 | 0.25; 2 | 1.21 | 1.82 | 1.35 | 1.14 |
0.5; 2 | −0.93 | −12.10 | −9.55 | −0.66 | 0.5; 2 | 1.27 | 2.48 | 1.91 | 1.23 |
0.8; 三 | 2.74 | −10.70 | −7.87 | 2.88 | 0.8; 三 | 2.14 | 2.77 | 2.20 | 2.06 |
表3还显示了50%的受试者有四个观察值,而其他50%受试者则有八个观察值时泊松数据估计值的MSE。考虑了两种类型的协变量(簇级和簇内)。同样已基本移除。与其他估计量相比,偏差修正估计量的MSE也大大降低。
偏差修正估计器的性能与GEE估计器类似。这是因为对于GEE方法,平均值和方差函数几乎是正确指定的。但对于稳健方法,均值和方差函数总是被错误指定。因此,我们的模拟设置有利于GEE方法。
偏差校正成功地减少了偏差。但这通常会导致新估计器的方差较大,因此MSE较大。的确,如所示表1和2,在某些情况下,建议的方法效果较差。因为我们对偏差的估计是基于对异常值不敏感的稳健估计函数,所以我们期望在某些情况下表现良好(请参阅表3).
我们还检查了各种其他λ值和M(M)结合不同的协变量设计和Huber函数中不同的τ值(簇大小相等和不等),得出了非常相似的结论。
4.示例
我们现在使用癫痫发作研究的数据集进行说明。有关研究的详细信息,请参阅塔尔和维尔(1990)这项随机试验包括31名接受进展治疗的患者和28名接受安慰剂治疗的患者。59名患者的癫痫发作计数以连续4个2周的间隔进行记录,基线周期为8周。实验期间使用了两种不同的治疗方法(安慰剂和药物)。我们在模型中考虑了四个因素:治疗(安慰剂为0,药物为1),年龄对数,基线发作次数(除以4,然后进行对数转换),以及治疗与基线发作之间的相互作用。log-link函数,μ它=经验(x个T型它β) ,以及过分散的泊松方差var(年它) =φμ它在我们的分析中使用。发现与受试者的相关性很强(对于具有AR1工作相关假设的GEE方法),提出了各种协方差模型来解释泊松回归模型中的额外变化。
我们首先使用GLM(独立GEE模型)对数据进行拟合,发现过度分散参数φ为3.8。所有受试者的平均成对剩余产品也显示出显著的受试者内相关性。因此,我们采用了普通的GEE方法(即。,L(左)第页-标准,第页=2)具有AR1工作相关结构。β及其相应标准误差的估计值见表4.正如所指出的Diggle等人(2002年),207号患者在基线检查时癫痫发作次数极高,治疗后癫痫发作次数增加了一倍(见图1.5Diggle等人,2002年). 一种简单的方法是丢弃该患者的数据(Diggle等人,2002年). 然而,我们的残差图显示,112、207、225和227名患者都可能是“异常值”(图1),并且很难证明将它们全部排除在分析之外是合理的,因为这样做没有临床依据(塔尔和维尔,1990年). 因此,使用一些稳健估计方法进行分析非常有趣。
图1
癫痫发作数据的残差图。通过患者ID识别可能的异常值。
我们使用τ=1.345的Huber函数进一步应用了稳健的GEE方法。这种方法导致估计值发生了重大变化。正如人们所料,残差图显示出高度偏斜。因此,在应用稳健方法时,有必要进行偏差修正。因此,我们考虑了两者和。请注意与GEE估计值有很大不同,这意味着在评估E{ψ(ε它)}可能不合适。因此,我们的无分布偏差校正方法在稳健估计过程中可能有用。我们还发现E的偏差(U型对)用这两种方法估计和,显示出实质性差异。作为进一步的检查,我们使用预测值作为平均值生成了泊松数据,并获得了皮尔逊残差。情节比年的情节对称得多图1,表明发作计数数据比泊松分布更为偏斜。
另一种使GEE估计器鲁棒的方法是使用L(左)第页-范数而不是Huber函数。这是因为当1≤第页< 2. 在表4,我们还对第页= 1.5. 与GEE相比(即。,第页=2)结果,估计值,尤其是截距,差异很大。然而,对于第页=1.5,稳健GEE的估计值显示出与普通GEE的一些显著差异。注意,所有稳健估计,包括Huber方法的估计,都不再保留相同的含义。因此,我们预计估计值会有所不同,因为残差是高度倾斜的,为了进行有效的推断,有必要进行偏差校正。此外,通过偏差修正,估计值应具有相同的含义,以便直接比较变得有意义。带有偏差修正的估计值更接近GEE估计值。从Huber估计结果中也可以得出关于偏差修正的类似结论。
5.讨论
考虑的稳健方法Preisser和Qaqish(1999),Hu和Lachin(2001)、和Cantoni和Ronchetti(2001)为稳健推断建立了一种有用且方便的方法。我们的目的是消除由于增强GEE估计量而产生的偏差。这里提出的方法是无分布的,一般适用。我们的模拟研究表明,偏差校正对连续分布和离散分布都有效。如前所述,U型选择(β) 是理论上的最优估计函数。但它需要分布假设,因此它仍然是一种基于相似性的方法。当难以指定“真实”分布时,我们的无分布方法提供了一种有用的替代方法。
在存在过度分散的情况下Cantoni和Ronchetti(2001)只能根据二项式或泊松分布等已知分布校正部分偏差。通过使用β二项式和负二项式分布,将他们的方法推广到过分散二项式和泊松分布是很有意思的。然而,这种偏差校正是特定于分布的,即诱导过度分散的不同分布将导致不同的偏差表达式。当可能性出现错误时,进一步检查这些基于相似性的偏差校正方法的性能也很有意思。另一方面,我们可能希望根据转换后的残差(如中位数)得出结论,即使对于偏态分布,也可能不需要进行偏差校正。例如,在比较两种治疗方法时,中位数而不是平均值也是合适的,并且无需校正中位数估计值以使其成为平均值估计值。
致谢
我们要感谢联合主编和副主编的建设性意见,这些意见使论文得到了很大的改进。这项研究得到了新加坡国立大学拨款R-155-000-037-112的部分支持。
工具书类
坎通尼
,E.公司。
和龙凯蒂
,E.公司。
(
2001
).广义线性模型的稳健推理。
美国统计协会杂志
96
,1022
–1030
.芝加哥
,电子显微镜。
(
1994
).交叉试验中的M估计
.生物识别
50
,486
–493
.挖掘
,第J页。
,亨格蒂
,第页。
,梁
,K.Y.公司。
、和Zeger公司
,S.L.公司。
(
2002
).纵向数据分析
,第2版。牛津
:牛津大学出版社
.腮
,附言。
(
2000
).纵向数据的稳健混合线性模型分析。
医学统计学
19
,975
–987
.他
,十、。
,朱
,Z.-Y.公司。
、和冯
,W.K.公司。
(
2002
).具有未指定依赖结构的纵向数据的半参数模型估计。
生物计量学
89
,579
–590
.胡
,墨西哥。
和拉金
,J·M·。
(
2001
).稳健估计方程在定量纵向数据分析中的应用。
医学统计学
20
,3411
–3428
.胡贝尔
,第J页。
(
1981
).稳健的统计
.纽约
:威利
.
哈金斯
,风险管理。
(
1993
).一种稳健的重复测量分析方法
.生物识别
49
,715
–720
.荣格
,S.-H.公司。
(
1996
).中值回归模型的拟似然
.美国统计协会杂志
91
,251
–257
.荣格(Jung)
,S.-H.公司。
和应
,Z.公司。
(
2003
).重复测量数据的基于秩的回归。
生物计量学
90
,731
–740
.梁
,K.Y.公司。
和泽格
,S.L.公司。
(
1986
).使用广义线性模型进行纵向数据分析。
生物计量学
73
,13
–22
.普赖塞尔
,J.S.公司。
和卡奇什
,B.F.公司。
(
1999
).基于二进制响应的聚类数据稳健回归
.生物识别
55
,574
–579
.卡奇什
,B.F.公司。
和普赖塞尔
,J.S.公司。
(
1999
).相关结果回归的阻力拟合——估计方程法
.统计规划与推断杂志
75
,415
–431
.施拉德尔
,风险管理。
和赫特曼斯佩格
,T.P.公司。
(
1980
).基于似然比准则的方差稳健分析
.生物计量学
67
,93
–101
.小型
,C.G.公司。
和麦克利什
,D.升。
(
1994
).概率统计推断中的希尔伯特空间方法
.纽约
:威利
.街道
,J.O.公司。
,卡罗尔
,右J。
、和鲁珀特
,D。
(
1988
).关于用迭代加权最小二乘法计算稳健回归估计的注记
.美国统计学家
42
,152
–154
.塔尔
,P.F.公司。
和维尔
,南卡罗来纳州。
(
1990
).具有过分散性的纵向计数数据的协方差模型
.生物识别
46
,657
–671
.王
,Y.-G.公司。
和凯里
,V·J。
(
2003
).工作相关结构错误指定、估计和协变量设计:对GEE绩效的影响
.生物计量学
90
,29
–41
.王
,Y.-G.公司。
和凯里
,V·J。
(
2004
).非定时重复测量的工作相关模型的无偏估计方程。
美国统计协会杂志
99
,845
–853
.王
,Y.-G.公司。
和林
,十、。
(
2005
).纵向数据分析中方差函数错误指定的影响
.生物识别
doi:doi:.威尔士的
,A.H.公司。
和理查森
,上午。
(
1997
). 混合模型的稳健估计方法。在统计手册
,音量15
,通用标准。
马达拉
和C.R.公司。
饶
(编辑),343
–384
.阿姆斯特丹
:爱思维尔
.
©2005国际生物识别学会。