总结

半参数混合模型在生物特征和经济计量应用中非常有用,特别是对于纵向数据。Zhang及其同事已经证明,最大惩罚似然估计量(MPLE)对于线性系数和非参数函数都很有效。本文通过扩展线性模型的案例删除和主题删除分析,以适应非参数组件的包含,考虑了影响诊断在MPLE中的作用。我们专注于固定效应的影响度量,并提供了与简单模型类似的公式,并且易于使用MPLE算法进行计算。我们还建立了案例或主题删除模型与均值漂移离群值模型之间的等价性,并从中导出离群值测试。通过对孕酮的纵向激素研究和一个模拟示例说明了所提出的影响诊断。

1.简介

影响诊断已成为任何严肃统计分析的一部分。库克提出了一种重要的方法,用于根据案例删除来确定有影响力的观察结果(1977)用于线性回归模型。库克距离测量了移除一个观测值对参数估计或拟合值的影响。如果从数据集中删除影响点会在分析中产生显著差异,则会标记该影响点。如今,库克距离被广泛用于线性模型,这得益于它被纳入SAS和SPSS等流行统计软件。从案例删除的角度来看,库克距离有简单明确的解释,它可以直接从通常的最小二乘输出中计算出来,而无需为删除的每个观测值重新估计模型。

近年来,回归分析已经超越了独立数据的简单线性模型。我们注意到三个重要方向。第一种是使用广义线性模型,允许响应和预测值线性组合之间的灵活链接函数。广义线性模型的诊断研究可以在Williams中找到(1987)、托马斯和库克(1989)还有Davison和Tsai(1992)等等。Preisser和Qaqish(1996)将工作扩展到广义估计方程。第二个方向是良好平滑方法的可用性,它允许至少对一些预测因子估计非参数关系,如Silverman中所示(1985). 尤班克(1984,1985)、Eubank和Gunst(1986),卡莫迪(1988)、托马斯(1991)和Kim(1996)研究了样条曲线的影响度量。第三个扩展是对相关数据使用混合模型。例如,对来自不同领域的面板数据进行的纵向研究,包括流行病学、临床试验、商业和财务数据分析,通常会转向混合模型,以解释同一主题内观察结果之间的相关性。一些研究人员研究了线性混合模型的影响诊断。贝克曼等。(1987)Lesaffre和Verbeke(1998)建议的局部影响措施。克里斯滕森等。(1992)班纳吉和弗里斯(1997)分别研究了病例删除诊断和受试者删除诊断。在本文中,我们考虑了案例和主题删除对诊断的影响,以及半参数混合模型的离群值筛选。

最近的张等。(1998)认为半参数或部分线性混合模型在纵向研究中通常很有用,因为它们除了对协变量进行线性回归外,还包含了非参数的时间效应。他们推导出了最大惩罚似然估计量(MPLE),其非参数拟合是平滑样条。随机混合模型的MPLE的一个可取的特点是,它可以在统一的线性混合模型框架内对所有模型组件进行推断。在本文中,我们考虑基于案例或主题删除的MPLE影响诊断问题。我们旨在推导参数固定效应和类似于库克距离和DFFITS(Belsley)的非参数函数估计的直接可计算影响度量等。(1980),第15页)。为了区别于通常的线性模型上下文,本文使用DFIT代替DFFITS。我们使用Cook距离来测量对线性参数估计的影响,但使用DFIT来测量非参数拟合中的变化。总之,它们可以用于识别半参数混合模型中对MPLE具有潜在影响的案例或主题。

在我们考虑的模型中,影响诊断是对残差诊断的补充。与通常的线性回归设置一样,具有较大(标准化)残差的情况不一定会对我们的推断或预测产生问题。更令人担忧的是我们的一些分析和结论严重依赖的有影响力的案例。如果非参数曲线中某个因素或显著特征的重要性因数据集中包含或排除特定观察或主题而发生重大变化,我们的统计程序显然是不稳健的,我们必须意识到所做分析的敏感性。这就是我们进行诊断研究的动机。

确定影响点后往往会采取其他行动。它们包括验证这些有影响力的观测值的准确性,并用更稳健的方法重新调整模型。在大多数情况下,我们希望没有任何有影响力的观点引起真正的关注。无论结果如何,影响诊断以及通常基于残差的模型检查都有助于确保我们的统计分析建立在更坚实的基础上。

论文的其余部分组织如下。我们指定了半参数混合模型,并回顾了Zhang的MPLE等。(1998)在第节中2。我们在第节中给出了案例删除诊断并显示了与均值漂移异常值模型的密切联系,从中可以导出异常值测试。章节4考虑主题删除诊断。我们的结果推广了Christensen的结果等。(1992)以及Banerjee和Frees(1997)半参数混合模型。此外,我们还导出了异常值的测试。在节中5,我们通过Sowers报道的纵向激素研究来说明这些诊断方法等。(1998)后来由张分析等。(1998). 我们的影响诊断是针对以方差分量和平滑参数的估计值为条件而非自适应的固定效应。这种简化是因为需要避免为每次删除案例而重新安装模型。通过激素示例和模拟示例,我们说明了简化方法的诊断为使用方差分量和平滑参数的自适应估计的全尺度分析提供了一种快速但仍然有用的替代方法,因此需要计算。随机效应的诊断可根据与Christensen相同的病例删除方法进行等。(1992),但计算库克距离的更简单公式仍有待获得。在本文中,我们将使用粗体字母表示矩阵和向量。

用于模拟的数据可以从以下位置获得http://www.blackwellpublishers.co.uk/rss/

2.模型和估算方法

跟随张等。(1998),我们考虑用主题和n个随着时间的推移第个主题(=1,…,). Y(Y)ij公司是对时间点的第个主题t吨ij公司可以建模为

Y(Y)j个=X(X)j个T型β+(f)(t吨j个)+Z轴j个T型b条+U型(t吨j个)+εj个,
(2.1)

哪里β是一个第页与协变量相关的回归系数的×1向量X(X)ij公司,(f)(t吨)是某个有限区间上的二次可微光滑函数,b条是独立的q个与协变量相关的随机效应的×1向量Z轴ij公司,U型(t吨)是独立的随机过程εij公司是随机噪声。随机效应b条和过程U型(t吨)解释主题。

模型(2.1)的特殊情况可能会在某些应用中引起兴趣。如果全部n个=1,它简化为Heckman所考虑的部分线性模型(1986)、斯派克曼(1988)和何石(1996)在许多其他人中。如果(f)U型模型(2.1)中没有,我们回到线性混合模型。如果Z轴ij公司=1时,它简化为只有随机截距的典型面板数据模型;参见示例Li和Stengos(1996). 本文中导出的影响诊断将在每种特殊情况下简化。

我们将主题特定向量表示为Y(Y)=(Y(Y)1,…,Y(Y)在里面)T型,X(X),U型,Z轴ε,所有定义都类似。t吨0=(t吨10,…,t吨第页0)T型是时间点有序不同值的向量t吨ij公司(=1,…,,j个=1,…,n个),并让N个成为n个×第页关联矩阵主题是这样的(j个,)th元素等于1,如果t吨ij公司=t吨0否则为0。我们让Y(Y),X(X),N个,U型,εb条表示从堆叠同一符号的主题特定向量。例如,Y(Y)=(Y(Y)1T型,…,Y(Y)T型)T型此外,让Z轴=诊断(Z轴1,…,Z轴)和(f)=((f)(t吨10),…,(f)(t吨第页0))T型模型(2.1)可以写成

Y(Y)=X(X)β+N个(f)+Z轴b条+U型+ε
(2.2)

MPLE做出了以下分布假设。误差向量ε正常(0,σ2),随机效应b条正常(0,D类)带有D类=诊断(D类1,…,D类)以及基于流程的U型正常(0,Γ)带有Γ=诊断(Γ1,…,Γ). 通常,协方差矩阵D类Γ假设采用某些形式,并且依赖于相对较少的未知参数。我们指的是张等。(1998)了解更多详细信息。为了我们的目的,我们有cov(Y(Y))==诊断(1,…,)带有

=Z轴D类Z轴T型+σ2+Γ
(2.3)

鉴于,的对数似然函数(β,(f))是常数加号

(β,(f)Y(Y))=12日志||12(Y(Y)X(X)βN个(f))T型1(Y(Y)X(X)βN个(f)),
(2.4)

以及β(f)(t吨)通过最大化

L(左)(β,(f))=(β,(f)Y(Y))λ2(f)(t吨)2d日t吨=(β,(f)Y(Y))λ2(f)T型K(K)(f),
(2.5)

哪里λ是平滑参数K(K)是方程中给出的非负定平滑矩阵(2.3)格林和西尔弗曼(1994). 等。(1998)给出了贝叶斯限制最大似然估计方法的详细信息λ以及解决MPLE问题(2.5)。在本文件中,遵循Banerjee和Frees(1997),我们采取λ众所周知。实际上,使用了估算值;见本节末尾的备注13.2

自方程(2.5)是一个二次函数,很容易获得(β,(f))从线性系统

C类(β(f))=(X(X)T型1N个T型1)Y(Y),
(2.6)

哪里

C类=(X(X)T型1X(X)X(X)T型1N个N个T型1X(X)N个T型1N个+λK(K))

在整篇论文中,我们假设C类是全军衔第页+第页。如果矩阵(X(X),NT公司)为全军衔,其中T型=(1,t吨0)和1是一个第页×1 1s矢量。在典型的纵向研究中第页n个=∑=1 n个所以这不是一个限制性假设。如果第页较大,的样条估计(f)可能具有较小的维数,因此矩阵C类可以是单数。在这种情况下(f)是线性相关的,在继续之前必须选择一个线性无关的基,或者使用C类

然后根据方程式得出(2.6)那个

β^=(X(X)T型W公司x个X(X))1X(X)T型W公司x个Y(Y),
(2.7)
(f)^=(N个T型W公司(f)N个+λK(K))1N个T型W公司(f)Y(Y),
(2.8)

哪里

W公司x个=11N个(N个T型1N个+λK(K))1N个T型1

W公司(f)=11X(X)(X(X)T型1X(X))1X(X)T型1

随机效应的估计b条(=1,…,)可以通过计算给定的条件期望Y(Y),给予

b条^=D类Z轴T型1(Y(Y)X(X)β^N个(f)^),
(2.9)

b条^=(b条^1T型,,b条^T型)T型

根据方程式计算(2.7)–(2.9)给出拟合值Y(Y)^=X(X)β^+N个(f)^+Z轴b条^=H(H)Y(Y)哪里H(H)由提供

H(H)=Σ1+Σ1H(H)¯
(2.10)

H(H)¯=(X(X)N个)C类1(X(X)T型N个T型)1
(2.11)

在这里是一个单位矩阵,其维数从上下文中显而易见,并且Σ=σ2+Γ。在本文后面,我们使用n个对于n个×n个单位矩阵。

H(H)在线性模型中扮演帽子矩阵的角色,但固定效应的整体杠杆作用与H(H)¯这也可以从固定效应的残差中看出

e(电子)˜=Y(Y)X(X)β^N个(f)^=(H(H)¯)Y(Y)
(2.12)

为了方便起见,让θ=(βT型,(f)T型)T型。根据我们对模型(2.2)的分布假设,我们有

覆盖(cov)(θ^)=C类1C类1(000λK(K))C类1,

它与贝叶斯协方差渐近等价

覆盖(cov)B类(θ^)=C类1
(2.13)

有关贝叶斯透视图的更多详细信息,请参阅Wahba(1985),绿色(1987)还有格林和西尔弗曼(1994). 我们只注意到θ^是的后验平均值β(f)如果我们假设在β和高斯先验(f)其对数密度函数具有内核−λ(f)T型Kf(千克)/2.表达式(2.13)给出了后验方差-协方差,部分出于简单起见,将用作θ^在论文的其余部分。另见本节末尾的备注2

3.案例删除诊断

在本节中,我们考虑了单个观测对β(f)

3.1. 案例删除下的估计数

θ^(,j个)=(β^(,j个)T型,(f)(,j个)T型)T型是对…的估计θ使用不带(,j个)第次观察。要计算θ^(,j个)为所有人(,j个)并将其与θ^当总样本量n个幸运的是,下面的定理给出了删除情况下的更新公式,以避免对每个n个案例。此结果对于我们的案例删除诊断至关重要(,λ). 为了简单起见,我们以自然的方式计算观察结果(,j个)观察结果给出了一个病例编号c(c)=n个1+…+n个−1+j个,我们让d日c(c)成为n个×1矢量,1位于c(c)第个位置,其他位置为0。

定理1。使用上面定义的符号,我们有

β^(j个)=β^(X(X)T型W公司x个X(X))1X(X)T型W公司x个d日c(c)d日c(c)T型1e(电子)˜d日c(c)T型1(H(H)¯)d日c(c),
(3.1)
(f)^(j个)=(f)^(N个T型W公司(f)N个+λK(K))1N个T型W公司(f)d日c(c)d日c(c)T型1e(电子)˜d日c(c)T型1(H(H)¯)d日c(c)
(3.2)

对于具有=σ2,方程式(3.1)减少到

β^(c(c))=β^(X(X)T型W公司x个X(X))1X(X)T型W公司x个d日c(c)e(电子)˜c(c)1小时¯c(c)c(c),
(3.3)

哪里e(电子)˜c(c)c(c)的第个分量e(电子)˜在方程式中定义(2.12)和小时¯c(c)c(c)c(c)第个对角线元素H(H)¯在方程式中定义(2.11). 如果非参数分量(f)模型中不存在,方程式(3.3)简化为众所周知的库克更新公式(1977)用于线性回归。同样清楚的是,Eubank和Gunst的更新公式(1986)Christensen的样条估计和命题3等。(1992)对于线性混合模型,这里是定理1的特例。

3.2. 库克距离和DFIT

(广义)库克距离可以定义为θ^θ^(,j个),即。

光盘j个(β,(f))=(θ^θ^(j个))T型C类(θ^θ^(j个))

根据直接计算,使用定理1

光盘j个(β,(f))=d日c(c)T型1H(H)¯d日c(c){d日c(c)T型1e(电子)˜d日c(c)T型1(H(H)¯)d日c(c)}2=d日c(c)T型1H(H)¯d日c(c)d日c(c)T型1(H(H)¯)d日c(c)t吨c(c)2,
(3.4)

哪里

t吨c(c)=d日c(c)T型1e(电子)˜{d日c(c)T型1(H(H)¯)d日c(c)}
(3.5)

c(c)在这种情况下,“调整”是指计算为数据中的相关性调整的残差。

对于半参数模型,通常更适合检查对估计值的部分影响β(f)分开。参数化构件的Cook距离定义为

光盘j个(β)=(β^β^(j个))T型{(第页,0)C类1(第页,0)T型}1(β^β^(j个))

它有一个更简单的表达式

光盘j个(β)=d日c(c)T型W公司x个X(X)(X(X)T型W公司x个X(X))1X(X)T型W公司x个d日c(c)d日c(c)T型1(H(H)¯)d日c(c)t吨c(c)2
(3.6)

我们看到c(c)第个案例β^来自任何一个大型t吨c(c)或大型杠杆,其中参数组件的杠杆由以下对角元素给出

H(H)β=W公司x个X(X)(X(X)T型W公司x个X(X))1X(X)T型W公司x个

跟随厨师(1977),我们可以判断CD的大小ij公司(β)通过注意到

(β^β)T型{(第页,0)C类1(第页,0)T型}1(β^β)χ第页,α2

是级别1−α置信椭球β.如果光盘j个(β)χ第页,α2对一些人来说α,删除此情况会将估计值从水平1−的中心移到边缘α置信椭球体。据库克介绍(1977),我们通常都喜欢β^(j个)以保持在10%的置信区间内。

可以为非参数分量定义库克距离的类似表达式(f)但我们认为,由于样条拟合的局部性质,更适合评估删除单个观测值的局部影响。样条曲线估计在所有点上的总体影响往往是一个缩小的度量,可能会掩盖局部邻域中的实际影响。为此,我们通过以下方式评估部分影响

DFIT公司j个=|d日c(c)T型N个((f)^j个j个(f)^)|/j个
(3.7)

哪里j个2c(c)第个对角线元素N个(0,第页)C类−1(0,第页)T型N个T型由于近似水平1−α置信区间(f)(t吨ij公司)可以从以下位置获得|d日c(c)T型N个(f)^(f)(t吨j个)|j个z(z)α/2,我们可以,就像CD一样ij公司(β),通过查看以下位置来评估DFIT的规模d日c(c)T型(f)^(j个)相对于此类置信区间的边缘。

备注1。实际上,λ在库克距离或DFIT的计算中,用来自完整数据集的估计值替换。我们的诊断,就像班纳吉和弗里斯的诊断一样(1997),取决于估计的λ,这本身可能会受到异常值的影响。有可能λ由于删除一个观测值对估计β(f)然而,我们的经验表明,简化方法的条件是λ在识别离群值和影响点方面仍然非常有用和有效;请参阅第节中的示例5

3.3. 均值漂移异常值模型与异常值检验

病例删除是构建有效诊断统计数据的基础。均值漂移异常值模型(见库克和魏斯伯格(1982),第20页)通常用于测试给定观测值是否是模型的异常值。对于(,j个)在这种情况下,我们将异常值模型视为

Y(Y)k个=X(X)k个T型β+(f)(t吨k个)+Z轴k个T型b条+U型k个(t吨k个)+εk个,k个,j个,Y(Y)j个=X(X)j个T型β+(f)(t吨j个)+Z轴j个T型b条+U型(t吨j个)+γ+εj个,
(3.8)

哪里γ是一个额外的参数,用于指示异常值的存在。离群值检验可以表述为对零假设的检验γ=0.

β˜j个,(f)˜j个γ˜j个是模型(3.8)的MPLE。我们有以下定理。

定理2。的MPLE(β,(f))在模型(2.2)下,不带(,j个)第种情况与模型(3.8)下使用完整数据集的估计值相同,即。

β^(j个)=β˜j个(f)^(j个)=(f)˜j个

Cook和Weisberg观察到线性回归的案例删除模型和异常值模型之间的等价性(1982). Wei进一步扩展了这一点(1998)更广泛的参数化模型。定理2证实了半参数混合模型的相同现象。此外γ

γ˜j个=(d日c(c)T型1d日c(c))1d日c(c)T型1(Y(Y)X(X)β^(j个)N个(f)^(j个))=d日c(c)T型1e(电子)˜d日c(c)T型1(H(H)¯)d日c(c),
(3.9)

其在零模型(2.2)下的方差为

无功功率,无功功率(γ˜j个)=d日c(c)T型1(H(H)¯)(H(H)¯)1d日c(c){d日c(c)T型1(H(H)¯)d日c(c)}2

它与贝叶斯方差渐近等价

无功功率,无功功率B类(γ˜j个)=1d日c(c)T型1(H(H)¯)d日c(c)

以更简单的形式。标准化γ˜j个贝叶斯方差等于标准化调整残差t吨c(c)在方程式中定义(3.5)并可用于测试(,j个)模型(2.2)的第个观测值偏小。一个情节t吨c(c)可用于筛选异常值。Bonferroni界可用于获得保守的截止点,以识别异常值。如果n个=492,如第节中的示例所示5.1,5%水平测试的保守截止值可以取为z(z)α/2n个=3.887。一些人可能更喜欢使用2或3的传统(但自由)临界点来筛选可能的异常值,但当样本量较大时,这将导致假阳性结果。

备注2。在空模型下,t吨c(c)如果我们使用精确的抽样方差而不是贝叶斯方差,则会得到精确的正态分布。同样的评论也适用于第节中定义库克距离时使用的归一化矩阵3.2。为了简单起见,我们选择使用贝叶斯方差。其他研究人员在样条模型方面的经验表明,贝叶斯方差可以带来令人满意的推断。在我们为半参数混合模型考虑的少量示例中,基于两个方差的结果显示出几乎没有差异。

备注3。与第节的影响措施一样3.2,这里的离群值测试使用的是(,λ). 这对测试的有效性影响较小,因为在无异常值的零假设下(,λ)当单个案例被删除时,不会有太大变化。

4.受试者删除诊断

在纵向研究中,来自同一受试者的观察结果通常具有相同的协变量值。因此,与有影响力的观察结果相比,确定有影响力的对象是有用的。班纳吉和弗里斯(1997)注意到,从敏感性分析的角度来看,前者是有用的,而后者更多地涉及到异常值的检测。样本量相对较大n个,单个观察的影响通常是有限的,但一个受试者的影响可能更为明显。

在本节中,我们考虑删除主题的影响关于固定效应估计β^(f)^来自模型(2.2)。θ^[]=(β^[]T型,(f)^[]T型)T型表示对β(f)使用删除第个主题。下面的定理给出了主题删除情况下的更新公式。

定理3。E类=(0,…,0,n个,0,…,0)T型成为n个×n个矩阵。然后

θ^[]=θ^C类1(X(X)T型N个T型)1E类(n个H(H)¯)1E类T型e(电子)˜,
(4.1)

哪里

H(H)¯=(X(X)N个)C类1(X(X)T型N个T型)1

定理3简化为Banerjee和Frees的引理3(1997)如果非参数分量(f)不在模型中。

我们将主题删除下的广义Cook距离定义为

光盘[](β,(f))=(θ^[]θ)T型C类(θ^[]θ),
(4.2)

可以从定理3改写为,

光盘[](β,(f))=e(电子)˜T型E类(n个H(H)¯T型)11H(H)¯(n个H(H)¯)1E类T型e(电子)˜
(4.3)

E类T型e(电子)˜n个对应于主题。当非参数分量(f)模型中不存在,方程式(4.3)在代数上等价于Banerjee和Frees的引理4(1997). 我们认为参数估计的部分影响Cook距离为

光盘[](β)=R(右)T型H(H)β,R(右),
(4.4)

哪里R(右)=(n个=H(H)¯)1E类T型e(电子)˜

H(H)β,=E类T型W公司x个X(X)(X(X)T型W公司x个X(X))1X(X)T型W公司x个E类

矩阵的第个对角块H(H)如第节所述,我们可以校准CD[](β)使用χ第页2-分配以评估关于估算的主题β

自拆除该主题涉及n个时间点,我们需要计算DFITn个评估局部对拟合曲线影响的点(f)这相当于考虑了N个(f)^N个(f)^[]以下为:

光盘[]((f))=R(右)T型W公司(f)N个S公司1N个T型(N个S公司1N个T型)1N个S公司1N个T型W公司(f)R(右),
(4.5)

哪里S公司=N个T型W公司(f)N个+λK(K)

我们还可以对第种情况,

Y(Y)=X(X)β+N个(f)+Z轴b条+Δ+U型+ε,Y(Y)j个=X(X)j个β+N个j个(f)+Z轴j个b条j个+U型j个+εj个,j个,
(4.6)

哪里Δ是一个n个×1边远受试者向量指标。β˜[],(f)˜[]Δ˜[]是的MPLEβ,(f)Δ对于模型(4.6)。与定理2类似,我们可以证明

β˜[]=β^[],(f)˜[]=(f)^[]Δ˜[]=R(右)
(4.7)

R(右)可以解释为关于主题。对于标准化,我们获得

覆盖(cov)(R(右))=(n个H(H)¯)1E类T型(H(H)¯)(H(H)¯)T型E类(n个H(H)¯T型)1,覆盖(cov)B类(R(右))=(n个H(H)¯)1

所以我们可以使用

T型=R(右)T型覆盖(cov)B类(R(右))1R(右)=e(电子)˜T型E类(n个H(H)¯)11E类T型e(电子)˜
(4.8)

测试具有以下特征的外围受试者χn个2作为参考分布。和以前一样,我们也可以使用cov(R(右))代替covB类(R(右))在方程式中(4.8)。

5.示例

在本节中,我们使用两个示例来说明我们的诊断措施的有效性。还将对简化条件诊断和全尺寸自适应诊断进行比较。

5.1. 激素数据

为了说明前面章节中考虑的影响诊断和异常值筛选和测试,我们考虑了Sowers的孕酮数据等。(1998). 等。(1998)对时间效应高度非线性的数据拟合了半参数混合模型(2.2)。

这项研究涉及34名年龄在27岁至45岁之间的女性。每个女性在一个月经周期中采集尿液样本,每隔一天测定尿孕酮。对数转换的孕酮水平被认为是反应。除了时间效应,还有两个协变量可用。它们是年龄和体重指数BMI。该研究的一个目的是测试年龄和BMI在适当调整月经周期后对女性孕酮水平的影响。我们使用与张中相同的变量标准化等。(1998)使用模型

Y(Y)j个=β1年龄+β2体重指数+(f)(t吨j个)+b条+U型(t吨j个)+εj个
(5.1)

其中随机拦截b条是独立且正态分布的U型(t吨)是建模序列相关性的平均0高斯过程εij公司是独立的高斯误差。允许的方差Y(Y)ij公司为了随时间变化,假设U型(t吨)遵循带有var的非均匀Ornstein–Uhlenbeck过程{U型(t吨)}=ξ(t吨)和日志{ξ(t吨)}在中是二次的t吨和更正{U型(t吨),U型()}=ρ|t吨|对一些人来说ρ∈(0,1)。

观察总数为492第页=92个不同的时间点。估计参数为(β^1,β^2)=(0.9247,2.9127)标准误差为1.9236,2.3762,二者相关性很小。根据估计值有条件地λ根据完整的数据,我们计算了βDFIT在案例删除下进行测量。它们绘制在图中。1。对于这种大小的数据集,所有CDij公司(β)在图中。1(a) 震级很小,表明对β通过任何一次观察。图中案例10、405和445的DFIT值。1(b) 约为0.3,表明删除一个这样的情况会将拟合值移动到其20%置信椭圆的边缘。对数据的进一步检查表明,405例和445例病例对应于月经周期开始时的一些异常孕酮水平。病例10与异常低水平的孕酮有关。

图1

激素数据的病例缺失诊断:(a)库克距离估计β; (b) DFIT用于估算(f)

在本例中,没有一项DFIT指标足够高,足以引起严重关注,但请注意,DFIT平方的总体幅度远高于CDij公司(β). 这可能是因为非参数拟合本质上是局部的。不同于对β其中每个n个=492个观测值起作用(f)在给定的时间点上,主要由当地居民的观测结果决定。这样一个局部邻里可能只包含50个观测值,因此对于(f)单次观测的影响仅相对于50个点进行测量,而不是n个=492分。

标准化调整残差t吨c(c)如图所示。2在保守的Bonferroni界3.887的基础上,我们发现了一个明显的异常值:受试者1的病例10。

图2

异常值检测的标准化调整残差:………,Bonferroni界

评估每个受试者对以下参数估计的影响β,我们绘制CD[](β)在图中。(a) ●●●●。最具影响力的受试者是24人,库克距离为0.6464,这表明,删除受试者24将改变对β到27.6%置信椭圆的边缘。这有点令人担忧,但可能并不严重。重新安装模型(不含主题24)后,得出的新估计为β同于(−0.3268,1.5428)。估计β有符号变化,但由于较大的标准误差,这两个术语仍然不重要。库克距离相对较大的接下来两个受试者是受试者18和30,但他们的影响稍弱。

图3

激素数据的受试者诊断:(a)库克距离估计β有条件的λ; (b) 基于T型; (c) 库克距离估算β具有条件和自适应λ

我们策划T型在图中。(b) 识别外围对象。受试者1进行了14次观察T型=54.99根据第节的离群值检验结果为离群值4。这主要是由于我们在t吨c(c)综上所述,我们发现主题1中有一个明显的异常值,但主题1对固定效应的估计没有影响。最有影响力的受试者24对估计有一些但不是显著的影响,这表明Zhang进行的分析具有一定程度的稳健性等。(1988).

我们的诊断取决于估计的(,λ)从完整数据中。使用以下自适应估计,查看这是否为全尺度分析提供了良好的近似值(,λ),我们在图中绘制。(c) 库克距离估算β通过重新调整去除每个受试者的模型,与我们简化方法得到的结果进行比较,条件是(,λ)从完整数据中。很明显,这两种方法给出了几乎相同的结果。

5.2. 模拟数据示例

为了进一步评估本文所导出的诊断措施的有效性,我们考虑了一个带有两个离群值和一个强制杠杆点的模拟数据集。

协变量X(X)作为第节中荷尔蒙示例的前20名受试者的非标准BMI测量值5.1范围为21.5328至38.0165。响应值由

Y(Y)j个=0.5(X(X)26)+(f)(t吨j个)+b条+U型(t吨j个)+εj个,=1,,20,j个=1,,4,

哪里(f)(t吨)=(t吨−0.5)2,t吨1U型(0,0.25),t吨,j个+1=t吨ij公司+0.25 (j个=2,3,4),b条N个(0,0.12),U型(t吨)被视为AR(1)过程,方差为0.22,一阶自相关为0.3εij公司N个(0,0.1). 与往常一样,假设受试者之间具有独立性。在模拟数据中,响应Y(Y)ij公司范围为-2.8至6.9。我们假设U型(t吨)在估算中遵循了Ornstein–Uhlenbeck过程,尽管它与实际情况中未知的真实结构不匹配。MPLE算法给出了β^=0.452λ在这种情况下=0.153。

在我们继续之前,我们改变了案例33和80的回答,案例33减去4,案例80加上4。我们还更改了X(X)-受试者9(病例33–36)的数值从34.3991降至43.3991。MPLE算法给出了β^=0.273λ=0.374.

图。4提供CD(β)以及用于估算的DFIT值(f)案例33对β而案例80对估计(f)由于案例80的杠杆率较低,其对估计β不是很好。图中的异常值筛选。5成功识别两个异常值。

图4

模拟数据的案例删除诊断:(a)库克距离估计β; (b) DFIT用于估算(f); (c) 库克距离的对数用于估算β具有条件和自适应λ

图5

异常值检测的标准化调整残差:………,Bonferroni界

为了查看我们的简化方法是否能很好地近似自适应方法,我们在图中进行了绘制。4(c) 库克距离的对数,用于估算β从一种方法对另一种方法获得。为了获得更好的视觉效果,使用了对数刻度。很明显,我们在这两种方法上都达成了很好的协议。

关于主题删除,我们从图中看到。6(a) 该科目9对评估的影响确实很大β.光盘(β)除协变量最大的受试者18外,图中其他受试者的值几乎为0X(X)在科目9之后,是一个适度的杠杆点。受试者9和受试者20在图中均被确定为异常值。6(b) ●●●●。

图6

模拟数据的受试者诊断:(a)库克距离估计β; (b) 基于T型

在这个例子中,我们创建的两个离群值和一个影响点通过我们在第2根据估计的方差分量和λ从完整数据中。此外,还发现了另一个有影响力的研究对象,因为它在协变量中的杠杆作用相对较高X(X)这些结果相当令人满意。

根据我们示例中的成功案例,我们想补充一点,我们的诊断基于单一案例或单一主题删除,这可能会受到众所周知的掩蔽效应的影响。高分解估计器可以提供针对异常值集群的保护。我们指的是卢梭和勒罗伊(1987)用于高击穿方法。

致谢

Wing-Kam Fung的研究部分得到香港研究资助委员会拨款HKU7134/98H的支持。朱忠义和魏伯承的研究部分得到了国家科学基金会19631040的资助。何旭明的研究得到了美国国家科学基金会DMS-0102411奖的部分支持。作者感谢张道文博士向他们发送了数据集和一个SAS宏,以及两位审稿人和一位副主编的建设性意见和有益建议。

工具书类

1

班纳吉
,
M。
免费
,
东-西。
(
1997
)
线性纵向模型的影响诊断
《美国统计杂志》。助理。
,
92
,
999
——
1005

2

贝克曼
,
右J。
,
纳赫茨海姆
,
C.J.公司。
厨师
,
钢筋混凝土。
(
1987
)
混合模型方差分析诊断
技术计量学
,
29
,
413
——
426

贝尔斯利
,
D.A.博士。
,
库赫
,
E.公司。
威尔士的
,
R.E.公司。
(
1980
)
回归诊断
纽约:
威利

4

卡莫迪
,
T·J。
(
1988
)
多元平滑样条曲线的诊断
J.统计。计划信息。
,
19
,
171
——
186

5

克里斯滕森
,
R。
,
皮尔逊
,
L。
约翰逊
,
西。
(
1992
)
混合模型的案例删除诊断
技术计量学
,
34
,
38
——
45

6

厨师
,
钢筋混凝土。
(
1977
)
线性回归中影响观测值的检测
技术计量学
,
19
,
15
——
18

7

厨师
,
钢筋混凝土。
韦斯伯格
,
美国。
(
1982
)
回归中的残差及其影响
纽约:
查普曼和霍尔

8

戴维森
,
A.控制。
,
C.-L.公司。
(
1992
)
回归模型诊断
国际统计。版次。
,
60
,
337
——
353

9

欧洲银行
,
共和国。
(
1984
)
平滑样条线的帽子矩阵
统计师。普罗巴伯。莱特。
,
2
,
9
——
14

10

— (

1985
)平滑样条曲线的诊断。
J.R.统计。Soc公司。
B、,
47
,
332
——
341

11

欧洲银行
,
共和国。
冈斯特
,
无线电频率。
(
1986
)
惩罚最小二乘估计的诊断
统计师。普罗巴伯。莱特。
,
4
,
265
——
272

12

绿色
,
P.J.公司。
(
1987
)
一般半参数回归模型的惩罚似然
国际统计。版次。
,
55
,
245
——
260

13

绿色
,
P.J.公司。
西尔弗曼
,
B.W.公司。
(
1994
)
非参数回归与广义线性模型
.伦敦:
查普曼和霍尔

14

,
十、。
,
P.D.公司。
(
1996
)
部分线性模型中的二元张量积B样条
J.Multiv.公司。分析。
,
58
,
162
——
181

15

赫克曼
,
不适用。
(
1986
)部分线性模型中的样条曲线平滑。
J.R.统计。Soc公司。
B、,
48
,
244
——
248

16

基姆
,
C、。
(
1996
)
样条曲线平滑中的Cook距离
统计师。普罗巴伯。莱特。
,
31
,
139
——
144

17

勒萨弗尔
,
E.公司。
维伯克
,
G。
(
1998
)
线性混合模型中的局部影响
生物计量学
,
54
,
570
——
582

18

,
问:。
斯坦戈斯
,
T。
(
1996
)
部分线性面板数据模型的半参数估计
《计量经济学杂志》。
,
71
,
389
——
397

19

普赖塞尔
,
J.S.公司。
卡奇什
,
B.F.公司。
(
1996
)
广义估计方程的删除诊断
生物特征
,
83
,
551
——
562

20

卢梭
,
P.J.公司。
勒罗伊
,
上午。
(
1987
)
稳健回归与异常检测
纽约:
威利

21

西尔弗曼
,
B.W.公司。
(
1985
)非参数回归曲线拟合的样条平滑方法的一些方面(与讨论)。
J.R.统计。Soc公司。
B、,
47
,
1
——
52

22

播种机
,
M.F.公司。
,
克拉奇菲尔德
,
M。
,
伦道夫
,
J.F.公司。
,
夏皮罗
,
B。
,
,
B。
,
彼得拉
,
M.L.公司。
朔尔克
,
文学硕士。
(
1998
)
低骨量绝经前妇女的尿卵巢和促性腺激素水平
骨最小研究杂志。
,
13
,
1191
——
1202

23

斯派克曼
,
第页。
(
1988
)部分线性模型中的核平滑。
J.R.统计。Soc公司。
B、,
50
,
413
——
436

24

托马斯
,
西。
(
1991
)
样条平滑中交叉验证平滑参数的影响诊断
《美国统计杂志》。助理。
,
86
,
693
——
698

25

托马斯
,
西。
厨师
,
钢筋混凝土。
(
1989
)
广义线性模型中回归系数的影响评估
生物特征
,
76
,
741
——
749

26

瓦赫巴
,
G。
(
1985
)
广义样条平滑问题中GCV和GML选择平滑参数的比较
安。统计师。
,
13
,
1378
——
1402

27

,
公元前。
(
1998
)
指数族非线性模型
.新加坡:
施普林格

28

威廉姆斯
,
D.A.博士。
(
1987
)
使用偏差和单例缺失的广义线性模型诊断
申请。统计师。
,
36
,
181
——
191

29

,
D。
,
,
十、。
,
拉兹
,
J。
播种机
,
M.F.公司。
(
1998
)
纵向数据的半参数随机混合模型
《美国统计杂志》。助理。
,
93
,
710
——
719

附录A:证明

A.1、。定理1的证明

在不失一般性的情况下,假设c(c)=1,因此矩阵分区为

=(v(v)c(c)c(c)v(v)c(c)T型v(v)c(c)(c(c)))

我们还使用Y(Y)c(c),N个c(c)X(X)c(c)作为c(c)第行,共行Y(Y),N个X(X)分别是,和Y(Y)(c(c)),N个(c(c))X(X)(c(c))作为带有c(c)第行已删除。

现在让我们Y(Y)*=(Y(Y)1,,Y(Y)j个1,Y(Y)j个*,Y(Y)j个+1,,Y(Y)n个)T型Y(Y)*=(Y(Y)1T型,,Y(Y)1T型,,Y(Y)*T型,Y(Y)+1T型,,Y(Y)T型)T型,其中Y(Y)j个*=X(X)j个T型β^(j个)+(f)^(j个)(t吨(j个))+v(v)c(c)T型(c(c))1(Y(Y)(c(c))X(X)(c(c))β^(j个)N个(c(c))(f)^(j个).对于任何参数β和平滑曲线(f)根据定义,我们有β^(j个)(f)^(j个),

(Y(Y)X(X)βN个(f))T型1(Y(Y)X(X)βN个(f))+λ(f)(t吨)2d日t吨={Y(Y)j个X(X)j个T型β(f)(t吨j个)(Y(Y)(c(c))X(X)(c(c))βN个(c(c))(f))T型(c(c))1v(v)c(c)}2c(c)1+(Y(Y)(c(c))X(X)(c(c))βN个(c(c))(f))T型(c(c))1(Y(Y)(c(c))X(X)(c(c))βN个(c(c))(f))+λ(f)(t吨)2d日t吨(Y(Y)(c(c))X(X)(c(c))βN个(c(c))(f)T型(c(c))1(Y(Y)(c(c))X(X)(c(c))βN个(c(c))(f))+λ(f)(t吨)2d日t吨(Y(Y)X(X)β^(j个)N个(f)^(j个))T型1(Y(Y)X(X)β^(j个)N个(f)^(j个))+λ(f)^(j个)(t吨)2d日t吨

哪里c(c)=v(v)复写的副本v(v)c(c)T型(c(c))−1v(v)c(c)。由此可见(β^(j个),(f)^(j个))最小化

(Y(Y)X(X)β^(j个)N个(f)^(j个))T型1(Y(Y)X(X)β^(j个)N个(f)^(j个))+λ(f)^(j个)(t吨)2d日t吨

以便

β^(j个)=(X(X)T型W公司x个X(X))1X(X)T型W公司x个Y(Y)=β^(X(X)T型W公司x个X(X))1X(X)T型W公司x个d日c(c)(Y(Y)j个Y(Y)j个),(f)^(j个)=(N个T型W公司(f)N个+λK(K))1N个T型W公司(f)Y(Y)=(f)^(N个T型W公司(f)N个+λK(K))1N个T型W公司(f)d日c(c)(Y(Y)j个Y(Y)j个)

然而,请注意Y(Y)c(c)=Y(Y)j个,N个c(c)(f)=(f)(t吨j个),d日c(c)T型1=1(1,v(v)c(c)T型(c(c)))X(X)β^(j个)+N个(f)^(j个)=H(H)¯Y(Y)*。然后我们可以验证

Y(Y)j个Y(Y)j个=c(c)d日c(c)T型1(Y(Y)X(X)β^(j个)N个(f)^(j个))=c(c)d日c(c)T型1(Y(Y)H(H)¯Y(Y))=c(c)d日c(c)T型1{Y(Y)H(H)¯Y(Y)+H(H)¯(Y(Y)Y(Y))}=c(c)d日c(c)T型1(Y(Y)H(H)¯Y(Y))+c(c)d日c(c)T型1H(H)¯d日c(c)(Y(Y)j个Y(Y)j个)

解决Y(Y)ij公司Y(Y)ij公司*我们获得

Y(Y)j个Y(Y)j个=c(c)d日c(c)T型1(Y(Y)H(H)¯Y(Y))1c(c)d日c(c)T型1H(H)¯d日c(c)=d日c(c)T型1e(电子)˜d日c(c)T型1(H(H)¯)d日c(c),

定理1由此而来。

A.2、。定理2的证明

我们使用与定理1相同的符号。根据定义,(β^(j个),(f)^(j个))最小化

L(左)j个(β,(f))=(Y(Y)(c(c))X(X)(c(c))βN个(c(c))(f))T型(c(c))1(Y(Y)(c(c))X(X)(c(c))βN个(c(c))(f))+λ(f)(t吨)2d日t吨,

(β^j个,(f)^j个,γ˜)最小化

L(左)˜j个(β,(f),γ)=(Y(Y)X(X)βN个(f)γd日c(c))T型1(Y(Y)X(X)βN个(f)γd日c(c))+λ(f)(t吨)2d日t吨

所以γ˜j个是解决

d日c(c)T型1(Y(Y)X(X)βN个(f)γd日c(c))=0

堵塞解决方案γ˜j个(β,(f))=(d日c(c)T型1d日c(c))1d日c(c)T型1(Y(Y)X(X)βN个(f))进入之内L(左)˜j个,我们获得L(左)j个(β,(f))=L(左)˜j个{β,(f),γ˜j个(β,(f))},定理2由此而来。

表达式(4.1)和(4.7)的证明相似,因此不包括在内。

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)