Influence Diagnostics and Outlier Tests for Semiparametric Mixed Models

Fung, Wing-Kam; Zhu, Zhong-Yi; Wei, Bo-Cheng; He, Xuming

doi:10.1111/1467-9868.00351

总结

半参数混合模型在生物特征和经济计量应用中非常有用，特别是对于纵向数据。Zhang及其同事已经证明，最大惩罚似然估计量（MPLE）对于线性系数和非参数函数都很有效。本文通过扩展线性模型的案例删除和主题删除分析，以适应非参数组件的包含，考虑了影响诊断在MPLE中的作用。我们专注于固定效应的影响度量，并提供了与简单模型类似的公式，并且易于使用MPLE算法进行计算。我们还建立了案例或主题删除模型与均值漂移离群值模型之间的等价性，并从中导出离群值测试。通过对孕酮的纵向激素研究和一个模拟示例说明了所提出的影响诊断。

库克距离,纵向数据,处罚可能性,重复测量,半参数回归,平滑样条曲线

1.简介

影响诊断已成为任何严肃统计分析的一部分。库克提出了一种重要的方法，用于根据案例删除来确定有影响力的观察结果(1977)用于线性回归模型。库克距离测量了移除一个观测值对参数估计或拟合值的影响。如果从数据集中删除影响点会在分析中产生显著差异，则会标记该影响点。如今，库克距离被广泛用于线性模型，这得益于它被纳入SAS和SPSS等流行统计软件。从案例删除的角度来看，库克距离有简单明确的解释，它可以直接从通常的最小二乘输出中计算出来，而无需为删除的每个观测值重新估计模型。

近年来，回归分析已经超越了独立数据的简单线性模型。我们注意到三个重要方向。第一种是使用广义线性模型，允许响应和预测值线性组合之间的灵活链接函数。广义线性模型的诊断研究可以在Williams中找到(1987)、托马斯和库克(1989)还有Davison和Tsai(1992)等等。Preisser和Qaqish(1996)将工作扩展到广义估计方程。第二个方向是良好平滑方法的可用性，它允许至少对一些预测因子估计非参数关系，如Silverman中所示(1985). 尤班克(1984,1985)、Eubank和Gunst(1986)，卡莫迪(1988)、托马斯(1991)和Kim(1996)研究了样条曲线的影响度量。第三个扩展是对相关数据使用混合模型。例如，对来自不同领域的面板数据进行的纵向研究，包括流行病学、临床试验、商业和财务数据分析，通常会转向混合模型，以解释同一主题内观察结果之间的相关性。一些研究人员研究了线性混合模型的影响诊断。贝克曼等。(1987)Lesaffre和Verbeke(1998)建议的局部影响措施。克里斯滕森等。(1992)班纳吉和弗里斯(1997)分别研究了病例删除诊断和受试者删除诊断。在本文中，我们考虑了案例和主题删除对诊断的影响，以及半参数混合模型的离群值筛选。

最近的张等。(1998)认为半参数或部分线性混合模型在纵向研究中通常很有用，因为它们除了对协变量进行线性回归外，还包含了非参数的时间效应。他们推导出了最大惩罚似然估计量（MPLE），其非参数拟合是平滑样条。随机混合模型的MPLE的一个可取的特点是，它可以在统一的线性混合模型框架内对所有模型组件进行推断。在本文中，我们考虑基于案例或主题删除的MPLE影响诊断问题。我们旨在推导参数固定效应和类似于库克距离和DFFITS（Belsley）的非参数函数估计的直接可计算影响度量等。(1980)，第15页）。为了区别于通常的线性模型上下文，本文使用DFIT代替DFFITS。我们使用Cook距离来测量对线性参数估计的影响，但使用DFIT来测量非参数拟合中的变化。总之，它们可以用于识别半参数混合模型中对MPLE具有潜在影响的案例或主题。

在我们考虑的模型中，影响诊断是对残差诊断的补充。与通常的线性回归设置一样，具有较大（标准化）残差的情况不一定会对我们的推断或预测产生问题。更令人担忧的是我们的一些分析和结论严重依赖的有影响力的案例。如果非参数曲线中某个因素或显著特征的重要性因数据集中包含或排除特定观察或主题而发生重大变化，我们的统计程序显然是不稳健的，我们必须意识到所做分析的敏感性。这就是我们进行诊断研究的动机。

确定影响点后往往会采取其他行动。它们包括验证这些有影响力的观测值的准确性，并用更稳健的方法重新调整模型。在大多数情况下，我们希望没有任何有影响力的观点引起真正的关注。无论结果如何，影响诊断以及通常基于残差的模型检查都有助于确保我们的统计分析建立在更坚实的基础上。

论文的其余部分组织如下。我们指定了半参数混合模型，并回顾了Zhang的MPLE等。(1998)在第节中2。我们在第节中给出了案例删除诊断三并显示了与均值漂移异常值模型的密切联系，从中可以导出异常值测试。章节4考虑主题删除诊断。我们的结果推广了Christensen的结果等。(1992)以及Banerjee和Frees(1997)半参数混合模型。此外，我们还导出了异常值的测试。在节中5，我们通过Sowers报道的纵向激素研究来说明这些诊断方法等。(1998)后来由张分析等。(1998). 我们的影响诊断是针对以方差分量和平滑参数的估计值为条件而非自适应的固定效应。这种简化是因为需要避免为每次删除案例而重新安装模型。通过激素示例和模拟示例，我们说明了简化方法的诊断为使用方差分量和平滑参数的自适应估计的全尺度分析提供了一种快速但仍然有用的替代方法，因此需要计算。随机效应的诊断可根据与Christensen相同的病例删除方法进行等。(1992)，但计算库克距离的更简单公式仍有待获得。在本文中，我们将使用粗体字母表示矩阵和向量。

用于模拟的数据可以从以下位置获得http://www.blackwellpublishers.co.uk/rss/

2.模型和估算方法

跟随张等。(1998)，我们考虑用米主题和n个_我随着时间的推移我第个主题(我=1,…,米). 让Y（Y）_ij公司是对我时间点的第个主题t吨_ij公司可以建模为

{Y（Y）}_{我 j个} = {X（X）}_{我 j个}^{T型} β + （f） ({t吨}_{我 j个}) + {Z轴}_{我 j个}^{T型} {b条}_{我} + {U型}_{我} ({t吨}_{我 j个}) + ε_{我 j个},

(2.1)

哪里β是一个第页与协变量相关的回归系数的×1向量X（X）_ij公司,（f）(t吨)是某个有限区间上的二次可微光滑函数，b条_我是独立的q个_我与协变量相关的随机效应的×1向量Z轴_ij公司,U型_我(t吨)是独立的随机过程ε_ij公司是随机噪声。随机效应b条_我和过程U型_我(t吨)解释我主题。

模型（2.1）的特殊情况可能会在某些应用中引起兴趣。如果全部n个_我=1，它简化为Heckman所考虑的部分线性模型(1986)、斯派克曼(1988)和何石(1996)在许多其他人中。如果（f）和U型_我模型（2.1）中没有，我们回到线性混合模型。如果Z轴_ij公司=1时，它简化为只有随机截距的典型面板数据模型；参见示例Li和Stengos(1996). 本文中导出的影响诊断将在每种特殊情况下简化。

我们将主题特定向量表示为Y（Y）_我=(Y（Y）_我1,…,Y（Y）_在里面我)^T型,X（X）_我,U型_我,Z轴_我和ε_我，所有定义都类似。让t吨⁰=(t吨₁⁰,…,t吨_第页⁰)^T型是时间点有序不同值的向量t吨_ij公司(我=1,…,米,j个=1,…,n个_我)，并让N个_我成为n个_我×第页关联矩阵我主题是这样的(j个,我)th元素等于1，如果t吨_ij公司=t吨_我⁰否则为0。我们让Y（Y）,X（X）,N个,U型,ε和b条表示从堆叠米同一符号的主题特定向量。例如，Y（Y）=(Y（Y）₁^T型,…,Y（Y）_米^T型)^T型此外，让Z轴=诊断(Z轴₁,…,Z轴_米)和（f）=(（f）(t吨₁⁰),…,（f）(t吨_第页⁰))^T型模型（2.1）可以写成

Y（Y） = X（X） β + N个 （f） + Z轴 b条 + U型 + ε 。

(2.2)

MPLE做出了以下分布假设。误差向量ε正常（0，σ²我)，随机效应b条正常（0，D类)带有D类=诊断(D类₁,…,D类_米)以及基于流程的U型正常（0，Γ)带有Γ=诊断(Γ₁,…,Γ_米). 通常，协方差矩阵D类和Γ假设采用某些形式，并且依赖于相对较少的未知参数。我们指的是张等。(1998)了解更多详细信息。为了我们的目的，我们有cov(Y（Y）)=五=诊断(五₁,…,五_米)带有

五_{我} = {Z轴}_{我} {D类}_{我} {Z轴}_{我}^{T型} + σ^{2} 我_{我} + Γ_{我} 。

(2.3)

鉴于五，的对数似然函数(β,（f）)是常数加号

我 (β, （f） ； Y（Y）) = - \frac{1}{2} 日志 | 五 | - \frac{1}{2} {(Y（Y） - X（X） β - N个 （f）)}^{T型} 五^{- 1} (Y（Y） - X（X） β - N个 （f）),

(2.4)

以及β和（f）(t吨)通过最大化

L（左） (β, （f）) = 我 (β, （f） ； Y（Y）) - \frac{λ}{2} \int^{​} {（f）}^{″} {(t吨)}^{2} d日 t吨 = 我 (β, （f） ； Y（Y）) - \frac{λ}{2} {（f）}^{T型} K（K） （f）,

(2.5)

哪里λ是平滑参数K（K）是方程中给出的非负定平滑矩阵(2.3)格林和西尔弗曼(1994). 张等。(1998)给出了贝叶斯限制最大似然估计方法的详细信息五和λ以及解决MPLE问题（2.5）。在本文件中，遵循Banerjee和Frees(1997)，我们采取五和λ众所周知。实际上，使用了估算值；见本节末尾的备注13.2。

自方程(2.5)是一个二次函数，很容易获得(β,（f）)从线性系统

C类 (\begin{array}{l} β \\ （f） \end{array}) = (\begin{array}{l} {X（X）}^{T型} 五^{- 1} \\ {N个}^{T型} 五^{- 1} \end{array}) Y（Y）,

(2.6)

哪里

C类 = (\begin{matrix} {X（X）}^{T型} 五^{- 1} X（X） & {X（X）}^{T型} 五^{- 1} N个 \\ {N个}^{T型} 五^{- 1} X（X） & {N个}^{T型} 五^{- 1} N个 + λ K（K） \end{matrix}) 。

在整篇论文中，我们假设C类是全军衔第页+第页。如果矩阵(X（X）,NT公司)为全军衔，其中T型=(1,t吨⁰)和1是一个第页×1 1s矢量。在典型的纵向研究中第页比n个=∑_我=1^米 n个_我所以这不是一个限制性假设。如果第页较大，的样条估计（f）可能具有较小的维数，因此矩阵C类可以是单数。在这种情况下（f）是线性相关的，在继续之前必须选择一个线性无关的基，或者使用C类。

然后根据方程式得出(2.6)那个

\hat{β} = {({X（X）}^{T型} {W公司}_{x个} X（X）)}^{- 1} {X（X）}^{T型} {W公司}_{x个} Y（Y）,

(2.7)

\hat{（f）} = {({N个}^{T型} {W公司}_{（f）} N个 + λ K（K）)}^{- 1} {N个}^{T型} {W公司}_{（f）} Y（Y）,

(2.8)

哪里

{W公司}_{x个} = 五^{- 1} - 五^{- 1} N个 {({N个}^{T型} 五^{- 1} N个 + λ K（K）)}^{- 1} {N个}^{T型} 五^{- 1}

和

{W公司}_{（f）} = 五^{- 1} - 五^{- 1} X（X） {({X（X）}^{T型} 五^{- 1} X（X）)}^{- 1} {X（X）}^{T型} 五^{- 1} 。

随机效应的估计b条_我(我=1,…,米)可以通过计算给定的条件期望Y（Y）_我，给予

{\hat{b条}}_{我} = {D类}_{我} {Z轴}_{我}^{T型} 五_{我}^{- 1} ({Y（Y）}_{我} - {X（X）}_{我} \hat{β} - {N个}_{我} \hat{（f）}),

(2.9)

和

\hat{b条} = {({\hat{b条}}_{1}^{T型}, \dots, {\hat{b条}}_{米}^{T型})}^{T型} 。

根据方程式计算(2.7)–(2.9)给出拟合值 $\hat{Y（Y）} = X（X） \hat{β} + N个 \hat{（f）} + Z轴 \hat{b条} = H（H） Y（Y）$ 哪里H（H）由提供

H（H） = 我 - Σ 五^{- 1} + Σ 五^{- 1} \bar{H（H）}

(2.10)

和

\bar{H（H）} = (\begin{matrix} \begin{matrix} X（X） & N个 \end{matrix} \end{matrix}) {C类}^{- 1} (\begin{matrix} {X（X）}^{T型} \\ {N个}^{T型} \end{matrix}) 五^{- 1} 。

(2.11)

在这里我是一个单位矩阵，其维数从上下文中显而易见，并且Σ=σ²我+Γ。在本文后面，我们使用我_n个我对于n个_我×n个_我单位矩阵。

H（H）在线性模型中扮演帽子矩阵的角色，但固定效应的整体杠杆作用与 $\bar{H（H）}$ ⁠这也可以从固定效应的残差中看出

\tilde{e（电子）} = Y（Y） - X（X） \hat{β} - N个 \hat{（f）} = (我 - \bar{H（H）}) Y（Y） 。

(2.12)

为了方便起见，让θ=(β^T型,（f）^T型)^T型。根据我们对模型（2.2）的分布假设，我们有

覆盖（cov） (\hat{θ}) = {C类}^{- 1} - {C类}^{- 1} (\begin{matrix} 0 & 0 \\ 0 & λ K（K） \end{matrix}) {C类}^{- 1},

它与贝叶斯协方差渐近等价

{覆盖（cov）}_{B类} (\hat{θ}) = {C类}^{- 1} 。

(2.13)

有关贝叶斯透视图的更多详细信息，请参阅Wahba(1985)，绿色(1987)还有格林和西尔弗曼(1994). 我们只注意到 $\hat{θ}$ 是的后验平均值β和（f）如果我们假设在β和高斯先验（f）其对数密度函数具有内核−λ（f）^T型Kf（千克）/2.表达式（2.13）给出了后验方差-协方差，部分出于简单起见，将用作 $\hat{θ}$ 在论文的其余部分。另见本节末尾的备注2三。

3.案例删除诊断

在本节中，我们考虑了单个观测对β和（f）。

3.1. 案例删除下的估计数

让 ${\hat{θ}}_{(我, j个)} = {({\hat{β}}_{(我, j个)}^{T型}, {（f）}_{(我, j个)}^{T型})}^{T型}$ 是对…的估计θ使用不带(我,j个)第次观察。要计算 ${\hat{θ}}_{(我, j个)}$ 为所有人(我,j个)并将其与 $\hat{θ}$ 当总样本量n个幸运的是，下面的定理给出了删除情况下的更新公式，以避免对每个n个案例。此结果对于我们的案例删除诊断至关重要(五,λ). 为了简单起见，我们以自然的方式计算观察结果(我,j个)观察结果给出了一个病例编号c（c）=n个₁+…+n个_我−1+j个，我们让d日_c（c）成为n个×1矢量，1位于c（c）第个位置，其他位置为0。

定理1。使用上面定义的符号，我们有

{\hat{β}}_{(我 j个)} = \hat{β} - \frac{{({X（X）}^{T型} {W公司}_{x个} X（X）)}^{- 1} {X（X）}^{T型} {W公司}_{x个} {d日}_{c（c）} {d日}_{c（c）}^{T型} 五^{- 1} \tilde{e（电子）}}{{d日}_{c（c）}^{T型} 五^{- 1} (我 - \bar{H（H）}) {d日}_{c（c）}},

(3.1)

{\hat{（f）}}_{(我 j个)} = \hat{（f）} - \frac{{({N个}^{T型} {W公司}_{（f）} N个 + λ K（K）)}^{- 1} {N个}^{T型} {W公司}_{（f）} {d日}_{c（c）} {d日}_{c（c）}^{T型} 五^{- 1} \tilde{e（电子）}}{{d日}_{c（c）}^{T型} 五^{- 1} (我 - \bar{H（H）}) {d日}_{c（c）}} 。

(3.2)

对于具有五=σ²我，方程式(3.1)减少到

{\hat{β}}_{(c（c）)} = \hat{β} - \frac{{({X（X）}^{T型} {W公司}_{x个} X（X）)}^{- 1} {X（X）}^{T型} {W公司}_{x个} {d日}_{c（c）} {\tilde{e（电子）}}_{c（c）}}{1 - {\bar{小时}}_{c（c） c（c）}},

(3.3)

哪里 ${\tilde{e（电子）}}_{c（c）}$ 是c（c）的第个分量 $\tilde{e（电子）}$ 在方程式中定义(2.12)和 ${\bar{小时}}_{c（c） c（c）}$ 是c（c）第个对角线元素 $\bar{H（H）}$ 在方程式中定义(2.11). 如果非参数分量（f）模型中不存在，方程式(3.3)简化为众所周知的库克更新公式(1977)用于线性回归。同样清楚的是，Eubank和Gunst的更新公式(1986)Christensen的样条估计和命题3等。(1992)对于线性混合模型，这里是定理1的特例。

3.2. 库克距离和DFIT

（广义）库克距离可以定义为 $\hat{θ} - {\hat{θ}}_{(我, j个)}$ ⁠，即。

{光盘}_{我 j个} (β, （f）) = {(\hat{θ} - {\hat{θ}}_{(我 j个)})}^{T型} C类 (\hat{θ} - {\hat{θ}}_{(我 j个)}) 。

根据直接计算，使用定理1

{光盘}_{我 j个} (β, （f）) = {d日}_{c（c）}^{T型} 五^{- 1} \bar{H（H）} {d日}_{c（c）} {\frac{{d日}_{c（c）}^{T型} 五^{- 1} \tilde{e（电子）}}{{d日}_{c（c）}^{T型} 五^{- 1} (我 - \bar{H（H）}) {d日}_{c（c）}}}^{2} = \frac{{d日}_{c（c）}^{T型} 五^{- 1} \bar{H（H）} {d日}_{c（c）}}{{d日}_{c（c）}^{T型} 五^{- 1} (我 - \bar{H（H）}) {d日}_{c（c）}} {t吨}_{c（c）}^{2},

(3.4)

哪里

{t吨}_{c（c）} = \frac{{d日}_{c（c）}^{T型} 五^{- 1} \tilde{e（电子）}}{\sqrt {{d日}_{c（c）}^{T型} 五^{- 1} (我 - \bar{H（H）}) {d日}_{c（c）}}}

(3.5)

是c（c）在这种情况下，“调整”是指计算为数据中的相关性调整的残差。

对于半参数模型，通常更适合检查对估计值的部分影响β和（f）分开。参数化构件的Cook距离定义为

{光盘}_{我 j个} (β) = {(\hat{β} - {\hat{β}}_{(我 j个)})}^{T型} {(我_{第页}, 0) {C类}^{- 1} {(我_{第页}, 0)}^{T型}}^{- 1} (\hat{β} - {\hat{β}}_{(我 j个)}) 。

它有一个更简单的表达式

{光盘}_{我 j个} (β) = \frac{{d日}_{c（c）}^{T型} {W公司}_{x个} X（X） {({X（X）}^{T型} {W公司}_{x个} X（X）)}^{- 1} {X（X）}^{T型} {W公司}_{x个} {d日}_{c（c）}}{{d日}_{c（c）}^{T型} 五^{- 1} (我 - \bar{H（H）}) {d日}_{c（c）}} {t吨}_{c（c）}^{2} 。

(3.6)

我们看到c（c）第个案例 $\hat{β}$ 来自任何一个大型t吨_c（c）或大型杠杆，其中参数组件的杠杆由以下对角元素给出

{H（H）}_{β} = {W公司}_{x个} X（X） {({X（X）}^{T型} {W公司}_{x个} X（X）)}^{- 1} {X（X）}^{T型} {W公司}_{x个} 。

跟随厨师(1977)，我们可以判断CD的大小_ij公司(β)通过注意到

{(\hat{β} - β)}^{T型} {(我_{第页}, 0) {C类}^{- 1} {(我_{第页}, 0)}^{T型}}^{- 1} (\hat{β} - β) ⩽ χ_{第页, α}^{2}

是级别1−α置信椭球β.如果 ${光盘}_{我 j个} (β) χ_{第页, α}^{2}$ 对一些人来说α，删除此情况会将估计值从水平1−的中心移到边缘α置信椭球体。据库克介绍(1977)，我们通常都喜欢 ${\hat{β}}_{(我 j个)}$ 以保持在10%的置信区间内。

可以为非参数分量定义库克距离的类似表达式（f）但我们认为，由于样条拟合的局部性质，更适合评估删除单个观测值的局部影响。样条曲线估计在所有点上的总体影响往往是一个缩小的度量，可能会掩盖局部邻域中的实际影响。为此，我们通过以下方式评估部分影响

{DFIT公司}_{我 j个} = | {d日}_{c（c）}^{T型} N个 ({\hat{（f）}}_{我 j个 j个} - \hat{（f）}) | / 秒_{我 j个}

(3.7)

哪里 $秒_{我 j个}^{2}$ 是c（c）第个对角线元素N个(0,我_第页)C类⁻¹(0,我_第页)^T型N个^T型由于近似水平1−α置信区间（f）(t吨_ij公司)可以从以下位置获得 $| {d日}_{c（c）}^{T型} N个 \hat{（f）} - （f） ({t吨}_{我 j个}) | ⩽ 秒_{我 j个} {z（z）}_{α / 2}$ ⁠，我们可以，就像CD一样_ij公司(β)，通过查看以下位置来评估DFIT的规模 ${d日}_{c（c）}^{T型} {\hat{（f）}}_{(我 j个)}$ 相对于此类置信区间的边缘。

备注1。实际上，五和λ在库克距离或DFIT的计算中，用来自完整数据集的估计值替换。我们的诊断，就像班纳吉和弗里斯的诊断一样(1997)，取决于估计的五和λ，这本身可能会受到异常值的影响。有可能五和λ由于删除一个观测值对估计β和（f）然而，我们的经验表明，简化方法的条件是五和λ在识别离群值和影响点方面仍然非常有用和有效；请参阅第节中的示例5。

3.3. 均值漂移异常值模型与异常值检验

病例删除是构建有效诊断统计数据的基础。均值漂移异常值模型（见库克和魏斯伯格(1982)，第20页）通常用于测试给定观测值是否是模型的异常值。对于(我,j个)在这种情况下，我们将异常值模型视为

\begin{matrix} {Y（Y）}_{k个 我} = {X（X）}_{k个 我}^{T型} β + （f） ({t吨}_{k个 我}) + {Z轴}_{k个 我}^{T型} {b条}_{我} + {U型}_{k个} ({t吨}_{k个 我}) + ε_{k个 我}, k个 \neq 我, 我 \neq j个, \\ {Y（Y）}_{我 j个} = {X（X）}_{我 j个}^{T型} β + （f） ({t吨}_{我 j个}) + {Z轴}_{我 j个}^{T型} {b条}_{我} + {U型}_{我} ({t吨}_{我 j个}) + γ + ε_{我 j个}, \end{matrix}

(3.8)

哪里γ是一个额外的参数，用于指示异常值的存在。离群值检验可以表述为对零假设的检验γ=0.

让 ${\tilde{β}}_{我 j个}, {\tilde{（f）}}_{我 j个}$ 和 ${\tilde{γ}}_{我 j个}$ 是模型（3.8）的MPLE。我们有以下定理。

定理2。的MPLE(β,（f）)在模型（2.2）下，不带(我,j个)第种情况与模型（3.8）下使用完整数据集的估计值相同，即。

{\hat{β}}_{(我 j个)} = {\tilde{β}}_{我 j个} 和 {\hat{（f）}}_{(我 j个)} = {\tilde{（f）}}_{我 j个} 。

Cook和Weisberg观察到线性回归的案例删除模型和异常值模型之间的等价性(1982). Wei进一步扩展了这一点(1998)更广泛的参数化模型。定理2证实了半参数混合模型的相同现象。此外γ是

{\tilde{γ}}_{我 j个} = {({d日}_{c（c）}^{T型} 五^{- 1} {d日}_{c（c）})}^{- 1} {d日}_{c（c）}^{T型} 五^{- 1} (Y（Y） - X（X） {\hat{β}}_{(我 j个)} - N个 {\hat{（f）}}_{(我 j个)}) = \frac{{d日}_{c（c）}^{T型} 五^{- 1} \tilde{e（电子）}}{{d日}_{c（c）}^{T型} 五^{- 1} (我 - \bar{H（H）}) {d日}_{c（c）}},

(3.9)

其在零模型（2.2）下的方差为

无功功率，无功功率 ({\tilde{γ}}_{我 j个}) = \frac{{d日}_{c（c）}^{T型} 五^{- 1} (我 - \bar{H（H）}) 五 (我 - \bar{H（H）}) 五^{- 1} {d日}_{c（c）}}{{{d日}_{c（c）}^{T型} 五^{- 1} (我 - \bar{H（H）}) {d日}_{c（c）}}^{2}}

它与贝叶斯方差渐近等价

{无功功率，无功功率}_{B类} ({\tilde{γ}}_{我 j个}) = \frac{1}{{d日}_{c（c）}^{T型} 五^{- 1} (我 - \bar{H（H）}) {d日}_{c（c）}}

以更简单的形式。标准化 ${\tilde{γ}}_{我 j个}$ 贝叶斯方差等于标准化调整残差t吨_c（c）在方程式中定义(3.5)并可用于测试(我,j个)模型（2.2）的第个观测值偏小。一个情节t吨_c（c）可用于筛选异常值。Bonferroni界可用于获得保守的截止点，以识别异常值。如果n个=492，如第节中的示例所示5.1，5%水平测试的保守截止值可以取为z（z）_α/2n个=3.887。一些人可能更喜欢使用2或3的传统（但自由）临界点来筛选可能的异常值，但当样本量较大时，这将导致假阳性结果。

备注2。在空模型下，t吨_c（c）如果我们使用精确的抽样方差而不是贝叶斯方差，则会得到精确的正态分布。同样的评论也适用于第节中定义库克距离时使用的归一化矩阵3.2。为了简单起见，我们选择使用贝叶斯方差。其他研究人员在样条模型方面的经验表明，贝叶斯方差可以带来令人满意的推断。在我们为半参数混合模型考虑的少量示例中，基于两个方差的结果显示出几乎没有差异。

备注3。与第节的影响措施一样3.2，这里的离群值测试使用的是(五,λ). 这对测试的有效性影响较小，因为在无异常值的零假设下(五,λ)当单个案例被删除时，不会有太大变化。

4.受试者删除诊断

在纵向研究中，来自同一受试者的观察结果通常具有相同的协变量值。因此，与有影响力的观察结果相比，确定有影响力的对象是有用的。班纳吉和弗里斯(1997)注意到，从敏感性分析的角度来看，前者是有用的，而后者更多地涉及到异常值的检测。样本量相对较大n个，单个观察的影响通常是有限的，但一个受试者的影响可能更为明显。

在本节中，我们考虑删除主题的影响我关于固定效应估计 $\hat{β}$ 和 $\hat{（f）}$ 来自模型（2.2）。让 ${\hat{θ}}_{[我]} = {({\hat{β}}_{[我]}^{T型}, {\hat{（f）}}_{[我]}^{T型})}^{T型}$ 表示对β和（f）使用我删除第个主题。下面的定理给出了主题删除情况下的更新公式。

定理3。让E类_我=(0,…,0,我_n个我,0,…,0)^T型成为n个×n个_我矩阵。然后

{\hat{θ}}_{[我]} = \hat{θ} - {C类}^{- 1} (\begin{array}{l} {X（X）}^{T型} \\ {N个}^{T型} \end{array}) 五^{- 1} {E类}_{我} {(我_{{n个}_{我}} - {\bar{H（H）}}_{我})}^{- 1} {E类}_{我}^{T型} \tilde{e（电子）},

(4.1)

哪里

{\bar{H（H）}}_{我} = (\begin{matrix} \begin{matrix} {X（X）}_{我} & {N个}_{我} \end{matrix} \end{matrix}) {C类}^{- 1} (\begin{array}{l} {X（X）}_{我}^{T型} \\ {N个}_{我}^{T型} \end{array}) 五_{我}^{- 1} 。

定理3简化为Banerjee和Frees的引理3(1997)如果非参数分量（f）不在模型中。

我们将主题删除下的广义Cook距离定义为

{光盘}_{[我]} (β, （f）) = {({\hat{θ}}_{[我]} - θ)}^{T型} C类 ({\hat{θ}}_{[我]} - θ),

(4.2)

可以从定理3改写为，

{光盘}_{[我]} (β, （f）) = {\tilde{e（电子）}}^{T型} {E类}_{我} {(我_{{n个}_{我}} - {\bar{H（H）}}_{我}^{T型})}^{- 1} 五_{我}^{- 1} {\bar{H（H）}}_{我} {(我_{{n个}_{我}} - {\bar{H（H）}}_{我})}^{- 1} {E类}_{我}^{T型} \tilde{e（电子）} 。

(4.3)

${E类}_{我}^{T型} \tilde{e（电子）}$ 是n个_我对应于我主题。当非参数分量（f）模型中不存在，方程式(4.3)在代数上等价于Banerjee和Frees的引理4(1997). 我们认为参数估计的部分影响Cook距离为

{光盘}_{[我]} (β) = {R（右）}_{我}^{T型} {H（H）}_{β, 我} {R（右）}_{我},

(4.4)

哪里 ${R（右）}_{我} = {(我_{{n个}_{我}} = {\bar{H（H）}}_{我})}^{- 1} {E类}_{我}^{T型} \tilde{e（电子）}$ 和

{H（H）}_{β, 我} = {E类}_{我}^{T型} {W公司}_{x个} X（X） {({X（X）}^{T型} {W公司}_{x个} X（X）)}^{- 1} {X（X）}^{T型} {W公司}_{x个} {E类}_{我}

是我矩阵的第个对角块H（H）如第节所述三，我们可以校准CD_[我](β)使用χ_第页²-分配以评估我关于估算的主题β。

自拆除我该主题涉及n个_我时间点，我们需要计算DFITn个_我评估局部对拟合曲线影响的点（f）这相当于考虑了 ${N个}_{我} \hat{（f）}$ 和 ${N个}_{我} {\hat{（f）}}_{[我]}$ ⁠以下为：

{光盘}_{[我]} (（f）) = {R（右）}_{我}^{T型} {W公司}_{（f）} N个 {S公司}^{- 1} {N个}_{我}^{T型} {({N个}_{我} {S公司}^{- 1} {N个}_{我}^{T型})}^{- 1} {N个}_{我} {S公司}^{- 1} {N个}^{T型} {W公司}_{（f）} {R（右）}_{我},

(4.5)

哪里S公司=N个^T型W公司_（f）N个+λK（K）。

我们还可以对我第种情况，

\begin{matrix} {Y（Y）}_{我} = {X（X）}_{我} β + {N个}_{我} （f） + {Z轴}_{我} {b条}_{我} + Δ + {U型}_{我} + ε_{我}, \\ {Y（Y）}_{j个} = {X（X）}_{j个} β + {N个}_{j个} （f） + {Z轴}_{j个} {b条}_{j个} + {U型}_{j个} + ε_{j个}, j个 \neq 我, \end{matrix}

(4.6)

哪里Δ是一个n个_我×1边远受试者向量指标。让 ${\tilde{β}}_{[我]}, {\tilde{（f）}}_{[我]}$ 和 ${\tilde{Δ}}_{[我]}$ 是的MPLEβ,（f）和Δ对于模型（4.6）。与定理2类似，我们可以证明

{\tilde{β}}_{[我]} = {\hat{β}}_{[我]}, {\tilde{（f）}}_{[我]} = {\hat{（f）}}_{[我]} 和 {\tilde{Δ}}_{[我]} = {R（右）}_{我} 。

(4.7)

R（右）_我可以解释为关于我主题。对于标准化，我们获得

\begin{matrix} 覆盖（cov） ({R（右）}_{我}) = {(我_{{n个}_{我}} - {\bar{H（H）}}_{我})}^{- 1} {E类}_{我}^{T型} (我 - \bar{H（H）}) 五 {(我 - \bar{H（H）})}^{T型} {E类}_{我} {(我_{{n个}_{我}} - {\bar{H（H）}}_{我}^{T型})}^{- 1}, \\ {覆盖（cov）}_{B类} ({R（右）}_{我}) = {(我_{{n个}_{我}} - {\bar{H（H）}}_{我})}^{- 1} 五_{我} 。 \end{matrix}

所以我们可以使用

{T型}_{我} = {R（右）}_{我}^{T型} {覆盖（cov）}_{B类} {({R（右）}_{我})}^{- 1} {R（右）}_{我} = {\tilde{e（电子）}}^{T型} {E类}_{我} {(我_{{n个}_{我}} - {\bar{H（H）}}_{我})}^{- 1} 五_{我}^{- 1} {E类}_{我}^{T型} \tilde{e（电子）}

(4.8)

测试具有以下特征的外围受试者χ_n个我²作为参考分布。和以前一样，我们也可以使用cov(R（右）_我)代替cov_B类(R（右）_我)在方程式中(4.8)。

5.示例

在本节中，我们使用两个示例来说明我们的诊断措施的有效性。还将对简化条件诊断和全尺寸自适应诊断进行比较。

5.1. 激素数据

为了说明前面章节中考虑的影响诊断和异常值筛选和测试，我们考虑了Sowers的孕酮数据等。(1998). 张等。(1998)对时间效应高度非线性的数据拟合了半参数混合模型（2.2）。

这项研究涉及34名年龄在27岁至45岁之间的女性。每个女性在一个月经周期中采集尿液样本，每隔一天测定尿孕酮。对数转换的孕酮水平被认为是反应。除了时间效应，还有两个协变量可用。它们是年龄和体重指数BMI。该研究的一个目的是测试年龄和BMI在适当调整月经周期后对女性孕酮水平的影响。我们使用与张中相同的变量标准化等。(1998)使用模型

{Y（Y）}_{我 j个} = β_{1} {年龄}_{我} + β_{2} {体重指数}_{我} + （f） ({t吨}_{我 j个}) + {b条}_{我} + {U型}_{我} ({t吨}_{我 j个}) + ε_{我 j个}

(5.1)

其中随机拦截b条_我是独立且正态分布的U型_我(t吨)是建模序列相关性的平均0高斯过程ε_ij公司是独立的高斯误差。允许的方差Y（Y）_ij公司为了随时间变化，假设U型_我(t吨)遵循带有var的非均匀Ornstein–Uhlenbeck过程{U型_我(t吨)}=ξ(t吨)和日志{ξ(t吨)}在中是二次的t吨和更正{U型_我(t吨),U型_我(秒)}=ρ^|t吨−秒|对一些人来说ρ∈（0,1）。

观察总数为492第页=92个不同的时间点。估计参数为 $({\hat{β}}_{1}, {\hat{β}}_{2}) = (0.9247, - 2.9127)$ 标准误差为1.9236,2.3762，二者相关性很小。根据估计值有条件地五和λ根据完整的数据，我们计算了βDFIT在案例删除下进行测量。它们绘制在图中。1。对于这种大小的数据集，所有CD_ij公司(β)在图中。1（a）震级很小，表明对β通过任何一次观察。图中案例10、405和445的DFIT值。1（b）约为0.3，表明删除一个这样的情况会将拟合值移动到其20%置信椭圆的边缘。对数据的进一步检查表明，405例和445例病例对应于月经周期开始时的一些异常孕酮水平。病例10与异常低水平的孕酮有关。

图1

新标签中打开下载幻灯片

激素数据的病例缺失诊断：（a）库克距离估计β; （b） DFIT用于估算（f）

在本例中，没有一项DFIT指标足够高，足以引起严重关注，但请注意，DFIT平方的总体幅度远高于CD_ij公司(β). 这可能是因为非参数拟合本质上是局部的。不同于对β其中每个n个=492个观测值起作用（f）在给定的时间点上，主要由当地居民的观测结果决定。这样一个局部邻里可能只包含50个观测值，因此对于（f）单次观测的影响仅相对于50个点进行测量，而不是n个=492分。

标准化调整残差t吨_c（c）如图所示。2在保守的Bonferroni界3.887的基础上，我们发现了一个明显的异常值：受试者1的病例10。

图2

新标签中打开下载幻灯片

异常值检测的标准化调整残差：………，Bonferroni界

评估每个受试者对以下参数估计的影响β，我们绘制CD_[我](β)在图中。三（a） ●●●●。最具影响力的受试者是24人，库克距离为0.6464，这表明，删除受试者24将改变对β到27.6%置信椭圆的边缘。这有点令人担忧，但可能并不严重。重新安装模型（不含主题24）后，得出的新估计为β同于（−0.3268,1.5428）。估计β有符号变化，但由于较大的标准误差，这两个术语仍然不重要。库克距离相对较大的接下来两个受试者是受试者18和30，但他们的影响稍弱。

图3

激素数据的受试者诊断：（a）根据λ和V估算β的库克距离；（b）基于Ti的离群点检测；（c）带条件和自适应λ和V的β估计的Cook距离

新标签中打开下载幻灯片

激素数据的受试者诊断：（a）库克距离估计β有条件的λ和五; （b）基于T型_我; （c）库克距离估算β具有条件和自适应λ和五

我们策划T型_我在图中。三（b）识别外围对象。受试者1进行了14次观察T型_我=54.99根据第节的离群值检验结果为离群值4。这主要是由于我们在t吨_c（c）综上所述，我们发现主题1中有一个明显的异常值，但主题1对固定效应的估计没有影响。最有影响力的受试者24对估计有一些但不是显著的影响，这表明Zhang进行的分析具有一定程度的稳健性等。(1988).

我们的诊断取决于估计的(五,λ)从完整数据中。使用以下自适应估计，查看这是否为全尺度分析提供了良好的近似值(五,λ)，我们在图中绘制。三（c）库克距离估算β通过重新调整去除每个受试者的模型，与我们简化方法得到的结果进行比较，条件是(五,λ)从完整数据中。很明显，这两种方法给出了几乎相同的结果。

5.2. 模拟数据示例

为了进一步评估本文所导出的诊断措施的有效性，我们考虑了一个带有两个离群值和一个强制杠杆点的模拟数据集。

协变量X（X）_我作为第节中荷尔蒙示例的前20名受试者的非标准BMI测量值5.1范围为21.5328至38.0165。响应值由

{Y（Y）}_{我 j个} = 0.5 ({X（X）}_{我} - 26) + （f） ({t吨}_{我 j个}) + {b条}_{我} + {U型}_{我} ({t吨}_{我 j个}) + ε_{我 j个}, 我 = 1, \dots, 20, j个 = 1, \dots, 4,

哪里（f）(t吨)=(t吨−0.5)²,t吨_我1∼U型(0,0.25),t吨_我,j个+1=t吨_ij公司+0.25 (j个=2,3,4),b条_我∼N个(0,0.12),U型_我(t吨)被视为AR（1）过程，方差为0.22，一阶自相关为0.3ε_ij公司∼N个(0,0.1). 与往常一样，假设受试者之间具有独立性。在模拟数据中，响应Y（Y）_ij公司范围为-2.8至6.9。我们假设U型_我(t吨)在估算中遵循了Ornstein–Uhlenbeck过程，尽管它与实际情况中未知的真实结构不匹配。MPLE算法给出了 $\hat{β} = 0.452$ 和λ在这种情况下=0.153。

在我们继续之前，我们改变了案例33和80的回答，案例33减去4，案例80加上4。我们还更改了X（X）-受试者9（病例33–36）的数值从34.3991降至43.3991。MPLE算法给出了 $\hat{β} = 0.273$ 和λ=0.374.

图。4提供CD(β)以及用于估算的DFIT值（f）案例33对β而案例80对估计（f）由于案例80的杠杆率较低，其对估计β不是很好。图中的异常值筛选。5成功识别两个异常值。

图4

模拟数据的病例删除诊断：（a）估算β的库克距离；（b） f估算的DFIT；（c）带条件和自适应λ和V的β估计的Cook距离对数

新标签中打开下载幻灯片

模拟数据的案例删除诊断：（a）库克距离估计β; （b） DFIT用于估算（f）; （c）库克距离的对数用于估算β具有条件和自适应λ和五

图5

新标签中打开下载幻灯片

异常值检测的标准化调整残差：………，Bonferroni界

为了查看我们的简化方法是否能很好地近似自适应方法，我们在图中进行了绘制。4（c）库克距离的对数，用于估算β从一种方法对另一种方法获得。为了获得更好的视觉效果，使用了对数刻度。很明显，我们在这两种方法上都达成了很好的协议。

关于主题删除，我们从图中看到。6（a）该科目9对评估的影响确实很大β.光盘(β)除协变量最大的受试者18外，图中其他受试者的值几乎为0X（X）在科目9之后，是一个适度的杠杆点。受试者9和受试者20在图中均被确定为异常值。6（b） ●●●●。

图6

新标签中打开下载幻灯片

模拟数据的受试者诊断：（a）库克距离估计β; （b）基于T型_我

在这个例子中，我们创建的两个离群值和一个影响点通过我们在第2根据估计的方差分量和λ从完整数据中。此外，还发现了另一个有影响力的研究对象，因为它在协变量中的杠杆作用相对较高X（X）这些结果相当令人满意。

根据我们示例中的成功案例，我们想补充一点，我们的诊断基于单一案例或单一主题删除，这可能会受到众所周知的掩蔽效应的影响。高分解估计器可以提供针对异常值集群的保护。我们指的是卢梭和勒罗伊(1987)用于高击穿方法。

致谢

Wing-Kam Fung的研究部分得到香港研究资助委员会拨款HKU7134/98H的支持。朱忠义和魏伯承的研究部分得到了国家科学基金会19631040的资助。何旭明的研究得到了美国国家科学基金会DMS-0102411奖的部分支持。作者感谢张道文博士向他们发送了数据集和一个SAS宏，以及两位审稿人和一位副主编的建设性意见和有益建议。

工具书类

1

班纳吉

,

M。

和

免费

,

东-西。

(

1997

)

线性纵向模型的影响诊断

。

《美国统计杂志》。助理。

,

92

,

999

——

1005

。

谷歌学者

交叉参考

书目数据库

2

贝克曼

,

右J。

,

纳赫茨海姆

,

C.J.公司。

和

厨师

,

钢筋混凝土。

(

1987

)

混合模型方差分析诊断

。

技术计量学

,

29

,

413

——

426

。

谷歌学者

OpenURL占位符文本

书目数据库

三

贝尔斯利

,

D.A.博士。

,

库赫

,

E.公司。

和

威尔士的

,

R.E.公司。

(

1980

)

回归诊断

纽约：

威利

。

4

卡莫迪

,

T·J。

(

1988

)

多元平滑样条曲线的诊断

。

J.统计。计划信息。

,

19

,

171

——

186

。

谷歌学者

交叉参考

书目数据库

5

克里斯滕森

,

R。

,

皮尔逊

,

L。

和

约翰逊

,

西。

(

1992

)

混合模型的案例删除诊断

。

技术计量学

,

34

,

38

——

45

。

谷歌学者

交叉参考

书目数据库

6

厨师

,

钢筋混凝土。

(

1977

)

线性回归中影响观测值的检测

。

技术计量学

,

19

,

15

——

18

。

谷歌学者

OpenURL占位符文本

书目数据库

7

厨师

,

钢筋混凝土。

和

韦斯伯格

,

美国。

(

1982

)

回归中的残差及其影响

纽约：

查普曼和霍尔

。

8

戴维森

,

A.控制。

和

济

,

C.-L.公司。

(

1992

)

回归模型诊断

。

国际统计。版次。

,

60

,

337

——

353

。

谷歌学者

交叉参考

书目数据库

9

欧洲银行

,

共和国。

(

1984

)

平滑样条线的帽子矩阵

。

统计师。普罗巴伯。莱特。

,

2

,

9

——

14

。

谷歌学者

交叉参考

书目数据库

10

— (

1985

)平滑样条曲线的诊断。

J.R.统计。Soc公司。

B、，

47

,

332

——

341

。

11

欧洲银行

,

共和国。

和

冈斯特

,

无线电频率。

(

1986

)

惩罚最小二乘估计的诊断

。

统计师。普罗巴伯。莱特。

,

4

,

265

——

272

。

谷歌学者

交叉参考

书目数据库

12

绿色

,

P.J.公司。

(

1987

)

一般半参数回归模型的惩罚似然

。

国际统计。版次。

,

55

,

245

——

260

。

谷歌学者

交叉参考

书目数据库

13

绿色

,

P.J.公司。

和

西尔弗曼

,

B.W.公司。

(

1994

)

非参数回归与广义线性模型

.伦敦：

查普曼和霍尔

。

14

他

,

十、。

和

施

,

P.D.公司。

(

1996

)

部分线性模型中的二元张量积B样条

。

J.Multiv.公司。分析。

,

58

,

162

——

181

。

谷歌学者

交叉参考

书目数据库

15

赫克曼

,

不适用。

(

1986

)部分线性模型中的样条曲线平滑。

J.R.统计。Soc公司。

B、，

48

,

244

——

248

。

16

基姆

,

C、。

(

1996

)

样条曲线平滑中的Cook距离

。

统计师。普罗巴伯。莱特。

,

31

,

139

——

144

。

谷歌学者

交叉参考

书目数据库

17

勒萨弗尔

,

E.公司。

和

维伯克

,

G。

(

1998

)

线性混合模型中的局部影响

。

生物计量学

,

54

,

570

——

582

。

18

锂

,

问：。

和

斯坦戈斯

,

T。

(

1996

)

部分线性面板数据模型的半参数估计

。

《计量经济学杂志》。

,

71

,

389

——

397

。

谷歌学者

交叉参考

书目数据库

19

普赖塞尔

,

J.S.公司。

和

卡奇什

,

B.F.公司。

(

1996

)

广义估计方程的删除诊断

。

生物特征

,

83

,

551

——

562

。

谷歌学者

交叉参考

书目数据库

20

卢梭

,

P.J.公司。

和

勒罗伊

,

上午。

(

1987

)

稳健回归与异常检测

纽约：

威利

。

21

西尔弗曼

,

B.W.公司。

(

1985

)非参数回归曲线拟合的样条平滑方法的一些方面（与讨论）。

J.R.统计。Soc公司。

B、，

47

,

1

——

52

。

22

播种机

,

M.F.公司。

,

克拉奇菲尔德

,

M。

,

伦道夫

,

J.F.公司。

,

夏皮罗

,

B。

,

张

,

B。

,

彼得拉

,

M.L.公司。

和

朔尔克

,

文学硕士。

(

1998

)

低骨量绝经前妇女的尿卵巢和促性腺激素水平

。

骨最小研究杂志。

,

13

,

1191

——

1202

。

谷歌学者

交叉参考

书目数据库

23

斯派克曼

,

第页。

(

1988

)部分线性模型中的核平滑。

J.R.统计。Soc公司。

B、，

50

,

413

——

436

。

24

托马斯

,

西。

(

1991

)

样条平滑中交叉验证平滑参数的影响诊断

。

《美国统计杂志》。助理。

,

86

,

693

——

698

。

谷歌学者

交叉参考

书目数据库

25

托马斯

,

西。

和

厨师

,

钢筋混凝土。

(

1989

)

广义线性模型中回归系数的影响评估

。

生物特征

,

76

,

741

——

749

。

谷歌学者

交叉参考

书目数据库

26

瓦赫巴

,

G。

(

1985

)

广义样条平滑问题中GCV和GML选择平滑参数的比较

。

安。统计师。

,

13

,

1378

——

1402

。

谷歌学者

OpenURL占位符文本

书目数据库

27

伟

,

公元前。

(

1998

)

指数族非线性模型

.新加坡：

施普林格

。

28

威廉姆斯

,

D.A.博士。

(

1987

)

使用偏差和单例缺失的广义线性模型诊断

。

申请。统计师。

,

36

,

181

——

191

。

谷歌学者

交叉参考

书目数据库

29

张

,

D。

,

林

,

十、。

,

拉兹

,

J。

和

播种机

,

M.F.公司。

(

1998

)

纵向数据的半参数随机混合模型

。

《美国统计杂志》。助理。

,

93

,

710

——

719

。

附录A：证明

A.1、。定理1的证明

在不失一般性的情况下，假设c（c）=1，因此矩阵五分区为

五 = (\begin{matrix} {v（v）}_{c（c） c（c）} & {v（v）}_{c（c）}^{T型} \\ {v（v）}_{c（c）} & 五_{(c（c）)} \end{matrix}) .

我们还使用Y（Y）_c（c）,N个_c（c）和X（X）_c（c）作为c（c）第行，共行Y（Y）,N个和X（X）分别是，和Y（Y）_(c（c）),N个_(c（c）)和X（X）_(c（c）)作为带有c（c）第行已删除。

现在让我们 ${Y（Y）}_{我}^{*} = {({Y（Y）}_{我 1}, \dots, {Y（Y）}_{我 j个 - 1} -, {Y（Y）}_{我 j个}^{*}, {Y（Y）}_{我 j个 + 1}, \dots, {Y（Y）}_{我 {n个}_{我}})}^{T型}$ 和 $Y（Y） * = {({Y（Y）}_{1}^{T型}, \dots, {Y（Y）}_{我 - 1}^{T型},, {Y（Y）}_{我}^{*}^{T型}, {Y（Y）}_{我 + 1}^{T型}, \dots, {Y（Y）}_{米}^{T型})}^{T型}$ ⁠，其中 ${Y（Y）}_{我 j个}^{*} = {X（X）}_{我 j个}^{T型} {\hat{β}}_{(我 j个)} + {\hat{（f）}}_{(我 j个)} ({t吨}_{(我 j个)}) + {v（v）}_{c（c）}^{T型} 五_{(c（c）)}^{- 1} ({Y（Y）}_{(c（c）)} - {X（X）}_{(c（c）)} {\hat{β}}_{(我 j个)} - {N个}_{(c（c）)} {\hat{（f）}}_{(我 j个)}$ ⁠.对于任何参数β和平滑曲线（f）根据定义，我们有 ${\hat{β}}_{(我 j个)}$ 和 ${\hat{（f）}}_{(我 j个)}$ ⁠,

\begin{array}{l} {({Y（Y）}^{*} - X（X） β - N个 （f）)}^{T型} 五^{- 1} ({Y（Y）}^{*} - X（X） β - N个 （f）) + λ \int^{​} {（f）}^{″} {(t吨)}^{2} d日 t吨 \\ \begin{matrix} = {{Y（Y）}_{我 j个}^{*} - {X（X）}_{我 j个}^{T型} β - （f） ({t吨}_{我 j个}) - {({Y（Y）}_{(c（c）)} - {X（X）}_{(c（c）)} β - {N个}_{(c（c）)} （f）)}^{T型} 五_{(c（c）)}^{- 1} {v（v）}_{c（c）}}^{2} 秒_{c（c）}^{- 1} + {({Y（Y）}_{(c（c）)} - {X（X）}_{(c（c）)} β - {N个}_{(c（c）)} （f）)}^{T型} 五_{(c（c）)}^{- 1} ({Y（Y）}_{(c（c）)} - {X（X）}_{(c（c）)} β - {N个}_{(c（c）)} （f）) + λ \int^{​} {（f）}^{″} {(t吨)}^{2} d日 t吨 \end{matrix} ⩾ ({Y（Y）}_{(c（c）)} - {X（X）}_{(c（c）)} β - {N个}_{(c（c）)} {（f）}^{T型} 五_{(c（c）)}^{- 1} ({Y（Y）}_{(c（c）)} - {X（X）}_{(c（c）)} β - {N个}_{(c（c）)} （f）) + λ \int^{​} {（f）}^{″} {(t吨)}^{2} d日 t吨 ⩾ {({Y（Y）}^{*} - X（X） {\hat{β}}_{(我 j个)} - N个 {\hat{（f）}}_{(我 j个)})}^{T型} 五^{- 1} ({Y（Y）}^{*} - X（X） {\hat{β}}_{(我 j个)} - N个 {\hat{（f）}}_{(我 j个)}) + λ \int^{​} {\hat{（f）}}_{(我 j个)}^{''} {(t吨)}^{2} d日 t吨 \end{array}

哪里秒_c（c）=v（v）_{复写的副本}−v（v）_c（c）^T型五_(c（c）)⁻¹v（v）_c（c）。由此可见 $({\hat{β}}_{(我 j个)}, {\hat{（f）}}_{(我 j个)})$ 最小化

{({Y（Y）}^{*} - X（X） {\hat{β}}_{(我 j个)} - N个 {\hat{（f）}}_{(我 j个)})}^{T型} 五^{- 1} ({Y（Y）}^{*} - X（X） {\hat{β}}_{(我 j个)} - N个 {\hat{（f）}}_{(我 j个)}) + λ \int^{​} {\hat{（f）}}_{(我 j个)}^{''} {(t吨)}^{2} d日 t吨

以便

\begin{matrix} {\hat{β}}_{(我 j个)} = {({X（X）}^{T型} {W公司}_{x个} X（X）)}^{- 1} {X（X）}^{T型} {W公司}_{x个} {Y（Y）}^{*} \\ = \hat{β} - {({X（X）}^{T型} {W公司}_{x个} X（X）)}^{- 1} {X（X）}^{T型} {W公司}_{x个} {d日}_{c（c）} ({Y（Y）}_{我 j个} - {Y（Y）}_{我 j个}^{*}), \\ {\hat{（f）}}_{(我 j个)} = {({N个}^{T型} {W公司}_{（f）} N个 + λ K（K）)}^{- 1} {N个}^{T型} {W公司}_{（f）} {Y（Y）}^{*} \\ = \hat{（f）} - {({N个}^{T型} {W公司}_{（f）} N个 + λ K（K）)}^{- 1} {N个}^{T型} {W公司}_{（f）} {d日}_{c（c）} ({Y（Y）}_{我 j个} - {Y（Y）}_{我 j个}^{*}) 。 \end{matrix}

然而，请注意 ${Y（Y）}_{c（c）} = {Y（Y）}_{我 j个}, {N个}_{c（c）} （f） = （f） ({t吨}_{我 j个}), {d日}_{c（c）}^{T型} 五^{- 1} = 秒^{- 1} (1, - {v（v）}_{c（c）}^{T型} 五_{(c（c）)})$ 和 $X（X） {\hat{β}}_{(我 j个)} + N个 {\hat{（f）}}_{(我 j个)} = \bar{H（H）} Y（Y） *$ ⁠。然后我们可以验证

\begin{matrix} {Y（Y）}_{我 j个} - {Y（Y）}_{我 j个}^{*} = 秒_{c（c）} {d日}_{c（c）}^{T型} 五^{- 1} (Y（Y） - X（X） {\hat{β}}_{(我 j个)} - N个 {\hat{（f）}}_{(我 j个)}) \\ = 秒_{c（c）} {d日}_{c（c）}^{T型} 五^{- 1} (Y（Y） - \bar{H（H）} {Y（Y）}^{*}) \\ = 秒_{c（c）} {d日}_{c（c）}^{T型} 五^{- 1} {Y（Y） - \bar{H（H）} Y（Y） + \bar{H（H）} (Y（Y） - {Y（Y）}^{*})} \\ = 秒_{c（c）} {d日}_{c（c）}^{T型} 五^{- 1} (Y（Y） - \bar{H（H）} Y（Y）) + 秒_{c（c）} {d日}_{c（c）}^{T型} 五^{- 1} \bar{H（H）} {d日}_{c（c）} ({Y（Y）}_{我 j个} - {Y（Y）}_{我 j个}^{*}) 。 \end{matrix}

解决Y（Y）_ij公司−Y（Y）_ij公司^*我们获得

{Y（Y）}_{我 j个} - {Y（Y）}_{我 j个}^{*} = \frac{秒_{c（c）} {d日}_{c（c）}^{T型} 五^{- 1} (Y（Y） - \bar{H（H）} Y（Y）)}{1 - 秒_{c（c）} {d日}_{c（c）}^{T型} 五^{- 1} \bar{H（H）} {d日}_{c（c）}} = \frac{{d日}_{c（c）}^{T型} 五^{- 1} \tilde{e（电子）}}{{d日}_{c（c）}^{T型} 五^{- 1} (我 - \bar{H（H）}) {d日}_{c（c）}},

定理1由此而来。

A.2、。定理2的证明

我们使用与定理1相同的符号。根据定义， $({\hat{β}}_{(我 j个)}, {\hat{（f）}}_{(我 j个)})$ 最小化

{L（左）}_{我 j个} (β, （f）) = {({Y（Y）}_{(c（c）)} - {X（X）}_{(c（c）)} β - {N个}_{(c（c）)} （f）)}^{T型} 五_{(c（c）)}^{- 1} ({Y（Y）}_{(c（c）)} - {X（X）}_{(c（c）)} β - {N个}_{(c（c）)} （f）) + λ \int^{​} {（f）}^{″} {(t吨)}^{2} d日 t吨,

和 $({\hat{β}}_{我 j个}, {\hat{（f）}}_{我 j个}, \tilde{γ})$ 最小化

{\tilde{L（左）}}_{我 j个} (β, （f）, γ) = {(Y（Y） - X（X） β - N个 （f） - γ {d日}_{c（c）})}^{T型} 五^{- 1} (Y（Y） - X（X） β - N个 （f） - γ {d日}_{c（c）}) + λ \int^{​} {（f）}^{″} {(t吨)}^{2} d日 t吨 。

所以 ${\tilde{γ}}_{我 j个}$ 是解决

{d日}_{c（c）}^{T型} 五^{- 1} (Y（Y） - X（X） β - N个 （f） - γ {d日}_{c（c）}) = 0

堵塞解决方案 ${\tilde{γ}}_{我 j个} (β, （f）) = {({d日}_{c（c）}^{T型} 五^{- 1} {d日}_{c（c）})}^{- 1} {d日}_{c（c）}^{T型} 五^{- 1} (Y（Y） - X（X） β - N个（f）)$ 进入之内 ${\tilde{L（左）}}_{我 j个}$ ⁠，我们获得 ${L（左）}_{我 j个} (β, （f）) = {\tilde{L（左）}}_{我 j个} {β, （f）, {\tilde{γ}}_{我 j个} (β, （f）)}$ ⁠，定理2由此而来。

表达式（4.1）和（4.7）的证明相似，因此不包括在内。

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)

下载所有幻灯片

月份：	总浏览次数：
2023年4月	24
2023年5月	12
2023年6月	14
2023年7月	8
2023年8月	5
2023年9月	28
2023年10月	7
2023年11月	25
2023年12月	20
2024年1月	9
2024年2月	5
2024年3月	9
2024年4月	8
2024年5月	13

文章内容

半参数混合模型的影响诊断和异常检验

总结

1.简介

2.模型和估算方法

3.案例删除诊断

3.1. 案例删除下的估计数

3.2. 库克距离和DFIT

3.3. 均值漂移异常值模型与异常值检验

4.受试者删除诊断

5.示例

5.1. 激素数据

5.2. 模拟数据示例

致谢

工具书类

附录A：证明

A.1、。定理1的证明

A.2、。定理2的证明

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

文章内容

半参数混合模型的影响诊断和异常检验

总结

1.简介

2.模型和估算方法

3.案例删除诊断

3.1. 案例删除下的估计数

3.2. 库克距离和DFIT

3.3. 均值漂移异常值模型与异常值检验

4.受试者删除诊断

5.示例

5.1. 激素数据

5.2. 模拟数据示例

致谢

工具书类

附录A：证明

A.1、。定理1的证明

A.2、。定理2的证明

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

此功能仅对订阅服务器可用