总结

本文考虑具有特定地层干扰截获和缺失协变量数据的典型链接广义线性模型。这个家族包括条件logistic回归模型。针对该问题的现有方法,每种方法都使用一个条件参数来消除干扰截距,对缺失的协变量数据或缺失过程进行建模。本文在一个常见的似然框架下对这些方法进行了比较,确定了半参数有效估计量,并提出了一种新的估计量,它减少了对缺失协变量模型的依赖性。一项模拟研究比较了这些方法的效率和对模型错误指定的鲁棒性。

1.简介

我们考虑独立数据(Y(Y),X(X),Z轴)用于记录=1,…,n个,其中利益在于(Y(Y)|X(X),Z轴),其中协变量的部分或全部成分X(X)可能在某些记录中丢失。在这里,Y(Y)是一个单变量响应,并且X(X)Z轴可能是多变量协变量向量。当所有记录都完成时,这些数据通常通过具有典型链接函数的广义线性模型进行分析(McCullagh和Nelder,1989年),

(f)(Y(Y)X(X),Z轴;β,ϕ)=经验{Y(Y)ηb条(η)(ϕ)+c(c)(Y(Y),ϕ)}
1

哪里η是协变量的线性函数(X(X),Z轴),φ是一个比例参数(·),b条(·)和c(c)*(·)是已知函数。示例包括逻辑、泊松和线性回归。当数据分层、聚集或纵向时n个观测属于多个地层中的一个= 1,…,J型,线性预测η通常假定为

η=q个+βz(z)T型Z轴+βx个T型X(X)
2

有时被称为固定效应模型(格林,2000). 地层效应由地层特定的截距来解释q个,这被认为是一个麻烦的参数。因为,对于固定β=(βz(z)T型,βx个T型)T型φ, Σ Y(Y)地层内是一个足够的统计数据q个,调节∑ Y(Y)消除q个根据模型(1)得出的可能性(《哥达姆》(1976)挖掘等。(1994),第9章)。什么时候?Y(Y)是一个二元疾病变量,方程(1)和(2)构成了匹配病例对照研究条件logistic回归方法的基础模型(布雷斯洛与戴(1980),第248页)。每个匹配集都是它自己的层,∑ Y(Y)是匹配集合中的事例数。∑上的调节 Y(Y)不仅消除了q个也反映了病例对照抽样策略。

推理问题(β,φ)在该模型中,当X(X)由于最近处理了一些记录而丢失Satten和Kupper(1993),利普希茨等。(1998),萨顿和卡罗尔(2000),Paik和Sacco(2000)拉图兹等。(2002)虽然所有这些研究人员都为二进制的条件logistic回归模型开发了方法Y(Y),他们的方法同样适用于形式(1)和(2)的其他典型链接广义线性模型。这些方法分为两种通用方法。第一个涉及建模缺失协变量的分布X(X).Paik和Sacco(2000),Satten和Kupper(1993)萨顿和卡罗尔(2000)每个提议的条件似然都依赖于X(X)在对照组中。Satten和Carroll建模(X(X)|Y(Y)= 0,Z轴)非参数化(X(X),Z轴)在有限的支持下,Satten和Kupper采用了类似的方法X(X)相比之下,Paik和Sacco认为(X(X)|Y(Y),Z轴)是单变量,分布属于指数族模型。

当模型用于分配X(X)鉴于Z轴很难指定,可能是因为X(X)Z轴是高维的,那么另一种方法是对导致数据丢失的过程进行建模。利普希茨等。(1998)提出了这样一种方法,仅在观察到的受试者中建模病例控制状态X(X),条件是每个受试者是否都有完整的数据。拉图兹等。(2002)将这种似然方法推广到一类大大提高估计效率的估计量βz(z),但没有太大改进βx个这些方法至多需要对X(X).

使用观测数据的地层水平似然作为统一框架,我们将区分这些方法,并提供一些指导,说明用户应选择哪种方法进行数据分析。在下一节中,我们将介绍经典形式的条件似然估计量,以及当有可能对X(X)。在第3节中,我们比较了以前在以下情况下提出的方法X(X)可能不见了。我们在第3.1节中表明,当可以对X(X),可能性Satten和Kupper(1993)给出了该问题的半参数有效估计。第3.2节介绍了一个与Paik和Sacco(2000)。这些方法使用所有记录上的数据,无论X(X)是否观察到。当数据分析仅限于观察到的记录时X(X)根据数据的选择或限制,我们在第3.3节中表明利普希茨等。(1998)给出了该问题的半参数有效估计。方法利普希茨等。(1998)需要了解X(X)每个记录都会丢失。第4节包含了一项仿真研究,将第3节中的估计值与其他估计值进行了比较,以验证模型的有效性和鲁棒性X(X)和缺失模型。在第5节中,我们以建议的形式向这些方法的用户提出结论。

在发展我们的结果时,我们在更一般的标准链接广义线性模型族(1)和(2)中重铸了条件logistic回归模型。因此,我们的结果适用于响应数据不是二进制的高度分层问题。自始至终,根据上述研究人员,我们假设X(X)随机丢失(MAR)(利特尔和鲁宾,1987年)尽管我们在模拟工作中检验了对该假设的稳健性。

2.条件似然估计的半参数效率

考虑来自给定地层的数据对于没有缺失数据的设置,即假设我们只有协变量Z轴在模型(2)中。表示地层上的数据,写入Z轴=(Z轴1,…,Z轴,…,Z轴n个)T型对于矩阵n个协变量行向量Z轴; 类似地定义响应向量Y(Y)自始至终,我们认为推理是有条件的Z轴根据方程(1)和(2),并设(f)(·)表示Y(Y)Y(Y),地层的可能性(f)(Y(Y)|Z轴) =L(左)*(β,φ,q个) =L(左)*,其中

日志{L(左)(β,ϕ,q个)}={q个Y(Y)+βz(z)T型Z轴Y(Y)b条(η)}/(ϕ)+c(c)(Y(Y),ϕ)

以及在哪里结束在内部现在请注意,对于固定βz(z)φ, Σ Y(Y)是滋扰参数的充分统计q个因此ξ*= (βz(z),φ),L(左)*c(c)(ξ*) =(f)(Y(Y) Y(Y),Z轴),没有q个.

现在,考虑跨层数据= 1,…,J型,让ξ^表示估计值ξ*通过最大化条件似然获得ΠL(左)c(c)(ξ)林赛(1983)表明了这一点ξ^是的半参数有效估计量ξ*在公害面前q个s、 在以下意义上。假设不是处理q个s作为干扰参数,我们将其建模为来自任意未知混合分布的随机变量Z轴这可能取决于Z轴.分布的混合模型(Y(Y)|Z轴),略微超过q个,现在是半参数的(f)(Y(Y)|Z轴;ξ*,q个)是常规参数化模型,而Z轴是非参数的。定理1,在附录A扩展了Lindsay(1983)的结果,建立了ξ^在这个更一般的背景下。

定理1。(f)(Y(Y)|Z轴;ξ*,q个),ξ^,q个Z轴如上所述进行定义,以便模型(f)(·;ξ*,q个)允许∑ Y(Y)作为一个完整的足够的统计数据q个然后,在中给出的正则条件下附录A,作为J型→ ∞,ξ^达到估计的Cramér–Rao下限ξ*在未知的情况下Z轴.

为了进一步扩展此结果,以包括X(X),定义矩阵X(X)类似于Z轴,并扩展方程(3)以包括该项βx个T型ΣX(X)Y(Y)/(ϕ)现在,定义第页0第页0(X(X)|Z轴;α)为的密度或概率质量函数(X(X)|Y(Y)= 0,Z轴)在地层中,由有限维参数控制α.使用Y(Y)=0是任意的;我们可以定义第页0对于Y(Y)=0对于任何0支持Y(Y)。我们假设第页0不取决于地层截距q个,尽管它可能以其他参数化方式取决于最后,让我们ξ= (β,φ,α)T型。我们现在为ξ由数据产生(X(X),Y(Y)|Z轴).

在不损失通用性的情况下,模型(1)可以用概率重新表示

θ(Y(Y)X(X),Z轴)=(f)(Y(Y)X(X),Z轴)(f)(Y(Y)=0X(X),Z轴)=经验[{q个Y(Y)+βz(z)T型Z轴Y(Y)+βx个T型X(X)Y(Y)}/(ϕ)+c(c)(Y(Y),ϕ)]

哪里c(c)(Y(Y),φ) =c(c)*(Y(Y),φ)−c(c)*(0,φ). 现在,定义几率

θ~(Y(Y)Z轴)=(f)(Y(Y)Z轴)/(f)(Y(Y)=0Z轴)

略微超过X(X)然后,遵循以下方法Satten和Kupper(1993)对于logistic回归模型,我们有以下两个结果。首先,可以证明

θ~(Y(Y)Z轴)=¦Βθ(Y(Y)x个,Z轴)第页0(x个Z轴)d日x个

对于方程(1)和(2)给出的指数族模型,

θ~(Y(Y)Z轴)=经验{(q个Y(Y)+βz(z)T型Z轴Y(Y))/(ϕ)+c(c)(Y(Y),ϕ)}¦Βx个经验{βx个T型x个Y(Y)/(ϕ)}第页0(x个Z轴;α)d日x个
4

第二,让第页(X(X)|Y(Y),Z轴)是的密度或概率质量函数(X(X)|Y(Y),Z轴)可以看出

第页(X(X)Y(Y),Z轴)=第页0(X(X)Z轴)θ(Y(Y)X(X),Z轴)/θ~(Y(Y)Z轴)
5

它是免费的q个并简化为

第页(X(X)Y(Y),Z轴)=第页0(X(X)Z轴;α)经验{βx个T型X(X)Y(Y)/(ϕ)}¦Βx个经验{βx个T型x个Y(Y)/(ϕ)}第页0(x个Z轴;α)d日x个.
6

我们现在可以写出可能性L(左)的(ξ,q个)因联合分配(X(X),Y(Y)|Z轴). 这可以通过分解方便地表示

第页(X(X)Y(Y),Z轴)(f)(Y(Y)Z轴)=L(左)(ξ,q个)=L(左)
7

通过表达式(7)的展开和与方程(3)的类比,很容易看出,对于固定的ξ, Σ Y(Y)对于滋扰来说是一个完全足够的统计q个在里面L(左)再次,条件似然

L(左)c(c)(ξ)=第页(X(X)Y(Y),Z轴)(f)(Y(Y)Y(Y),Z轴)={第页(X(X)Y(Y),Z轴)}θ~(Y(Y)Z轴)Y(Y)θ~(Z轴)
8

没有q个.给,𝒴=𝒴(Y(Y))是向量集=(1,…,n个)T型这样∑ = Σ Y(Y).何时Y(Y)是连续的,总和∑𝒴被一个积分所取代。

现在林赛(1983)定理1再次适用,在类似的正则性条件下J型→ ∞ 条件似然估计ξ^通过最大化获得ΠL(左)c(c)(ξ)是半参数有效的ξ在存在干扰参数的情况下q个此结果的一个推论是(β^,ϕ^)在里面ξ^=(β^,ϕ^,α^)是半参数有效的(β,φ)在见证人在场的情况下q个s和α.

3.条件似然估计X(X)可能丢失了

3.1. 高效估计器

考虑以下设置:X(X)可能缺少并定义R(右)∈{0,1}是否为指示变量X(X)完全遵守第个记录。我们假设,在地层内部,X(X)是MAR,即。R(右)X(X)∣ (Y(Y),Z轴,),还有那个R(右)R(右)',’。类似于Y(Y),定义向量R(右)=(R(右)1,…,R(右)n个)T型.进一步定义X(X)光突发事件为观察到的行X(X).让≺(R(右)=1|Y(Y)=,X(X),Z轴) =π(,Z轴;γ),其中γ是一个有限维滋扰参数,在随机缺失的情况下确保π(·)不依赖于X(X).完全可能L(左)由地层数据产生(X(X)光突发事件,R(右),Y(Y)|Z轴)然后可以写入

L(左)=L(左)(ξ,γ,q个)=第页(X(X)光突发事件R(右),Y(Y),Z轴)公共关系(R(右)Y(Y),Z轴)(f)(Y(Y)Z轴)
9

请注意第页(X(X)光突发事件|R(右),Y(Y),Z轴)如果没有条件R(右),表示的是X(X)包含在X(X)光突发事件。此因子已明确写入

第页(X(X)o个b条R(右),Y(Y),Z轴)=第页(X(X)R(右)=1,Y(Y),Z轴)R(右)=第页(X(X)Y(Y),Z轴)R(右)

第二个等式是由随机缺失假设产生的。

现在,比方说没有失踪X(X)和方程式(3),∑ Y(Y)对于q个在里面L(左). Theq个因此,从L(左)通过调节∑ Y(Y),导致条件似然

L(左)c(c)(ξ,γ)=第页(X(X)o个b条R(右),Y(Y),Z轴;ξ)公共关系(R(右)Y(Y),Z轴;γ)(f)(Y(Y)Y(Y),Z轴;ξ)

参数γξ是完全可分离的L(左)c(c)因此,为了推断ξ忽略γ,

L(左)c(c)(ξ){第页(X(X)Y(Y),Z轴)R(右)}θ~(Y(Y)Z轴)Y(Y)θ~(Z轴)
10

正如方程式(8)所示。

条件似然L(左)c(c)(ξ)由提出Satten和Kupper(1993)萨顿和卡罗尔(2000)对于logistic回归的情况。定理1和第2节的后续发展直接适用于L(左)c(c)(ξ)即使在X(X)可能会丢失,因此ξ通过最大化∏获得 L(左)c(c)(ξ)是半参数有效的(β,φ)在存在干扰参数的情况下q个α。该结果由提出萨顿和卡罗尔(2000)在他们的讨论中。如果X(X)永远不会错过,L(左)c(c)仍然成立,由方程(8)给出。它不会降低到标准的条件似然,事实上它更有效,因为它利用了模型第页0提取有关的信息(β,φ)包含在中的(X(X)|Y(Y),Z轴).

3.2. 次优估计量

在第3.1节中,L(左)c(c)通过考虑(X(X)光突发事件,R(右),Y(Y)|Z轴)产生的可能性取决于滋扰分布第页0第页,共页(X(X)|Y(Y)= 0,Z轴),即使在X(X)永远不会丢失。为了减少对β-推断第页0,我们可以从条件分布开始

(f)(Y(Y)X(X)光突发事件,R(右),Z轴)=(f)(Y(Y)R(右)=1,X(X),Z轴)R(右)(f)(Y(Y)R(右)=0,Z轴)1R(右),
11

又在哪里R(右)扮演条件统计和选择操作符的双重角色。

如方程式(9)所示,∑ Y(Y)足以满足q个在方程式(11)中,对其进行条件处理将消除q个.产生的条件似然

L(左)子点c(c)(ξ,γ)=(f)(Y(Y)Y(Y),X(X)o个b条,R(右),Z轴;ξ,γ)

因此,可以使用L(左)c(c)用于推断β注意到

(f)(Y(Y)R(右)=1,X(X),Z轴)/(f)(Y(Y)=0R(右)=1,X(X),Z轴)=θ(Y(Y)X(X),Z轴)π(Y(Y),Z轴)/π(0,Z轴),(f)(Y(Y)R(右)=0,Z轴)/(f)(Y(Y)=0R(右)=0,Z轴)=θ~(Y(Y)Z轴){1π(Y(Y),Z轴)}/{1π(0,Z轴)},
12

我们可以写

L(左)子点c(c)=π(Y(Y),Z轴)R(右)θ(Y(Y)X(X),Z轴)R(右){1π(Y(Y),Z轴)}1R(右)θ~(Y(Y)Z轴)1R(右)Y(Y)π(,Z轴)R(右)θ(X(X),Z轴)R(右){1π(,Z轴)}1R(右)θ~(Z轴)1R(右).
13

现在,因为(∑ Y(Y),X(X)光突发事件,R(右))对于q个可能性L(左),的最大似然估计量(β,φ)来自L(左)子点c(c)将不是半参数有效的。然而L(左)子点c(c)是吗,什么时候X(X)它减少到标准条件似然,反映出相对于L(左)c(c),L(左)子点c(c)对假设模型的依赖性较小第页0.

可能性L(左)子点c(c)类似于Paik和Sacco(2000)白(2002)不同的是他们的建议,我们表示L(左)第页c(c),省略因子π(,Z轴)R(右)和{1−π(,Z轴)}1−R(右)根据方程式(13)。我们研究L(左)第页c(c)通过下一节中的模拟。

使用条件似然L(左)子点c(c),我们现在为(β,φ)构造如下。L(左)子点c(c)包含干扰参数α在里面θ~γ在里面π(·),因此估算(β,φ)需要估计αγ与估计同时或之前β首先,我们使用可能性≺(R(右)|Y(Y),Z轴;γ)计算最大似然估计量γ^和插头γ^进入之内L(左)子点c(c)然后,尽管我们可能会考虑第页(X(X)光突发事件|R(右),Y(Y),Z轴;ξ)用于估算α,注意通过方程式(6)第页(X(X)光突发事件|R(右),Y(Y),Z轴;ξ)不仅取决于α但也在(βx个,φ). 我们建议通过首先进行最大似然估计来处理这个问题(α,βx个,φ)使用第页(X(X)光突发事件|R(右),Y(Y),Z轴;α,βx个,φ),生成估计值(α~,β~x个,ϕ~).估算α~然后插入到方程(4)中,以计算x个在里面θ~(Y(Y)X(X)). Theθ~(Y(Y)X(X))s、 作为的功能(β,φ),随后插入L(左)子点c(c),然后用于估算(β,φ). 请注意βx个在这个过程中估计了两次,这显然会导致效率损失。然而,通过不合并βx个,当X(X)永远不会丢失,从而减少估算中的偏差βx个由于错误指定第页0.

类似的程序可用于L(左)第页c(c).不需要估计γX(X)总是被观察到。由提出的估计器Paik和Sacco(2000)用于二进制Y(Y)也依赖于可能性L(左)第页c(c)并涉及对(α,βx个),尽管其方式(α~,β~x个)已插入L(左)第页c(c)用于估算β与我们的建议有些不同。

3.3. 使用完整记录数据进行有效估计

假设分析员只能访问观察到的记录中的数据X(X)例如,在使用两阶段抽样策略的研究中可能会出现这种情况(布雷斯洛和凯恩,1988年;耶茨,1981年)其中公开发布的数据仅包含以下记录:X(X)已测量。然后,分析以向量为条件R(右)非缺失数据指标,因此适当的可能性为

(f)(Y(Y)R(右)=1,X(X),Z轴)R(右)=(f)(Y(Y)o个b条R(右),X(X)o个b条,Z轴o个b条)
14

哪里Y(Y)光突发事件Z轴光突发事件是的组件Y(Y)和行Z轴对应于中的X(X)光突发事件.仅使用完整记录数据的替代动机Y(Y)光突发事件即使所有记录上的数据都可用,对分布建模是否太困难或不切实际第页0第页,共页(X(X)|Y(Y)= 0,Z轴),因为X(X)和/或Z轴具有高维度。调节开启X(X)光突发事件而且只有建模Y(Y)光突发事件避免了第页0.

为了推导方程(14),定义Y(Y)有条件的X(X)被观察为

θ(Y(Y)X(X),Z轴)=(f)(Y(Y)R(右)=1,X(X),Z轴)/(f)(Y(Y)=0R(右)=1,X(X),Z轴)

然后

θ(Y(Y)X(X),Z轴)=经验{(q个Y(Y)+βz(z)T型Z轴Y(Y)+βx个T型X(X)Y(Y))/(ϕ)+c(c)(Y(Y),ϕ)+B类(Y(Y),Z轴;γ)}

哪里B类(Y(Y),Z轴;γ)=日志{π(Y(Y),Z轴;γ)/π(0,Z轴;γ)}. 因此θ(Y(Y)|X(X),Z轴)当没有缺失数据时,可以纠正可能缺失的数据X(X)通过添加术语(φ)B类(Y(Y),Z轴,γ)条件开启时的线性预测器X(X)被观察到(布雷斯洛和凯恩,1988年;利普希茨等。, 1998).

从形式上θ*(Y(Y)|X(X),Z轴)通过与方程(3)的类比,可以看出妨害参数q个允许∑ Y(Y)R(右)作为一个完全充分的似然统计(14)。因此,完整数据条件似然为

L(左)完成c(c)=(f)(Y(Y)o个b条Y(Y)R(右),R(右),X(X)o个b条,Z轴o个b条),

并且,根据定理1,最大化得到了β估计量中的条件X(X)光突发事件并且只使用完整的数据记录。

计算θ*(Y(Y)|X(X),Z轴)需要了解概率π(Y(Y),Z轴). 在只包含记录数据的公共使用数据集中X(X),的π(·)s或其中的一些估计值可能会与作为抽样概率的数据一起发布。或者,如果我们使用L(左)完成c(c)避免指定第页0,但所有数据都可用γ,≺(R(右)|Y(Y),Z轴;γ),可用于获得最大似然估计量γ^然后可以插入L(左)完成c(c)对…进行推断β.拉图兹等。(2002)已经表明,使用γ^在里面L(左)完成c(c)生产效率更高β-用真来推断γ.

4.仿真研究

4.1. 设计

比较第3节中给出的估计量在不同假设下的有限样本性能(X(X)|Y(Y),Z轴)和缺失机制π(·),我们进行了一个模拟,其中模型(1)是二进制的logistic模型Y(Y)我们从均匀分布在200个阶层中的人群中取样(=1,…,200),让q个= {(−1)/199}2−1.5,因此一些地层将面临更高的风险Y(Y)=1比大多数。我们考虑模型(1)的两个版本。在两者中,协变量Z轴是标准正态随机变量。在第一个模型中,X(X)伯努利和

罗吉特{公共关系(X(X)=1Z轴)}=日志(0.3/0.7)+0.6Z轴

所以corr(X(X),Z轴) = 0.26. 在第二阶段,X(X)=最小值(X(X),5),其中X(X)Z轴遵循指数分布

日志{E类(X(X)Z轴)}=1/(2×1.72)+Z轴/1.7

这将产生corr(X(X),Z轴) = 0.46. Z轴标准正常,E类(X(X))=1。对于这两种型号,βz(z)=对数(1.5)。对于二进制X(X),βx个=log(2.0),然而,对于删失指数X(X),βx个=对数(1.3)。在这两种情况下,E类(Y(Y))=0.3略高于(X(X),Z轴,). 对于每个重复数据集,从200个人口阶层中的每个阶层抽取4名受试者,得出800个样本。

的使命X(X)根据logit{Pr生成(R(右)= 1|Y(Y),Z轴,X(X);γ)} =γ0+γ1Y(Y)+γ2Z轴+γX(X),允许各种缺失机制。对于MAR数据生成,丢失程度仅取决于(Y(Y),Z轴),我们设置γ=(1.6,−1,−1,0)和γ=(1.25,0,−1,0),分别将这些情况称为MAR-YZ和MAR-Z。根据MAR-Z,L(左)第页c(c)等于L(左)子点c(c)已知的γ,作为包含π(·)取消方程式(12)和(13)。此外,对于L(左)完成c(c)根据MAR-Z,术语B类(Y(Y),Z轴;γ)=0英寸θ*,所以L(左)完成c(c)相当于通过简单地删除缺失的记录而获得的天真的条件可能性X(X)从分析来看。为了研究估计量的稳健性,我们还考虑了两种数据不随机丢失的数据生成机制(NMAR)。对于缺失,仅取决于(X(X),Z轴)(NMAR-XZ),我们设置γ=(1.65,0,-1,-1),对于二进制X(X)γ=(1.6,0,−1,−0.3),对于删失指数X(X)与MAR-Z案件一样,当π(·)取决于(X(X),Z轴)但不在Y(Y),L(左)子点c(c)已知的π(·)减少至L(左)第页c(c),并且仅基于完整记录的天真可能性相当于L(左)完成c(c)已知的π(·). 最后,我们让思念取决于(Y(Y),X(X),Z轴)(NMAR-YXZ),设置γ=(2.0,-1,-1,−1)(二进制)X(X)γ=(1.95,-1,-1,-0.3),针对删失指数X(X)。所有四种缺失数据机制都产生了26%的缺失。

九个估计值β对每个复制进行了计算,其中一些复制涉及对分布的错误指定第页0(X(X)|Z轴;α)和/或模型π(Y(Y),Z轴;γ). 首先,通过最大化得到有效的条件似然估计ΠL(左)c(c)(ξ)共同完成ξ= (β,α). 假设模型第页0

罗吉特{公共关系(X(X)=1Y(Y)=0,Z轴)}=α0+α1Z轴+α2Z轴2

对于二进制X(X)

日志{E类(X(X)Y(Y)=0,Z轴)}=α0+α1Z轴+α2Z轴2

对于删失指数X(X)第二,我们最大化ΠL(左)子点,c(c)(β,α~,γ^)对于β,如第3.2节所述,使用相同的模型第页0和缺失模型

罗吉特{π(Y(Y),Z轴;γ)}=γ0+γ1Y(Y)+γ2Z轴

的(R(右)|Y(Y),Z轴). 第三,我们最大化ΠS公司L(左)第页,c(c)(β,α~),再次插入α~如第3.2节所述。接下来的三个估计值也使用了L(左)c(c),L(左)子点c(c)L(左)第页c(c)但错误地认为X(X)Z轴,设置α1=α2在模型中=0第页0最后,我们仅使用完整记录数据计算了三个估计量。通过删除丢失的所有记录来获得原始估计值X(X)和最大化ΠS公司L(左)完成,sc(c)具有B类(·) = 0. 完全记录估计器类似地使用L(左)完成c(c)(β,γ),其中γ已知或被替换γ^,估计与L(左)子点c(c).对于MAR-Z和NMAR-XZ机制,L(左)完成c(c)已知的π(·)等价于L(左)完成c(c)具有B类(·) = 0. 对于每个数据生成机制和估计器,我们报告了(β^z(z),β^x个)以及相对于有效条件似然估计量的均方误差效率。可能性是在Fortran中编程的,最大化是通过在S-PLUS 6.0版中使用nlminb()实现的(MathSoft,2000年); 如有要求,作者可提供软件。

4.2。结果

在MAR数据生成机制下(表1),当分配第页0都是正确建模的L(左)c(c)L(左)子点c(c)在偏见方面表现良好。使用中有一些效率损失L(左)子点c(c),大概是因为L(左)c(c)以最佳方式使用信息βx个在里面第页(X(X)光突发事件|R(右),Y(Y),Z轴). 相比之下,L(左)第页c(c)在MAR-YZ下表现出偏差,似乎仅限于β^x个用于二进制X(X),证实了Paik和Sacco(2000),表2.根据MAR-Z,L(左)子点c(c)L(左)第页c(c)表现类似,因为这两种可能性对于已知的π(·)和渐近等价,当π(·)是估计的。当分配第页0通过假设错误指定X(X)Z轴,的L(左)c(c)-估计值显示出偏差,在某些情况下,对于每个MAR数据机制来说,偏差非常严重。使用时,偏差更容易控制L(左)子点c(c)估计,可能是因为对假设模型的依赖性降低第页0。对于基于L(左)第页c(c)。结果仅针对实现收敛的重复。

表1

基于1000次重复生成MAR数据的模拟结果†

使命机制方法二进制结果 X(X)截尾指数的结果 X(X)
%偏差%相对效率%偏差%相对效率
βz(z)βx个βz(z)βx个βz(z)βx个βz(z)βx个
3月-YZL(左)c(c),X(X)∐/Z轴1.2−1.71001000.3−3.2100100
L(左)子点c(c)1.1−0.29569−2.1−4.88276
L(左)第页c(c)−2.619.18837−21.1‡29.2‡46†34‡
L(左)c(c),X(X)Z轴20.512.466923367.35025
L(左)子点c(c)9.7−1.5916917.4−9.48369
L(左)第页c(c)10.2−0.2884021.1节−33.9§57§第16条
L(左)完成c(c)−37.90.72360−39.90.82851
L(左)完成c(c),已知π(·)2.50.948600.12.55651
L(左)完成c(c),估计π(·)2.50.951600.12.55951
MAR-Z公司L(左)c(c),X(X)∐/Z轴1.2−1.91001000.5−3.3100100
L(左)子点c(c)0.9−0.49671−2.4−2.48173
L(左)第页c(c)0.9−0.29670−2.6−2.08071
L(左)c(c),X(X)Z轴20.522.665683399.14713
L(左)子点c(c)9.5−1.5927016.9−8.58070
L(左)第页c(c)9.4−1.5926917−8.78068
L(左)完成c(c)1.90.3546003.25655
L(左)完成c(c),估计π(·)1.90.3576003.15955
导弹发射机制方法二进制结果 X(X)截尾指数的结果 X(X)
%偏差%相对效率%偏差%相对效率
βz(z)βx个βz(z)βx个βz(z)βx个βz(z)βx个
3月-YZL(左)c(c),X(X)∐/Z轴1.2−1.71001000.3−3.2100100
L(左)子点c(c)1.1−0.29569−2.1−4.88276
L(左)第页c(c)−2.619.18837−21.1‡29.2‡46‡34‡
L(左)c(c),X(X)Z轴20.512.466923367.35025
L(左)子点c(c)9.7−1.5916917.4−9.48369
L(左)第页c(c)10.2−0.2884021.1§−33.9§57§16§
L(左)完成c(c)−37.90.72360−39.90.82851
L(左)完成c(c),已知π(·)2.50.948600.12.55651
L(左)完成c(c),估计π(·)2.50.951600.12.55951
MAR-Z公司L(左)c(c),X(X)∐/Z轴1.2−1.91001000.5−3.3100100
L(左)子点c(c)0.9−0.49671−2.4−2.48173
L(左)第页c(c)0.9−0.29670−2.6−2.08071
L(左)c(c),X(X)Z轴20.522.665683399.14713
L(左)子点c(c)9.5−1.5927016.9−8.58070
L(左)第页c(c)9.4−1.5926917−8.78068
L(左)完成c(c)1.90.3546003.25655
L(左)完成c(c),估计π(·)1.90.3576003.15955

真实值为βz(z)=0.405和βx个=0.693(二进制)X(X)βx个=0.262,对于删失指数X(X).%相对效率是平均误差相对效率(×100)与L(左)c(c)使用正确的模型X(X),X(X)pt(磅)/Z轴对于MAR-Z,初始估计,L(左)完成c(c)等于L(左)完成c(c)-已知估计量π(·).

997次重复的结果;三个重复没有收敛。

§

986个重复的结果;14个重复没有收敛。

表1

基于1000次重复生成MAR数据的模拟结果†

使命机制方法二进制结果 X(X)截尾指数的结果 X(X)
%偏差%相对效率%偏差%相对效率
βz(z)βx个βz(z)βx个βz(z)βx个βz(z)βx个
3月-YZL(左)c(c),X(X)∐/Z轴1.2−1.71001000.3−3.2100100
L(左)子点c(c)1.1−0.29569−2.1−4.88276
L(左)第页c(c)−2.619.18837−21.1†29.2‡46‡34†
L(左)c(c),X(X)Z轴20.512.466923367.35025
L(左)子点c(c)9.7−1.5916917.4−9.48369
L(左)第页c(c)10.2−0.2884021.1§−33.9§57§16§
L(左)完成c(c)−37.90.72360−39.90.82851
L(左)完成c(c),已知π(·)2.50.948600.12.55651
L(左)完成c(c),估计π(·)2.50.951600.12.55951
MAR-Z公司L(左)c(c),X(X)∐/Z轴1.2−1.91001000.5−3.3100100
L(左)子点c(c)0.9−0.49671−2.4−2.48173
L(左)第页c(c)0.9−0.29670−2.6−2.08071
L(左)c(c),X(X)Z轴20.522.665683399.14713
L(左)子点c(c)9.5−1.5927016.9−8.58070
L(左)第页c(c)9.4−1.5926917−8.78068
L(左)完成c(c)1.90.3546003.25655
L(左)完成c(c),估计π(·)1.90.3576003.15955
使命机制方法二进制的结果 X(X)截尾指数的结果 X(X)
%偏差%相对效率%偏差%相对效率
βz(z)βx个βz(z)βx个βz(z)βx个βz(z)βx个
3月-YZL(左)c(c),X(X)∐/Z轴1.2−1.71001000.3−3.2100100
L(左)子点c(c)1.1−0.29569−2.1−4.88276
L(左)第页c(c)−2.619.18837−21.1‡29.2‡46‡34‡
L(左)c(c),X(X)Z轴20.512.466923367.35025
L(左)子点c(c)9.7−1.5916917.4−9.48369
L(左)第页c(c)10.2−0.2884021.1§−33.9§57§16§
L(左)完成c(c)−37.90.72360−39.90.82851
L(左)完成c(c),已知π(·)2.50.948600.12.55651
L(左)完成c(c),估计π(·)2.50.951600.12.55951
MAR-Z公司L(左)c(c),X(X)∐/Z轴1.2−1.91001000.5−3.3100100
L(左)子点c(c)0.9−0.49671−2.4−2.48173
L(左)第页c(c)0.9−0.29670−2.6−2.08071
L(左)c(c),X(X)Z轴20.522.665683399.14713
L(左)子点c(c)9.5−1.5927016.9−8.58070
L(左)第页c(c)9.4−1.5926917−8.78068
L(左)完成c(c)1.90.3546003.25655
L(左)完成c(c),估计π(·)1.90.3576003.15955

真实值为βz(z)=0.405和βx个=0.693(二进制)X(X)βx个=0.262,对于删失指数X(X).%相对效率是平均误差相对效率(×100)与L(左)c(c)使用正确的模型X(X),X(X)pt(磅)/Z轴对于MAR-Z,初始估计,L(左)完成c(c)等于L(左)完成c(c)-已知估计量π(·).

997次重复的结果;三次重复都没有收敛。

§

986个重复的结果;14个重复没有收敛。

表2

基于1000次重复生成NMAR数据的模拟结果†

使命机制方法二进制结果 X(X)截尾指数的结果 X(X)
%偏差%相对效率%偏差%相对效率
βz(z)βx个βz(z)βx个βz(z)βx个βz(z)βx个
NMAR-XZ公司L(左)c(c),X(X)∐/Z轴8.9−1.61001009.3−4.1100100
L(左)子点c(c)8.7−0.699686.22.48767
L(左)第页c(c)8.51.899634.76.38359
L(左)c(c),X(X)Z轴20.515.270833387.25020
L(左)子点c(c)13.6−0.9896721.2−7.57569
L(左)第页c(c)13.6−0.2896221.7−10.27364
L(左)完成C类1.915956−0.43.86353
L(左)完成C类,估计π(·)8.3160563.73.96553
NMAR-YXZ公司L(左)c(c),X(X)∐/Z轴11.9−28.210010014.7−26.3100100
L(左)子点c(c)12−26.5978311.9−21.88878
L(左)第页c(c)9.8−8.010064−11.6‡31.6‡45‡28‡
L(左)c(c),X(X)Z轴20.5−17.4771403332.45871
L(左)子点c(c)15.8−26.7898424.1−30.67772
L(左)第页c(c)15.9−24.1895528.4§−64.9§第59条23§
L(左)完成c(c)−34.1−25.03076−36.9−20.83561
L(左)完成c(c),估计π(·)13.4−25.053769.8−19.76662
使命机制方法二进制结果 X(X)截尾指数的结果 X(X)
%偏差%相对效率%偏差%相对效率
βz(z)βx个βz(z)βx个βz(z)βx个βz(z)βx个
NMAR-XZ公司L(左)c(c),X(X)∐/Z轴8.9−1.61001009.3−4.1100100
L(左)子点c(c)8.7−0.699686.22.48767
L(左)第页c(c)8.51.899634.76.38359
L(左)c(c),X(X)Z轴20.515.270833387.25020
L(左)子点c(c)13.6−0.9896721.2−7.57569
L(左)第页c(c)13.6−0.2896221.7−10.27364
L(左)完成C类1.915956−0.43.86353
L(左)完成C类,估计π(·)8.3160563.73.96553
NMAR-YXZ型L(左)c(c),X(X)∐/Z轴11.9−28.210010014.7−26.3100100
L(左)子点c(c)12−26.5978311.9−21.88878
L(左)第页c(c)9.8−8.010064−11.6‡31.6‡45†28‡
L(左)c(c),X(X)Z轴20.5−17.4771403332.45871
L(左)子点c(c)15.8−26.7898424.1−30.67772
L(左)第页c(c)15.9−24.1895528.4§−64.9§59§23§
L(左)完成c(c)−34.1−25.03076−36.9−20.83561
L(左)完成c(c),估计π(·)13.4−25.053769.8−19.76662

真实值为βz(z)=0.405和βx个=0.693(二进制)X(X)βx个=0.262,对于删失指数X(X).%相对效率是平均误差相对效率(×100)与L(左)c(c)使用正确的模型X(X),X(X)∐/Z轴对于NMAR-XZ,初始估计量,L(左)完成c(c)等于L(左)完成c(c)-已知估计量π(·).

992个重复的结果;八个重复没有收敛。

§

989个重复的结果;在11个重复中没有收敛。

表2

基于1000次重复生成NMAR数据的模拟结果†

使命机制方法二进制的结果 X(X)截尾指数的结果 X(X)
%偏差%相对效率%偏差%相对效率
βz(z)βx个βz(z)βx个βz(z)βx个βz(z)βx个
NMAR-XZ公司L(左)c(c),X(X)∐/Z轴8.9−1.61001009.3−4.1100100
L(左)子点c(c)8.7−0.699686.22.48767
L(左)第页c(c)8.51.899634.76.38359
L(左)c(c),X(X)Z轴20.515.270833387.25020
L(左)子点c(c)13.6−0.9896721.2−7.57569
L(左)第页c(c)13.6−0.2896221.7−10.27364
L(左)完成C类1.915956−0.43.86353
L(左)完成C类,估计π(·)8.3160563.73.96553
NMAR-YXZ公司L(左)c(c),X(X)∐/Z轴11.9−28.210010014.7−26.3100100
L(左)子点c(c)12−26.5978311.9−21.88878
L(左)第页c(c)9.8−8.010064−11.6‡31.6‡45‡28‡
L(左)c(c),X(X)Z轴20.5−17.4771403332.45871
L(左)子点c(c)15.8−26.7898424.1−30.67772
L(左)第页c(c)15.9−24.1895528.4§−64.9§59§23§
L(左)完成c(c)−34.1−25.03076−36.9−20.83561
L(左)完成c(c),估计π(·)13.4−25.053769.8−19.76662
使命机制方法二进制结果 X(X)截尾指数的结果 X(X)
%偏差%相对效率%偏差%相对效率
βz(z)βx个βz(z)βx个βz(z)βx个βz(z)βx个
NMAR-XZ公司L(左)c(c),X(X)∐/Z轴8.9−1.61001009.3−4.1100100
L(左)子点c(c)8.7−0.699686.22.48767
L(左)第页c(c)8.51.899634.76.38359
L(左)c(c),X(X)Z轴20.515.270833387.25020
L(左)子点c(c)13.6−0.9896721.2−7.57569
L(左)第页c(c)13.6−0.2896221.7−10.27364
L(左)完成C类1.915956−0.43.86353
L(左)完成C类,估计π(·)8.3160563.73.96553
NMAR-YXZ公司L(左)c(c),X(X)∐/Z轴11.9−28.210010014.7−26.3100100
L(左)子点c(c)12−26.5978311.9−21.88878
L(左)第页c(c)9.8−8.010064−11.6‡31.6‡45‡28‡
L(左)c(c),X(X)Z轴20.5−17.4771403332.45871
L(左)子点c(c)15.8−26.7898424.1−30.67772
L(左)第页c(c)15.9−24.1895528.4§−64.9§59§23§
L(左)完成c(c)−34.1−25.03076−36.9−20.83561
L(左)完成c(c),估计π(·)13.4−25.053769.8−19.76662

真正的值是βz(z)=0.405和βx个=0.693(二进制)X(X)βx个=0.262,对于删失指数X(X).%相对效率是平均误差相对效率(×100)与L(左)c(c)使用正确的模型X(X),X(X)∐ /Z轴对于NMAR-XZ,初始估计量,L(左)完成c(c)等于L(左)完成c(c)-已知估计量π(·).

992次重复的结果;八个重复没有收敛。

§

989个重复的结果;11个重复没有收敛。

在NMAR数据机制下(表2),所有估算基于L(左)c(c),L(左)子点c(c)L(左)第页c(c)有偏见。正如预期的那样,估算员使用正确的模型第页0比那些认为X(X)Z轴,以及一般情况L(左)子点c(c)L(左)第页c(c)跑赢大市L(左)c(c)就偏见而言。同样,这很可能是因为L(左)c(c)-估计器严重依赖估计器α^对于第页0,NMAR机制导致对α。在这两种设置中,估计器均基于L(左)子点c(c)显然比基于L(左)第页c(c),两者在估计α有趣的是,在NMAR-XZ下,L(左)子点c(c)L(左)第页c(c)彼此等价,并且这两种可能性都有效。因此,所得估计值之间的唯一差异是π(·)插入L(左)子点c(c)然而,由于对第页0当随机缺失不成立时。同样,算法并不总是收敛于L(左)第页c(c).

对于基于的方法L(左)完成c(c)(表1和表2),在MAR-YZ下,带有B类(·)=0严重偏向于βz(z)但在βx个。在任一MAR机制下,使用L(左)完成c(c)已知或估计的π(·)纠正了这种偏差,但效率远低于L(左)c(c)L(左)子点c(c).根据MAR-YZ,估计π(·)略微提高了β^z(z)相对于时间π(·)已知。正如预期的那样,就MAR-Z和NMAR-XZ的偏差而言,天真方法表现良好。

5.结论

在本文中,我们比较了文献中出现的几种方法的条件似然,这些方法用于具有缺失协变量的条件logistic回归模型的推断。我们的方法使用了更一般的标准指数族公式,因此所提出的方法超越了条件logistic回归,扩展到了其他具有干扰截获的固定效应模型。以下以建议的形式向这些模型的用户介绍了我们的结论。

首先,如果可以对分布进行建模第页0缺失的协变量X(X),可能性L(左)c(c)属于Satten和Kupper(1993)萨顿和卡罗尔(2000)将得到以下项的半参数有效估计(β,φ)在存在干扰参数的情况下αq个。如果可用,分析员对假设模型有信心第页0,这是选择的方法。另一种方法是使用一个新的估计量,使次优条件似然最大化L(左)子点c(c)该方法依赖于缺失模型π(·)以及第页0效率有所下降,尤其是在β^x个然而,它的优点是对错误指定的第页0X(X)永远不会丢失。可能性L(左)第页c(c)由于Paik和Sacco(2000)形式类似于L(左)子点c(c)但由于遗漏了涉及以下内容的条款,可能会出现偏差π(·). 除非无法建模π(·),我们不建议使用L(左)第页c(c),因为它的表现优于L(左)子点c(c).

当只记录观察到的X(X)可用,完整的记录方法利普希茨等。(1998)使用似然L(左)完成c(c)在以观测值为条件的估计量中,半参数有效X(X)光突发事件。此方法要求概率π观察到的(·)X(X)已知。什么时候?X(X)有时会丢失,但(Y(Y),Z轴)在所有记录中都可以使用L(左)完成c(c)与其他方法相比,它的效率要低得多,尽管它不需要对X(X)。我们的模拟表明,通过对概率建模,可以略微提高效率π(Y(Y),Z轴;γ)并使用估计值γ这是特定于所分析的数据的,即使γ已知。理论上的原因如下拉图兹等。(2002)然而,当分析师希望避免对X(X),推荐的方法是拉图兹等。(2002),他使用投影论证,在估算βz(z)与…相比L(左)完成c(c),没有进一步的关键建模假设。最后,通过设置B类(·)=0英寸L(左)完成c(c)当损失取决于(X(X),Z轴),但不在Y(Y)虽然这种情况无法用数据进行测试,但如果研究人员能够通过外部数据或科学考虑来证明其合理性,则该估计器可能会引起人们的兴趣。

我们在第2节中指出第页0可能取决于地层变量。在某些应用程序中,可以使用层级信息,如果担心X(X)不独立于q个那么重要的是要包括在模型中第页0.似然函数L(左)c(c),L(左)子点c(c)L(左)第页c(c)易于扩展以允许第页0依靠以一些参数化的方式,不需要额外的开发。本着类似的精神π(·)可以包含的参数效应关于丢失概率。

我们在第1节中指出X(X)可能是向量值,但我们一直假设X(X)要么完全被观察到,要么完全缺失。这里介绍的一些方法扩展到更一般的情况,其中X(X)部分观察到。如果L(左)c(c)则表达式(10)的右侧因子将保持不变。如前所述,表达式(10)中的左侧因子包含(X(X)|Y(Y),Z轴)对于其中的记录R(右)= 1. 因此,在记录中X(X)仅部分观察到,第页(X(X)|Y(Y),Z轴)R(右)将替换为X(X),条件是(Y(Y),Z轴),但在未观察到的部分边缘X(X)。同样,对于L(左)子点c(c),方程式(13)可以扩展为包含不同版本的θ~对于每个取决于为记录而观察到的缺失模式.只要第页0(x个|Z轴;α)为全矢量估计X(X),然后是任何缺失子向量的分布,给定X(X)Z轴,也可用。对于L(左)子点c(c)、因素π和1−π方程(12)中的概率将被观测到的丢失模式的相应概率所代替。类似的方法也适用于L(左)第页c(c)与这些方法相比,完全记录估计器不容易扩展到能够利用部分观测到的记录X(X).

鸣谢

作者感谢副主编和两位审稿人提出的有益建议,这些建议大大改进了论文。本材料基于国家科学基金会(National Science Foundation)拨款0096412支持的工作。

工具书类

布雷斯洛
,
东北。
凯恩
,
英国。
(
1988
)
两阶段病例对照数据的Logistic回归
.
生物特征
,
75
,
11
20
.

布雷斯洛
,
东北。
,
东北。
(
1980
)
癌症研究中的统计方法
,第1卷,病例分析-对照研究。里昂:
国际癌症研究机构
.

挖掘
,
P.J.公司。
,
,
K.-Y.公司。
Zeger公司
,
S.L.公司。
(
1994
)
纵向数据分析
牛津大学:
牛津大学出版社
.

哥达姆布
,
副总裁。
(
1976
)
条件似然和无条件最优估计方程
.
生物特征
,
63
,
277
284
.

格林
,
W.H.公司。
(
2000
)
经济计量分析
,第4版。上鞍座河:
普伦蒂斯·霍尔
.

林赛
,
B.G.公司。
(
1983
)
混合设置中条件分数的效率
.
Ann.Statist公司。
,
11
,
486
497
.

利普希茨
,
S.R.公司。
,
帕尔逊
,
M。
Ewell公司
,
M。
(
1998
)
使用缺失协变量的条件logistic回归进行推断
.
生物计量学
,
54
,
295
303
.

,
R·J·A。
鲁宾
,
D.B.博士。
(
1987
)
缺失数据的统计分析
纽约:
威利
.

MathSoft软件
(
2000
)
S-Plus 6.0软件
西雅图:
MathSoft软件
.

麦库拉
,
第页。
内尔德
,
J.A。
(
1989
)
广义线性模型
,第2版。伦敦:
查普曼和霍尔
.

派克
,
M.C.公司。
(
2002
)
通信
.
申请。统计师。
,
51
,
507
508
.

派克
,
M.C.公司。
萨科
,
右侧。
(
2000
)
缺失协变量的匹配病例对照数据分析
.
申请。统计师。
,
49
,
145
156
.

拉图兹
,
P.J.公司。
,
周六
,
总会计师。
卡罗尔
,
R·J。
(
2002
)
缺失协变量数据的配对病例对照研究中的半参数推断
.
生物特征
,
89
,
905
916
.

萨顿
,
总会计师。
卡罗尔
,
R·J。
(
2000
)
缺失协变量的条件和非条件分类回归模型
.
生物计量学
,
56
,
384
388
.

萨顿
,
总会计师。
屈佩尔
,
法律。
(
1993
)
利用暴露信息概率推断暴露-疾病关联
.
《美国统计杂志》。助理。
,
88
,
200
208
.

耶茨
,
F、。
(
1981
)
人口普查和调查的抽样方法
,第4版。伦敦:
格里芬
.

附录A:技术细节

A.1、。前期工作

Z轴()表示矩阵Z轴用于地层对于每个J型,假设所有推断都是以序列为条件的{Z轴()}=Z轴(1),…,Z轴(J型). 在使用中L(左)*c(c)(ξ*)用于推断ξ*,最大条件似然估计量ξ^是解决Σ=1J型U型c(c)(ξ)=0,其中U型*c(c)=(∏{log(L(左)*c(c))}/∂ξ*). 遵循标准渐近理论,如J型→ ∞,(ξ^ξ)J型依法收敛到高斯随机变量,其方差等于极限信息的倒数,

J型(1J型=1J型c(c))
15

哪里c(c)=E类(U型c(c)U型c(c)T型).确保定期ξ*-推论U型c(c),假设是这样{Z轴()}极限(15)是正定的。

为了便于演示,我们假设样本大小n个在地层中是恒定的,尽管可以放宽这一假设。假设每个z(z)∈支持(Z轴)分布z(z)第页,共页(q个|Z轴=z(z))在实线上是绝对连续的,并且q个s在给定{Z轴()}.林赛(1983)研究了有效估计的问题ξ*在存在有害混合分布的情况下z(z); 然而,对于指数族模型(1)和(2),他的结果仅限于以下情况Z轴()在中为常数在下文中,我们概述了他的发展,并将他的结果概括为Z轴()在中变化虽然我们假设为了便于演示ξ*是一维的,Lindsay还表明(ξ*)>1很简单。

第2节和第3节林赛(1983)处理存在非参数妨害函数时一维参数估计的一般问题。他定义了“修改后的最小费希尔信息”𝒥 (Lindsay表示该数量**)并显示了𝒥 一致估计的Cramér–Rao方差下限是ξ*所以,什么时候*c(c)========================================================𝒥,c(c)=J型,ξ^是半参数有效的。这些结果直接应用于我们的设置,其中干扰函数将是映射𝒬 定义见下文第A.2节。

第4节林赛(1983)处理了妨害函数为混合分布的情况z(z),但在哪里Z轴() =z(z)固定在,提供条件*c(c)========================================================𝒥. 假设,对于固定ξ*,完全充分统计量∑ Y(Y)具有标准参数的指数族密度q个,如方程式(3)所示。假设真实混合分布z(z),0在实线的区间上是绝对连续的,那么*c(c)========================================================𝒥(林赛(1983),推论4.4)。要了解该结果发展的关键步骤,请定义混合物模型

(f)M(M)(Y(Y)Z轴;ξ,z(z))=¦Βq个(f)(Y(Y)Z轴;ξ,q个)d日z(z)(q个)

参数化者ξ*z(z)现在,定义中心似然比得分的类别

V(V)(c(c)z(z),P(P)z(z))=c(c)z(z){(f)M(M)(Y(Y)Z轴;ξ0,P(P)z(z))(f)M(M)(Y(Y)Z轴;ξ0,z(z),0)1}
16

索引者c(c)z(z)⩾0和P(P)z(z),其中ξ0z(z),0是真正的参数值。在方程式(16)中,P(P)z(z)是任何混合分布q个在真实线路上V(V)(c(c)z(z),P(P)z(z))具有有限方差(ξ0,z(z),0). 得分(16)出现在右手τ-单参数导数(inτ)混合物模型(f)M(M){Y(Y)Z轴;ξ0,(1c(c)Z轴τ)Z轴,0+c(c)Z轴τP(P)Z轴}评估时间:τ=0+对于给定c(c)z(z)P(P)z(z).定义𝒞z(z)成为2-所有可能中心似然比得分集的闭包V(V)(c(c)z(z),P(P)z(z))超过c(c)z(z)P(P)z(z)最后,让我们U型*=(∏{log(L(左)*)}/∂ξ*),其中L(左)*如方程式(3)所示。然后,*c(c)========================================================𝒥根据事实推断U型*c(c)=U型*E类(U型*Y(Y),Z轴)还有那个E类(U型* Y(Y),Z轴) ∈ 𝒞z(z).

A.2、。定理1的证明

将此结果扩展到Z轴()各不相同,定义顺序{Y(Y)()}=Y(Y)(1) ,…,Y(Y)(J型). 定义𝒬 成为支持的映射Z轴到实线上绝对连续分布的空间𝒬(z(z)) =z(z)类似地,让𝒫 是来自supp的任何映射(Z轴)到实线上混合分布的空间,这样,对于每个z(z)𝒫(z(z)) =P(P)z(z),方程(16)具有有限方差。c(c)(z(z)) =c(c)z(z)是来自supp的任何映射(Z轴)到非负实线。现在,对于任何给定的𝒫 c(c)(·),定义单参数产品混合模型

=1J型(f)M(M){Y(Y)()Z轴();ξ,(1c(c)Z轴()τ)Z轴(),0+c(c)Z轴()τP(P)Z轴()}
17

然后τ-得分为τ=0+来自模型(17)是

V(V){c(c)(·),P(P)}==1J型c(c)Z轴()[(f)M(M){Y(Y)()Z轴();ξ0,P(P)Z轴()}(f)M(M){Y(Y)()Z轴();ξ0,Z轴(),0}1]

𝒞 成为2-所有可能得分集的闭包V(V){c(c)(·),𝒫} 结束c(c)(·)和𝒫.

现在,对地层进行总结,条件得分=1J型U型c(c)

=1J型U型c(c)==1J型[U型E类{U型Y(Y)(),Z轴()}]==1J型U型=1J型E类{U型Y(Y)(),Z轴()}

所以,为了证明这一点ξ^是半参数有效的,当Z轴()各不相同,这足以表明

=1J型E类{U型Y(Y)(),Z轴()}

在中𝒞. 但这显然是真的,因为

  • (a)

    𝒞是一组正系数的线性组合𝒞Z轴()第页,

  • (b)

    E类{U型ΣY(Y)(),Z轴()}C类Z轴()为所有人

  • (c)

    =1J型E类{U型ΣY(Y)(),Z轴()}是数量的正系数线性组合E类{U型ΣY(Y)()Z轴()}.

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)