总结

本文考虑估计参数β它定义了一个估计函数U型(,x个,β)结果变量及其协变量x个当一些观察结果缺失时。我们假设,除了结果和协变量外,每个观察中都有一个替代结果。现有估值器的效率β关键取决于是否正确指定U型给定代理变量和协变量。如果没有正确指定条件期望(这是实际中最可能出现的情况),即使正确指定了倾向函数(缺失),估计的效率也会受到严重影响。我们提出了一个通过经验似然对条件期望的选择具有鲁棒性的估计。我们证明,无论条件分数是否正确指定,所提出的估计器都能获得效率增益。当条件得分被正确指定时,估计量达到由以下公式生成的估计函数类内的半参数方差界U型通过仿真和基于1996年美国总统大选的数据集,对估计器的实际性能进行了评估。

1.简介

缺少数据在实证研究中很常见。在这种情况下进行统计分析具有挑战性。一方面,每个观察结果,无论是否包含缺失变量,都包含一些信息。另一方面,对于缺失变量的观察结果,必须进行细致处理,才能得出有效的推论。在本文中,我们研究了一项研究的结果变量在采样数据的子集中缺失的问题。我们假设,除了结果和协变量外,该研究还收集了每一次观察的替代变量或代理变量的信息。这种性质的数据在许多学科中都很常见。例如,在健康科学研究中,为了评估治疗或程序的成功,通常很难观察临床结果(例如治愈未治愈);因此,替代结果(例如生物标记物)可以用于那些没有真实结果的参与者(例如Wittes等。(1989)、贝格和梁(2000),梁(2001)、贝克等。(2005),伯兹科夫斯基等。(2005)和贝克(2006))而且,在经济学中,代理或替代结果经常用于回答缺失的调查(陈等。,2005).

对缺失结果的数据建模的一个困难是,导致缺失数据的机制通常是未知的,或者最多只能是近似的。例如,当调查中缺少回应时,很难确定没有回应的原因。非响应可能是完全随机的,也可能取决于一些(观察到的)变量,或者可能与(未观察的)结果有关。如果非响应与未观察到的结果有关,那么解决方案的可识别性可能会受到质疑。

可识别性问题的一个解决方案是使用替代结果。我们关注的是数据随机缺失(MAR)的情况,即缺失结果的概率独立于(未观察到的)结果,给定替代项和协变量(Little和Rubin,2002). 在数据MAR下,如果总是观察到代理变量和协变量,则模型是可识别的。结果完全随机缺失的情况(MCAR)是MAR数据的特例,本文讨论的方法也涵盖了这种情况。

Y(Y)是结果变量,X(X)是感兴趣的协变量,S公司成为…的代理人Y(Y)Z轴是一组不直接感兴趣的额外协变量。假设S公司,X(X)Z轴总是被观察到,但Y(Y)在一些观察中缺失。δ是取值为1的指示符变量,如果Y(Y)观察到,否则为0。采样数据由两部分组成;一部分(Y(Y),S公司,X(X),Z轴)完全观察到,

(δ1=1,1,x个1,1,z1),,(δ=1,,x个,,z),

和一个丢失的零件Y(Y),

(δ+1=0,?,x个+1,+1,z+1),,(δ+n个=0,?,x个+n个,+n个,z+n个).

N个=+n个。我们假设Y(Y)是采样数据中的MAR,即。

(δ=1Ş,x个,,z)=w个(,x个,z,θ),

其中w个已知参数θ为了便于讨论,在接下来的几节中,我们假设Z轴为空,我们放弃Z轴从公式w个。我们讨论的结果也适用于更一般的情况Z轴非空,并且在第节中5,我们将建议的方法应用于以下情况Z轴非空。

假设w个可以通过以下方式进行估算θ^最大化二项式对数似然:

B类(θ)==1N个[δ日志{w个(,x个,θ)}+(1δ)日志{1w个(,x个,θ)}].
1

功能w个是Rosenbaum和Rubin意义上的倾向得分(1983). 基于观测数据的完整对数似然为

完全=B类(θ)+=1日志{(f)(,x个,)}+j个=+1N个日志{(f)(x个,)}.
2

如果参数化模型假设用于(f)(,x个,)和(f)(x个,)然后,通过最大化参数似然进行推断是很简单的。然而,在实践中,参数化模型通常很难指定。

假设(f)(|x个)=(f)(|x个,β)是的条件密度Y(Y)鉴于X(X)没有考虑S公司; 然后

U型(,x个,β)=日志{(f)(Şx个,β)}β

是的条件分数Y(Y)鉴于X(X)。这里是参数β最感兴趣的是。一种利用信息的方法S公司是考虑的条件密度S公司鉴于X(X)

(f)(Şx个)=(f)(Şx个,β)(Ş,x个)d日.

然而,一般来说,很难具体规定法律[S公司|Y(Y),X(X)]尤其是当S公司是多元的(克莱顿等。,1998). 什么时候?Y(Y)是MCAR,佩佩(1992)提出了一种替代未知条件密度的似然估计方法(|,x个)在方程式中()通过基于完全观测数据的核密度估计。申克和泰勒(1996)建议使用插补(鲁宾,1987)缺少结果。陈和陈(2000)提出了一种基于回归估计的方法。等。(2003)使用了两个样本的经验似然(EL),一个基于完整观测值的估计方程,另一个基于缺失结果的观测值。然而,陈和陈的方法(2000)和陈等。(2003)由于在数据MAR的假设下,由于缺失中的选择偏差导致了似然结构的改变,因此不能应用于实际重要的数据MAR情况(1985).

而不是指定(|,x个)、罗宾斯等。(1995)罗宾斯和罗尼茨基(1995)建议在以下情况下使用估算方程Y(Y)可以是MAR。在这里考虑的框架中,它们的估计器(表示为β^RRZ公司下文)解决

=1N个{δw个(,x个,θ^)U型(,x个,β)δw个(,x个,θ^)w个(,x个,θ^)ψ(,x个,β)}=0,
4

用于特定功能ψ和一个均值0估计函数U型.如果U型是的分数函数(f)(|x个),然后ψ*E类{U型(,x个,β)|,x个}对应于的条件得分函数Y(Y)鉴于S公司X(X).对于给定的无偏估计函数U型(,x个,β),它们的估计量可以在由U型(,x个,β)(纽伊,1990)用于估算β如果ψ(,x个,β)=ψ*(,x个,β). 此外,β^RRZ公司是一致的,如果w个ψ已正确指定。此属性是所谓的“双重鲁棒性”属性。然而,β^RRZ公司在以下情况下可能会损失效率ψψ*,如第节定理2所示.

估计量(4)是Robins开发的一大类半参数有效估计量的特例等。(1994). 然而,作为陈和陈(2000)罗宾斯提出的半参数有效估计等。(1994)由于最优估计函数只能通过求解泛函积分方程获得,因此通常在实际中不可行。闭式最优估计方程(4)存在于此处考虑的情况中,即。U型(,x个,β)是条件分数S公司是一个替代结果。最近,陈和布雷斯洛(2004)Yu和Nan(2006)还讨论了两种情况,这两种情况与此处所考虑的情况类似,其中可以找到闭合形式的最优估计方程。

尽管ψ*很少精确地知道,估计ψ*E类[U型(,x个,β)|,x个]如下所示。β˜是一致的估计β;U型(Y(Y),X(X),β˜)可以回归S公司X(X)给出模型

U型(,x个,β^)=ψ(,x个,γ)+ε
5

参数未知γ,使用完整的数据。因此,ψ是工作估算ψ*一般来说,ψ可能不是一个完美的猜测;因此E类[ψ]可以是非零的。然而,从方程中获得的估计量(4)是有效的,尽管效率不高,因为在真实参数下,估计方程本身总是具有零均值。

在本文中,我们通过利用包含在S公司X(X).何时ψw个如果指定正确,则我们的方法在由定义的估计函数类中是有效的U型(Y(Y),X(X),β). 即使在ψ指定不正确,只要w个指定正确后,仍能达到良好的效率。论文的其余部分组织如下。在节中2,我们使用EL组合无偏估计方程。大样本结果见第节.在第节中4,我们报告了一项模拟研究的结果,该研究将提出的方法与现有方法进行了比较。在节中5,将该方法应用于实际数据集。结论见第节6。证明见附录A。

2.提出的方法

假设U型(,x个,β)是一个估计函数,用于捕获Y(Y)X(X)通过参数β、和ψ(,x个,β,γ)是的函数S公司X(X)。如果没有进一步明确的符号,我们假设X(X),βγ可以是向量值。

β˜是的一致估计量β例如,β˜可能是霍维茨和汤普森(1952)逆加权估计量β^W公司解决了

=1N个δU型(,x个,β)w个(,x个,θ^)=0
6

哪里θ^是前面给出的二项式似然估计量。

以失踪状态为条件δ,基于数据的完全可能性可以写为

=1N个W公司δ(1W公司)1δ=1(,,x个Şδ=1)j个=+1N个(j个,x个j个Şδj个=0)
7

哪里W公司=(δ=1). 第页=(,,x个|δ=1)=w个(,x个,θ)d日如果(,x个,)/W公司对于=1,2,…,q个j个=(j个,x个j个|δj个=0)={1−w个(j个,x个j个,θ)}d日如果(x个j个,j个)/(1−W公司)的j个=+1,…,N个如第节所示1,的平均值ψ(,x个,β,γ)可能不是0。因此,似然(7)不能直接用于推断。然而,

E类[ψ(,x个,β,γ)μw个(,x个,θ)Şδ=1]=0,E类[ψ(,x个,β,γ)μ1w个(,x个,θ)Şδ=0]=0,

哪里μ=E类[ψ(,x个,β,γ)]. 因此,通过适当的初步估计γ˜稍后讨论,大约

=1ψ(,x个,β˜,γ˜)μw个(,x个,θ^)=0,j个=+1N个ψ(j个,x个j个,β˜,γ˜)μ1w个(j个,x个j个,θ^)=0,
8

可以用于进行推理,如下所示。A log-EL(欧文,1990)的μ

(μ)==1日志(第页)+j个=+1N个日志(q个j个),

从属于=1第页=1,第页0,j个=+1N个q个j个=1,q个j个0

=1第页ψ(,x个,β˜,γ˜)μw个(,x个,θ^)=0,j个=+1N个q个j个ψ(j个,x个j个,β˜,γ˜)μ1w个(j个,x个j个,θ^)=0
9

为了简化符号,我们写U型(β)=U型(,x个,β),η=(β,γ),η˜=(β˜,γ˜),ψ(η)=ψ(,x个,η)和w个(θ)=w个(,x个,θ). 通过引入拉格朗日乘数λν并遵循一般估算方程的标准EL推导(Qin和Lawless,1994),的最佳值第页q个j个使上述log-EL满足最大化

第页=111+λT型{ψ(η˜)μ}/w个(θ^),=1,,,
10
q个j个=1n个11+νT型{ψj个(η˜)μ}/{1w个j个(θ^)},j个=+1,,N个,
11

带有约束

=1{ψ(η˜)μ}/w个(θ^)1+λT型{ψ(η˜)μ}/w个(θ^)=0,
12
j个=+1N个{ψj个(η˜)μ}/{1w个j个(θ^)}1+νT型{ψj个(η˜)μ}/{1w个j个(θ^)}=0
13

替换方程式(10)和(11)回到日志-EL给出

(μ)=日志(=1[1+λT型{ψ(η˜)μ}w个(θ^)])日志(j个=+1n个[1+νT型{ψj个(η˜)μ}1w个j个(θ^)]).

差异化(μ)关于μ等于0会导致

=1λ/w个(θ^)1+λT型{ψ(η˜)μ}/w个(θ^)j个=+1N个ν/{1w个j个(θ^)}1+νT型{ψj个(η˜)μ}/{1w个j个(θ^)}=0
14

(μ^,λ^,ν^)是方程的解(12)–(14). 将其代入方程式(10)和(11)中,得出EL权重第页^这些权重可用于重新加权原始估算方程(6)这样的话β^解决

1=111+λ^T型{ψ(η˜)μ^}/w个(θ^)U型(β)w个(θ^)=0
15

我们会证明的β^β^W公司在问题(6)中。

以下是对我们方法的启发性理解。使用拉格朗日乘数

λ^={=1(ψ(η˜)μ^w个(θ^))T型(ψ(η˜)μ^w个(θ^))}1=1ψ(η˜)μ^w个(θ^)+o(o)第页(N个1/2),

EL估计方程(15)成为

1=1U型(β)w个(θ^)1=1U型(β)w个(θ^)(ψ(η˜)μ^w个(θ^))T型λ^+o(o)第页(N个1/2).

因此,所提出的估计量与回归逆加权估计方程的估计方程的解渐近等价1=1U型(β)/w个(θ^)1=1{ψ(η˜)μ}/w个(θ^)因此,EL估计方程的方差小于逆加权估计方程的误差1=1U型(β)/w个(θ^)。此结果与以下情况类似:Y(Y)X(X)是两个随机变量;然后是var(Y(Y)AX公司)=变量(Y(Y))−A类无功功率,无功功率(X(X))A类T型 变量(Y(Y)),其中A类=冠状病毒(Y(Y),X(X))无功功率,无功功率(X(X))−1相比之下,罗宾斯的估算功能等。(1995)是反向加权估计方程与1=1{ψ(η˜)μ}/w个(θ^)在调查抽样中已知(科克伦,1977; 卡塞尔等。,1976)这种差异估计不如回归估计有效。

使用EL公式β通过使用提取ψ(,x个,β˜,γ˜),其中β˜γ˜可以解释为基于{(,,x个)}=1{(j个,x个j个)}j个=1N个{(j个,x个j个)}j个=1N个.在进行推理时,我们必须确定ψ,β˜γ˜.让ψ是对…的估计ψ*通过使用方程式(5)和γ˜是基于该模型的估计。我们将证明,只要γ˜均方收敛到γ0在参数空间内γ,即存在正常数c(c)0这样的话E类[γ˜γ0]2c(c)0n个1.

找到后β^,我们可以替换最初的估计β˜通过β^并重复估算过程。然而,我们的分析表明,初始估计的选择β˜γ˜对渐近效率没有影响。

我们建议的估计器β^只要w个已正确指定。为此,我们注意到=1第页^{(,,x个)t吨}是一致的估计如果(,,x个|D类=1)和

E类[U型(,x个,β)w个(,x个,θ)ŞD类=1]=0

β^解决问题(15),该问题可视为上述总体方程的样本版本,θ^是渐近无偏的,其方差收敛到0作为最小值(,n个)→∞. 因此,β^是一致的β.

3.主要成果

β0,γ0θ0是的真实参数值β,γθ分别是。定义η0=(β0,γ0)然后写U型0=d日U型(β0),ψ0=d日ψ(η0),μ0=E类[ψ0]和w个0=d日w个(θ0)其中=d日表示分布中的等价性。此外,让

A类=E类[U型0(ψ0μ0)T型w个0]E类1[(ψ0μ0)(ψ0μ0)T型w个0(1w个0)],R(右)=E类1[U型0β](第页,A类,A类),
ζ=(U型0T型w个0,(ψ0μ0)T型w个0,(ψ0μ0)T型1w个0),Λθ=E类[1w个0(1w个0)w个0θw个0T型θ];

最后一个量定义了最大似然估计量的渐近方差θ^基于二项式似然(1)。

定理1。在中给出的条件1-4下附录A,

N个1/2(β^β0)d日N个(0,β(0)β(1)β(2)),
16

哪里

β(0)=E类1[U型0β]E类[U型0U型0T型w个0]E类1[U型0T型β],
17
β(1)=R(右)E类[ζw个0T型θ]Λθ1E类[w个0θζT型]R(右)T型,
18
β(2)=E类1[U型0β]E类[U型0(ψ0μ0)T型w个0]E类1[(ψ0μ0)(ψ0μ0)T型w个0(1w个0)]E类[(ψ0μ0)U型0T型w个0]E类1[U型0T型β].

我们注意到

  • (a)

    β(0)是的协方差矩阵β^W公司真倾向得分的逆加权估计w个0

  • (b)

    二者都β(1)β(2)是非负定的。

因此,协方差矩阵β(0)可以减少两次:一次β(1)一次又一次β(2)因此,提出的EL估计器比β^W公司,当使用真实倾向得分根据完整的观察结果对估计方程进行加权时,除非β(1)β(2)同时是零矩阵。

提供的方差减少β(2)是基于缺少的观测值在表达式(9)中具有第二个约束的结果Y(Y)-值。如果从表达式(9)中删除此约束,β(2)将为0。因此,值得通过倾向得分进行加权,并基于缺失结果部分样本的协变量和替代变量建立额外的估计方程。提供的方差减少β(1)部分是由于使用θ^而不是真正的参数θ0从以下方面可以看出Λθ1这反映了对真实倾向得分的估计具有已知的统计优势(例如,参见Wooldridge(2004)).

我们注意到β(2)本质上是一个加权的“相关性”U型ψ。此相关性的值越高,方差减少越大。此观察结果表明,我们发现了一个函数ψ这与U型.最佳选择ψ是(1−w个)E类[U型(,x个,β)|,x个]=(1−w个)ψ*。这种选择可以通过以下几点来证明

E类[U型0(ψ*μ0)T型w个0]E类1[(ψ*μ0)(ψ*μ0)T型w个0(1w个0)]E类[(ψ*μ0)U型0T型w个0]=E类[1w个0w个0U型0E类[U型0T型Ş,x个]].

因此

β(0)β(2)=E类1[U型0β](E类[U型0U型0T型w个0]E类[1w个0w个0U型0E类[U型0T型Ş,x个]])E类1[U型0T型β],
19

当给定的倾向得分已知时,它是方差的下限U型(见罗宾斯等。(1995)和陈等。(2005)). 由于与以往工作不同的设置,我们的最佳选择是ψ有一个额外的系数1−w个0.

现在我们给出了估计器的性质β^RRZ公司这是罗宾斯提出的等。(1995).

定理2。在中给出的条件1-4下附录A,

N个1/2(β^RRZ公司β0)d日N个(0,β(0)˜β(1)˜β(2)),
20

哪里β(0)在定理1中定义,

˜β(1)=E类1[U型0β]E类[U型0ψ0w个0w个0T型θ]Λθ1E类[w个0θ(U型0ψ0)T型w个0]E类1[U型0T型β]

˜β(2)=E类1[U型0β]E类[(1w个0)(U型0ψ0T型w个0+ψ0U型0T型w个0ψ0ψ0T型w个0)]E类1[U型0T型β].

估计员β^RRZ公司达到半参数效率界限,如果ψ=E类[U型(,x个,β)|,x个]和w个已正确指定。在这种情况下,由∑给出的渐近方差(0)−Σ(2)对于建议的估计器β^与相同˜(0)˜(2)属于β^RRZ公司等于方程中给出的半参数效率界(19). 然而,当ψE类[U型(,x个,β)|,x个],这在实践中是一种可能的情况β^RRZ公司即使倾向函数w个已正确指定。原因是,然而˜β(1)总是非负定的(表示效率提高),不能保证˜β(2)是非负定的。的确,对于一些选择ψ,β^RRZ公司可能比加权估计器效率低β^W公司解决问题(6);下一节将给出此类情况的一些示例。虽然我们没有建议β^总是比β^RRZ公司,确实如此β^效率总是高于β^W公司,只要β(2)不是0,但没有这样的保证β^RRZ公司.

4.数值研究

在模拟研究中,我们将提出的估计值与其他三个估计值进行了比较:

  • (a)

    最大似然估计量β^C类假设所有数据都被观测到(这种估计器在实践中是不可行的;然而,如果没有缺失的数据,它会为样本中包含的信息量设定一个基准);

  • (b)

    加权估计量β^W公司通过只使用完整的观测值(这也是初始估计值)求解问题(6)β˜用于获得EL权重);

  • (c)

    估计器β^RRZ公司.

在整个模拟研究过程中,以下模型用于生成缺失:

1w个(,x个,θ)=(δ=0Ş,,x个)=(δ=0Ş,x个)=11+经验(θ1+θ2+θx个),
21

对于θ=(θ1,θ2,θ). 两种型号(Y(Y),S公司,X(X))进行了研究。在模型1中,Y(Y)S公司均为正态分布,分别具有均值和方差

E类[Y(Y)ŞX(X)]=β1+β2X(X)E类[S公司ŞY(Y),X(X)]=1+2Y(Y)+X(X);无功功率,无功功率(Y(Y)ŞX(X))=无功功率,无功功率(S公司ŞY(Y),X(X))=1

哪里X(X)N个(0,1). 对应的估算函数(Y(Y),X(X))是

U型(,x个)=(1x个)(β1β2x个).

估计E类[U型(,x个,β)|,x个]在评估过程中需要获得β^RRZ公司β^。对于此模型,我们使用

ψRRZ公司(,x个,β)=E类[U型(,x个,β)Ş,x个]=(1x个)(γ1+γ2+γx个β1β2x个)

对于β^RRZ公司ψ(,x个)={1−w个(,x个,θ)}ψRRZ公司(,x个,β)的β^.初步估算γ=(γ1,γ2,γ)通过拟合线性回归得到

E类[Y(Y)]=γ1+γ2S公司+γX(X).
22

如本节所述2,方程式(22)不需要是正确的。目标是尽可能多地恢复Y(Y)通过使用S公司X(X).

在模型2中,结果Y(Y)是带有的二进制变量

(Y(Y)=1ŞX(X))=经验(β1+β2X(X))1+经验(β1+β2X(X)),

S公司,条件为X(X)Y(Y),单位方差和均值均正常

E类[S公司ŞY(Y),X(X)]=1+2Y(Y)+X(X),

X(X)N个(0,1). 估算方程为

U型(,x个)=(1x个){经验(β1+β2x个)1+经验(β1+β2x个)},ψRRZ公司(,x个)=(1x个){经验(γ1+γ2+γx个)1+经验(γ1+γ2+γx个)经验(β1+β2x个)1+经验(β1+β2x个)},ψ(,x个)={1w个(,x个,θ)}ψRRZ公司(,x个),

哪里γ=(γ1,γ2,γ)根据具有完整观测值的数据拟合logistic回归进行估计{,,x个}=1.

对于模型1和2,对以下各项的组合进行了2000次模拟β=(1,1)和β=(1,2)和θ=缺失概率函数中的(-1,0,0),(-1,0.2,0.2),(-1,0.35,0.35),(−1,0.5,0.5)N个每次模拟中=1000。选择θ=(-1,0,0)、(-1,0.2,0.2)、(-1,0.35,0.35)和(-1,0.5,0.5)分别导致数据中约75%、60%、47%和45%的缺失结果。

我们在每种方法中考虑了两种方差估计方法:

  • (a)

    第节中的渐近方差公式

  • (b)

    bootstrap方法。

在数据MCAR下(θ=(−1,0,0))或弱MAR(θ=(−1,0.2,0.2)),这两种方法给出了相似的方差估计。然而,根据强烈的MAR数据(θ=(-1,0.35,0.35)和θ=(−1,0.5,0.5)),bootstrap方法给出了更可靠的方差估计。bootstrap方法的更好性能是因为渐近方差公式包含数量=1n个(d日/w个)2ψT型ψ/n个,可能会受到以下值的过度影响w个接近0或1,当θ=(-1,0.35,0.35)或θ=(−1,0.5,0.5).

模拟结果如表所示12为了这个案子β=(1,2). 的结果β=(1,1)遵循相同的模式,因此不进行报告。对于每种方法,第一行是基于2000次重复的平均值和方差。第二行是95%标称置信区间的观测覆盖率和bootstrap方差估计。1表明,当结果为数据MCAR时(θ=(−1,0,0)),β^RRZ公司以及本文提出的估计量,β^,几乎相等。然而,当θ=(-1,0.35,0.35)和θ=(−1,0.5,0.5),则缺失在很大程度上取决于(S公司,X(X))在这种情况下β^跑赢大市β^RRZ公司β^W公司.对于型号2,β^RRZ公司β^β^W公司当结果是数据MCAR时。然而,当结果变量缺失的选择偏差较大时,他们在效率上的收益会降低,即。θ=(-1,0.35,0.35)和θ=(−1,0.5,0.5). 有趣的是,在这些情况下,与无法达到的估计值相比β^C类也就是说,基于完整的样本,缺失的数据并没有导致太多的信息损失。与之相比,所有三种估值器的效率损失β^C类模型2中的严重程度低于模型1中的相应情况。在这三种估计量中,本文提出的估计量是最好的。在某些情况下β^RRZ公司β^小于50%。

表1

基于2000年样本模拟的各种估计值的平均值(括号中的方差)N个=每个1000,引导重采样大小200

方法以下值的结果θ:
θ=(−1,0,0)θ=(−1,0.2,0.2)θ=(−1,0.35,0.35)θ=(−1,0.5,0.5)
β^C1类0.99880 (0.00095)1.00085 (0.00099)1.00104 (0.00100)0.99962 (0.00104)
94.75%(0.00099)94.55% (0.00100)94.50% (0.00100)94.55% (0.00100)
β^指挥与控制1.99870 (0.00097)1.99954 (0.00095)1.99997 (0.00097)2.00120 (0.00106)
94.65% (0.00100)94.85% (0.00100)94.15% (0.00100)93.70% (0.00099)
β^第1周0.99934 (0.00160)1.00114(0.00318)1.01477(0.00642)1.02475 (0.01338)
94.15% (0.00159)92.90% (0.00289)89.75% (0.00522)82.85% (0.00828)
β^第2周1.99736 (0.00372)1.99422 (0.00746)1.97474 (0.01444)1.96273 (0.02547)
94.75% (0.00382)90.45% (0.00626)84.95% (0.01009)78.65% (0.01378)
β^RRZ1号机组0.99936 (0.00158)1.00114 (0.00175)1.00173 (0.00309)0.99905 (0.04684)
94.15% (0.00154)93.95% (0.00168)93.60% (0.00312)94.10% (0.04397)
β^RRZ2型1.99758(0.00154)1.99981 (0.00272)1.99867 (0.00955)2.00236 (0.35024)
94.35% (0.00156)92.20% (0.00263)92.80% (0.01004)93.00% (0.32538)
β^10.99931 (0.00158)1.00217 (0.00180)1.00487 (0.00293)1.00077 (0.00567)
94.35% (0.00155)93.95%(0.00175)94.85%(0.00291)94.65% (0.00474)
β^21.99747 (0.00156)1.99872 (0.00267)1.99235 (0.00536)1.99500 (0.00961)
94.25% (0.00159)93.70% (0.00252)94.65% (0.00494)95.00% (0.00725)
方法以下值的结果θ:
θ=(−1,0,0)θ=(−1,0.2,0.2)θ=(−1,0.35,0.35)θ=(−1,0.5,0.5)
β^C1类0.99880 (0.00095)1.00085 (0.00099)1.00104 (0.00100)0.99962 (0.00104)
94.75% (0.00099)94.55% (0.00100)94.50% (0.00100)94.55% (0.00100)
β^指挥与控制1.99870 (0.00097)1.99954(0.00095)1.99997 (0.00097)2.00120 (0.00106)
94.65% (0.00100)94.85% (0.00100)94.15% (0.00100)93.70% (0.00099)
β^第1周0.99934 (0.00160)1.00114 (0.00318)1.01477 (0.00642)1.02475 (0.01338)
94.15% (0.00159)92.90% (0.00289)89.75%(0.00522)82.85%(0.00828)
β^第2周1.99736 (0.00372)1.99422 (0.00746)1.97474 (0.01444)1.96273 (0.02547)
94.75% (0.00382)90.45% (0.00626)84.95% (0.01009)78.65% (0.01378)
β^RRZ1号机组0.99936 (0.00158)1.00114 (0.00175)1.00173 (0.00309)0.99905 (0.04684)
94.15% (0.00154)93.95% (0.00168)93.60% (0.00312)94.10% (0.04397)
β^RRZ2型1.99758 (0.00154)1.99981 (0.00272)1.99867 (0.00955)2.00236 (0.35024)
94.35% (0.00156)92.20%(0.00263)92.80% (0.01004)93.00% (0.32538)
β^10.99931 (0.00158)1.00217 (0.00180)1.00487 (0.00293)1.00077 (0.00567)
94.35% (0.00155)93.95% (0.00175)94.85% (0.00291)94.65% (0.00474)
β^21.99747 (0.00156)1.99872 (0.00267)1.99235(0.00536)1.99500(0.00961)
94.25% (0.00159)93.70% (0.00252)94.65% (0.00494)95.00% (0.00725)

第二行是95%标称置信区间的观察覆盖率和自举方差估计。缺失概率函数为(δ=1|S公司=,X(X)=x个)=经验(θ1+θ2+θx个)/{1+经验(θ1+θ2+θx个)};Y(Y)N个(β1+β2X(X),1),其中(β1,β2)=(1,2);S公司N个(1+2Y(Y)+X(X),1).

表1

基于2000个样本大小模拟的各种估计值的平均值(和括号中的方差)N个=每个1000,引导重采样大小200

方法以下值的结果θ:
θ=(−1,0,0)θ=(−1,0.2,0.2)θ=(−1,0.35,0.35)θ=(−1,0.5,0.5)
β^C1类0.99880 (0.00095)1.00085 (0.00099)1.00104(0.00100)0.99962 (0.00104)
94.75% (0.00099)94.55% (0.00100)94.50% (0.00100)94.55% (0.00100)
β^指挥与控制1.99870 (0.00097)1.99954 (0.00095)1.99997 (0.00097)2.00120 (0.00106)
94.65% (0.00100)94.85% (0.00100)94.15% (0.00100)93.70%(0.00099)
β^第1周0.99934(0.00160)1.00114 (0.00318)1.01477 (0.00642)1.02475 (0.01338)
94.15% (0.00159)92.90% (0.00289)89.75% (0.00522)82.85% (0.00828)
β^第2周1.99736 (0.00372)1.99422 (0.00746)1.97474 (0.01444)1.96273 (0.02547)
94.75% (0.00382)90.45% (0.00626)84.95% (0.01009)78.65% (0.01378)
β^RRZ1号机组0.99936 (0.00158)1.00114 (0.00175)1.00173 (0.00309)0.99905 (0.04684)
94.15% (0.00154)93.95% (0.00168)93.60% (0.00312)94.10%(0.04397)
β^RRZ2型1.99758 (0.00154)1.99981 (0.00272)1.99867 (0.00955)2.00236 (0.35024)
94.35% (0.00156)92.20% (0.00263)92.80% (0.01004)93.00% (0.32538)
β^10.99931 (0.00158)1.00217 (0.00180)1.00487 (0.00293)1.00077(0.00567)
94.35%(0.00155)93.95% (0.00175)94.85% (0.00291)94.65% (0.00474)
β^21.99747 (0.00156)1.99872 (0.00267)1.99235 (0.00536)1.99500 (0.00961)
94.25% (0.00159)93.70% (0.00252)94.65% (0.00494)95.00% (0.00725)
方法以下值的结果θ:
θ=(−1,0,0)θ=(−1,0.2,0.2)θ=(−1,0.35,0.35)θ=(−1,0.5,0.5)
β^C1类0.99880 (0.00095)1.00085 (0.00099)1.00104 (0.00100)0.99962 (0.00104)
94.75% (0.00099)94.55% (0.00100)94.50% (0.00100)94.55%(0.00100)
β^指挥与控制1.99870 (0.00097)1.99954 (0.00095)1.99997 (0.00097)2.00120 (0.00106)
94.65% (0.00100)94.85% (0.00100)94.15% (0.00100)93.70% (0.00099)
β^第1周0.99934 (0.00160)1.00114 (0.00318)1.01477 (0.00642)1.02475 (0.01338)
94.15%(0.00159)92.90%(0.00289)89.75% (0.00522)82.85% (0.00828)
β^第2周1.99736 (0.00372)1.99422 (0.00746)1.97474 (0.01444)1.96273 (0.02547)
94.75% (0.00382)90.45% (0.00626)84.95% (0.01009)78.65% (0.01378)
β^RRZ1号机组0.99936 (0.00158)1.00114 (0.00175)1.00173 (0.00309)0.99905 (0.04684)
94.15% (0.00154)93.95% (0.00168)93.60% (0.00312)94.10% (0.04397)
β^RRZ2型1.99758 (0.00154)1.99981 (0.00272)1.99867 (0.00955)2.00236(0.35024)
94.35% (0.00156)92.20% (0.00263)92.80% (0.01004)93.00% (0.32538)
β^10.99931 (0.00158)1.00217 (0.00180)1.00487 (0.00293)1.00077 (0.00567)
94.35% (0.00155)93.95% (0.00175)94.85% (0.00291)94.65% (0.00474)
β^21.99747(0.00156)1.99872(0.00267)1.99235 (0.00536)1.99500 (0.00961)
94.25% (0.00159)93.70% (0.00252)94.65% (0.00494)95.00% (0.00725)

第二行是95%标称置信区间的观察覆盖率和自举方差估计。缺失概率函数为(δ=1|S公司=,X(X)=x个)=经验(θ1+θ2+θx个)/{1+经验(θ1+θ2+θx个)};Y(Y)N个(β1+β2X(X),1),其中(β1,β2)=(1,2);S公司N个(1+2Y(Y)+X(X),1).

表2

基于2000年样本模拟的各种估计值的平均值(括号中的方差)N个=每个1000,引导重采样大小200

方法以下值的结果θ:
θ=(−1, 0, 0)θ=(−1, 0.2, 0.2)θ=(−1、0.35、0.35)θ=(−1, 0.5, 0.5)
β^C1类1.00334 (0.00934)1.00075 (0.00898)1.00315 (0.00843)0.99887 (0.00877)
93.60% (0.00893)94.65% (0.00889)94.95% (0.00888)94.40% (0.00882)
β^指挥与控制2.00818 (0.01943)2.01027 (0.00181)2.08768(0.01727)2.00296(0.01758)
93.70% (0.01812)94.0% (0.01816)94.40% (0.01808)94.05% (0.01803)
β^第1周1.01157 (0.02583)1.01425 (0.02112)1.01159 (0.01893)1.00393 (0.01757)
94.90% (0.02852)95.10% (0.02275)94.75% (0.01990)93.90% (0.01757)
β^第2周2.02609 (0.07416)2.03483 (0.06081)2.02950 (0.05938)2.02701 (0.05529)
94.0% (0.07602)93.35% (0.06384)93.50% (0.05907)93.40% (0.05714)
β^RRZ1号机组1.00794 (0.02167)1.00726 (0.01730)1.00667(0.01554)1.00177 (0.01458)
94.40% (0.02308)4.85% (0.01823)94.70% (0.01601)93.10% (0.01446)
β^RRZ2型2.02529 (0.05019)2.02167 (0.04314)2.02264 (0.04278)2.02543 (0.03918)
93.60% (0.05160)93.25% (0.04399)92.40%(0.04063)92.20%(0.03891)
β^11.00795 (0.02184)1.00796 (0.01729)1.00694 (0.01560)1.00297 (0.01470)
94.70% (0.02334)94.60% (0.01838)94.80% (0.01612)93.30% (0.01463)
β^22.02466 (0.05050)2.02238 (0.04350)2.02247 (0.04327)2.02487 (0.04010)
93.10% (0.05243)93.50% (0.04468)92.70% (0.04121)92.40% (0.03977)
方法以下值的结果θ:
θ=(−1, 0, 0)θ=(−1, 0.2, 0.2)θ=(−1, 0.35, 0.35)θ=(−1、0.5、0.5)
β^C1类1.00334 (0.00934)1.00075 (0.00898)1.00315 (0.00843)0.99887 (0.00877)
93.60% (0.00893)94.65% (0.00889)94.95% (0.00888)94.40% (0.00882)
β^指挥与控制2.00818 (0.01943)2.01027 (0.00181)2.08768 (0.01727)2.00296 (0.01758)
93.70%(0.01812)94.0%(0.01816)94.40% (0.01808)94.05% (0.01803)
β^第1周1.01157 (0.02583)1.01425 (0.02112)1.01159 (0.01893)1.00393 (0.01757)
94.90% (0.02852)95.10% (0.02275)94.75% (0.01990)93.90% (0.01757)
β^第2周2.02609 (0.07416)2.03483 (0.06081)2.02950 (0.05938)2.02701 (0.05529)
94.0% (0.07602)93.35% (0.06384)93.50% (0.05907)93.40% (0.05714)
β^RRZ1号机组1.00794 (0.02167)1.00726 (0.01730)1.00667 (0.01554)1.00177 (0.01458)
94.40%(0.02308)4.85% (0.01823)94.70% (0.01601)93.10% (0.01446)
β^RRZ2型2.02529 (0.05019)2.02167 (0.04314)2.02264 (0.04278)2.02543 (0.03918)
93.60% (0.05160)93.25% (0.04399)92.40% (0.04063)92.20% (0.03891)
β^11.00795(0.02184)1.00796(0.01729)1.00694 (0.01560)1.00297 (0.01470)
94.70% (0.02334)94.60% (0.01838)94.80% (0.01612)93.30% (0.01463)
β^22.02466 (0.05050)2.02238 (0.04350)2.02247 (0.04327)2.02487 (0.04010)
93.10% (0.05243)93.50% (0.04468)92.70% (0.04121)92.40% (0.03977)

第二行是95%标称置信区间的观察覆盖率和自举方差估计。缺失概率函数为(δ=1|S公司=,X(X)=x个)=经验(θ1+θ2+θx个)/{1+经验(θ1+θ2+θx个)};(Y(Y)=1|X(X))={exp(β1+β2X(X))}/{1+经验(β1+β2X(X))},其中(β1,β2)=(1,2);S公司N个(1+2Y(Y)+X(X),1).

表2

基于2000个样本大小模拟的各种估计值的平均值(和括号中的方差)N个=每个1000,引导重采样大小200

方法以下值的结果θ:
θ=(−1, 0, 0)θ=(−1, 0.2, 0.2)θ=(−1, 0.35, 0.35)θ=(−1、0.5、0.5)
β^C1类1.00334(0.00934)1.00075 (0.00898)1.00315 (0.00843)0.99887 (0.00877)
93.60% (0.00893)94.65% (0.00889)94.95% (0.00888)94.40% (0.00882)
β^指挥与控制2.00818 (0.01943)2.01027 (0.00181)2.08768 (0.01727)2.00296 (0.01758)
93.70% (0.01812)94.0% (0.01816)94.40% (0.01808)94.05% (0.01803)
β^第1周1.01157 (0.02583)1.01425 (0.02112)1.01159 (0.01893)1.00393 (0.01757)
94.90% (0.02852)95.10% (0.02275)94.75% (0.01990)93.90% (0.01757)
β^第2周2.02609(0.07416)2.03483 (0.06081)2.02950 (0.05938)2.02701 (0.05529)
94.0% (0.07602)93.35% (0.06384)93.50% (0.05907)93.40% (0.05714)
β^RRZ1号机组1.00794 (0.02167)1.00726 (0.01730)1.00667 (0.01554)1.00177 (0.01458)
94.40%(0.02308)4.85%(0.01823)94.70% (0.01601)93.10% (0.01446)
β^RRZ2型2.02529 (0.05019)2.02167 (0.04314)2.02264 (0.04278)2.02543 (0.03918)
93.60% (0.05160)93.25% (0.04399)92.40% (0.04063)92.20% (0.03891)
β^11.00795 (0.02184)1.00796 (0.01729)1.00694 (0.01560)1.00297 (0.01470)
94.70% (0.02334)94.60% (0.01838)94.80% (0.01612)93.30% (0.01463)
β^22.02466 (0.05050)2.02238 (0.04350)2.02247 (0.04327)2.02487 (0.04010)
93.10%(0.05243)93.50% (0.04468)92.70% (0.04121)92.40% (0.03977)
方法以下值的结果θ:
θ=(−1, 0, 0)θ=(−1, 0.2, 0.2)θ=(−1, 0.35, 0.35)θ=(−1, 0.5, 0.5)
β^C1类1.00334 (0.00934)1.00075(0.00898)1.00315(0.00843)0.99887 (0.00877)
93.60% (0.00893)94.65% (0.00889)94.95% (0.00888)94.40% (0.00882)
β^指挥与控制2.00818 (0.01943)2.01027 (0.00181)2.08768 (0.01727)2.00296 (0.01758)
93.70% (0.01812)94.0% (0.01816)94.40% (0.01808)94.05% (0.01803)
β^第1周1.01157 (0.02583)1.01425 (0.02112)1.01159 (0.01893)1.00393 (0.01757)
94.90% (0.02852)95.10% (0.02275)94.75% (0.01990)93.90% (0.01757)
β^第2周2.02609 (0.07416)2.03483 (0.06081)2.02950(0.05938)2.02701 (0.05529)
94.0% (0.07602)93.35% (0.06384)93.50% (0.05907)93.40% (0.05714)
β^RRZ1号机组1.00794 (0.02167)1.00726 (0.01730)1.00667 (0.01554)1.00177 (0.01458)
94.40% (0.02308)4.85% (0.01823)94.70%(0.01601)93.10%(0.01446)
β^RRZ2型2.02529 (0.05019)2.02167 (0.04314)2.02264 (0.04278)2.02543 (0.03918)
93.60% (0.05160)93.25% (0.04399)92.40% (0.04063)92.20% (0.03891)
β^11.00795 (0.02184)1.00796 (0.01729)1.00694 (0.01560)1.00297 (0.01470)
94.70% (0.02334)94.60% (0.01838)94.80% (0.01612)93.30% (0.01463)
β^22.02466 (0.05050)2.02238 (0.04350)2.02247 (0.04327)2.02487 (0.04010)
93.10% (0.05243)93.50% (0.04468)92.70%(0.04121)92.40% (0.03977)

第二行是95%标称置信区间的观察覆盖率和自举方差估计。缺失概率函数为(δ=1|S公司=,X(X)=x个)=经验(θ1+θ2+θx个)/{1+经验(θ1+θ2+θx个)};(Y(Y)=1|X(X))={exp(β1+β2X(X))}/{1+经验(β1+β2X(X))},其中(β1,β2)=(1,2);S公司N个(1+2)Y(Y)+X(X),1)。

为了进一步说明定理1和2的结果,我们比较了适度设置下估计量之间的渐近相对效率。使用了两个模型。第一个模型是一个线性模型,与仿真研究中的模型1类似,但E类[S公司|Y(Y),X(X)]=2Y(Y)如果Y(Y)0和E类[S公司|Y(Y),X(X)]=Y(Y)如果Y(Y)<0和θ≡(θ1,θ2,θ)=(−2,ζ,0.5)在缺失函数中w个,使用ζ允许在0到0.5之间变化。第二个模型是二进制的Y(Y)如模拟研究中的模型2和S公司也是二进制的

(S公司=1ŞX(X))=经验{β1+β2(X(X)+ζ)}1+经验{β1+β2(X(X)+ζ)},

所以ζ是一种干扰S公司不完美的代理人。的价值ζ变化范围为−1.5至0θ=(−3,3,0)英寸w个。因此ζ在这两种模型中,都会出现无法找到简单ψ-与相同的函数ψ0(,x个,β)≡E类[U型(,x个,β)|,x个]在两个模型中,我们假设(β1,β2)=(1,2),我们使用定理1和2中的渐近公式计算

(β^,β^W公司)=无功功率,无功功率(β^W公司)/无功功率,无功功率(β^),(β^,β^RRZ公司)=无功功率,无功功率(β^RRZ公司)/无功功率,无功功率(β^),

用于估算β1β2结果如图所示1(a) ——1(d) ●●●●。他们证明了这一点β^始终与β^W公司β^RRZ公司在所有研究的场景中。这些结果最显著的特点是罗宾斯方法的表现不佳等。(1995)在数据MAR下,当ζ非零(图1(b) 和1(d) )。罗宾斯方法表现不佳等。(1995)结果是因为ψE类[U型(,x个,β)|,x个]在这些情况下。这是在第节末尾提出的观点不能保证他们的估计总是优于逆加权估计。在这两种模型中,使用β^RRZ公司不太明显β1β2这是因为模型的建立改变了X(X)通过S公司根据数据MAR,这些变化会影响β2更多是因为它是与X(X).

图1

三个估计量之间的渐近相对效率(ARE)(缺失概率函数为(δ=1|S公司=,X(X)=x个)=经验(θ1+θ2+θx个)/{1+经验(θ1+θ2+θx个)};图解的,ARE公司(β^,β^W公司; - - - - - - - -, ARE公司(β^,β^RRZ公司); 对于(a)和(b),Y(Y)N个(β1+β2X(X), 1),S公司N个(2Y(Y),1)如果Y(Y)0和S公司N个(Y(Y),1)如果Y(Y)<0和θ≡(θ1,θ2,θ)=(−2,ζ, 0.5); 对于(c)和(d),(Y(Y)=1|X(X))=经验(β1+β2X(X))/{1+经验(β1+β2X(X))},(S公司=1|X(X))=经验{β1+β2(X(X)+ζ)}/[1+经验{β1+β2(X(X)+ζ)}]和θ=(−3,3,0):(a)线性模型,β1; (b) 线性模型,β2; (c) 二进制模型,β1; (d) 二进制模型,β2

5.选举数据的应用

我们将提出的方法应用于国家选举研究的一组数据(沃伦等。,1999; 李和康,2002; 李,2005). 美国总统选举遵循选举团制度,而不是通常的普选制度。然而,有两次(包括2000年布什和戈尔之间的那次),一位候选人尽管赢得了普选,却在选举中失利。我们认为选举遵循的是普选制度。正如Lee所说(2005),这种方法之所以合理,有两个原因:

  • (a)

    由于使用这两种系统的选举结果非常接近,因此使用这两个系统的统计结论应该是相似的;

  • (b)

    州一级的样本规模不够大,如果采用选举团制度,这是必需的。

这些数据来自选举前后进行的两项调查。有三位候选人:克林顿、多尔和佩罗。我们重点关注两位主要候选人:克林顿和多尔。该数据集的一个显著特点是,有很大比例的观察结果(33%)没有得到结果,如那些没有投票的人所代表的。

我们使用了三个问题的答案来构建替代结果S公司在选举后调查中,每个非选民都被问到一个问题:“作为总统,你更喜欢谁?”。如果答案是克林顿或多尔,那么它被用作替代结果。如果没有给出答案,那么我们比较了选举前和选举后调查中非选民对克林顿和多尔的平均评分(0-100分),并将平均评分较高的候选人作为替代结果。如果平均收视率持平,那么我们看看非选民的政党特征。通过执行这个程序,我们到达了N个=1486名受访者,他们要么有替代对象,要么有真实结果,并且有完整的协变量信息。

可用于分析的数据的投票模式(N个=1486)如下:无投票权,474票或32%;克林顿,586人,占39%;多尔,426或29%。使用上一段描述的方法,在1486名受访者中,929人将克林顿作为替代结果,557人将多尔作为替代结果。评估代理质量的一种方法是将其价值与投票人的真实结果进行比较。比较总结见表这表明真实结果和替代结果之间的关联非常显著(第页<0.001,通过使用χ2-测试)。

表3

投票给克林顿或鲍勃·多尔的人的替代结果(预测投票选择)和真实结果(实际投票选择)的交叉表

代孕结果真正的结果总计
克林顿多尔
克林顿57417591
多尔23404427
总计5974211018
替代结果真正的结果总计
克林顿多尔
克林顿57417591
多尔23404427
总计5974211018
表3

投票给克林顿或鲍勃·多尔的人的代理结果(预测投票选择)和真实结果(实际投票选择)的交叉滥用

替代结果真正的结果总计
克林顿多尔
克林顿57417591
多尔23404427
总计5974211018
替代结果真正的结果总计
克林顿多尔
克林顿57417591
多尔23404427
总计5974211018

阿尔瓦雷斯和纳格勒(1998)讨论了几个可能感兴趣的与全国选举研究有关的问题。我们关注的问题是选民对经济的看法如何影响选举结果。在选举前的调查中,每个被调查者都被问及,在选举前一年,美国经济是好转了,还是保持不变,还是恶化了。表中总结了受访者的答案以及真实结果和替代结果的价值4因此,选民的看法代表X(X)-模型中的变量。

表4

所有受访者的替代结果(预测投票选择)、真实结果(实际投票选择)和协变量(经济感知)的交叉滥用,N个=1486(不包括那些未表明对经济看法的人)

真正的结果替代结果以下经济认知的结果:
更好相同更糟
无投票权克林顿11716852
多尔345746
克林顿克林顿33818744
多尔692
多尔克林顿11102
多尔9422287
真正的结果替代结果以下对经济的看法的结果:
更好相同更糟
无投票权克林顿11716852
多尔345746
克林顿克林顿33818744
多尔692
多尔克林顿11102
多尔9422287
表4

所有受访者的替代结果(预测投票选择)、真实结果(实际投票选择)和协变量(经济感知)的交叉滥用,N个=1486(不包括那些未表明对经济看法的人)

真正的结果替代结果以下经济认知的结果:
更好相同更糟
无投票权克林顿11716852
多尔345746
克林顿克林顿33818744
多尔692
多尔克林顿11102
多尔9422287
真正的结果替代结果以下经济认知的结果:
更好相同更糟
无投票权克林顿11716852
多尔345746
克林顿克林顿33818744
多尔692
多尔克林顿11102
多尔9422287

为了模拟失去结果的可能性,我们查阅了以前研究美国总统选举选民投票率的著作(Riker和Ordshick,1968; Filer和Kenney,1980; 桑德斯,2001). 砂光机(2001)使用本文中的数据集对道岔断开概率进行建模(表1在桑德斯(2001))具有以下变量:年龄、收入、种族、性别、教育程度(高中大学其他)、(选民的)政治意识和效力、(选民和候选人之间的)意识形态和性格差异、(选民对候选人的)意识形态与性格确定性、选举前政党是否联系(动员)选民以及选民是否关心选举。这些变量是Z轴这将在第节中讨论1。除此之外Z轴,我们添加了S公司X(X)并建模w个通过使用logistic回归

1w个(,x个,z,θ)=11+经验(θ1+θ2+θx个+θ4T型z).
23

此示例突出显示了所扮演的不同角色Z轴S公司.鉴于S公司是那些没有投票的人的投票偏好的替代品,Z轴用于模拟投票行为。这两个变量对于组合选民和非选民的信息以得出有效的推论是必要的。

使用二元逻辑回归来建模真实结果(总统的选择)和单个协变量(感知的经济状况)之间的关系。Y(Y)成为真正的结果Y(Y)=1代表“克林顿是我们的选择”Y(Y)=0表示“多尔是选择”;X(X)是协变量X(X)=−1,0,1,如果受访者认为国家经济“变得更糟”、“保持不变”和“变得更好”。模型可以写成

β^RRZ公司(Y(Y)=1ŞX(X))=经验(β1+β2X(X))1+经验(β1+β2X(X)).

替代结果S公司也是一个二进制变量S公司=1代表克林顿S公司=0代表Dole是选择。我们假设

ψ(,x个)={1w个(,x个,z,θ^)}(1x个){经验(γ1+γ2+γx个)1+经验(γ1+γ2+γx个)经验(β1+β2x个)1+经验(β1+β2x个)},

哪里γ=(γ1,γ2,γ)根据投票的受访者和θ^按等式建模(23).

本文考虑的三种方法用于分析数据。5基于bootstrap方法和定理1和2中的渐近公式,给出了参数估计和相应的方差。所有方法都有强有力的证据(β^2/东南方(β^2)0)那个选民对经济的看法对投票行为有重大影响。使用加权估计,投票给克林顿的几率为

经验(0.2989+0.8004)/{1+经验(0.2989+0.8004)}经验(0.29890.8004)/{1+经验(0.29890.8004)}=1.98

对于那些对经济持赞成态度而对经济持否定态度的人来说。使用其他两种方法得出的结论相似。使用罗宾斯的方法等。(1995)与加权估计器相比,本文提出的方法在效率上有显著提高。bootstrap和相应的渐近公式方差估计值类似,在大多数实际情况下也是如此。

表5

使用三种分析方法的全国选举研究数据

方法参数估计(方差,方差)对于以下参数:
β1β2
加权估计器0.29890.8004
(0.00839, 0.00642)(0.01682, 0.01578)
罗宾斯等。(1995)0.22230.8792
(0.00386, 0.00485)(0.00818, 0.01006)
拟议估价师0.29500.7867
(0.00399,0.00442)(0.00786, 0.00825)
方法参数估计(方差,方差)对于以下参数:
β1β2
加权估计器0.29890.8004
(0.00839, 0.00642)(0.01682, 0.01578)
罗宾斯等。(1995)0.22230.8792
(0.00386, 0.00485)(0.00818, 0.01006)
建议估算量0.29500.7867
(0.00399, 0.00442)(0.00786, 0.00825)

利用定理1和2中的渐近公式进行方差估计。

使用1000个引导样本进行方差估计。

表5

使用三种分析方法的全国选举研究数据

方法参数估计(方差,方差)对于以下参数:
β1β2
加权估计器0.29890.8004
(0.00839, 0.00642)(0.01682, 0.01578)
罗宾斯等。(1995)0.22230.8792
(0.00386, 0.00485)(0.00818, 0.01006)
拟议估价师0.29500.7867
(0.00399, 0.00442)(0.00786, 0.00825)
方法参数估计(方差,方差)对于以下参数:
β1β2
加权估计器0.29890.8004
(0.00839, 0.00642)(0.01682, 0.01578)
罗宾斯等。(1995)0.22230.8792
(0.00386, 0.00485)(0.00818, 0.01006)
拟议估价师0.29500.7867
(0.00399,0.00442)(0.00786、0.00825)

利用定理1和2中的渐近公式进行方差估计。

使用1000个引导样本进行方差估计。

6.结束语

当缺少真实结果时,替代结果已成为提高估计效率的一种常用方法。本文通过Owen(1990)的EL提出了一种提高代理结果问题估计效率的方法。提出了两种不同的观测似然分解。第一次分解使用基于观测值的二项式似然条件(Y(Y),X(X),S公司)在方程式中(1). 参数θ在倾向函数中w个可以通过最大化二项式似然很容易地进行估计。第二次分解以缺失状态为条件。因此,可以通过连接无偏估计方程来构造两个EL。众所周知,最佳估计方程一般不可用,但对于缺失的响应数据,存在更简单的形式;见陈和布雷斯洛(2004)Yu和Nan(2006). 实际上,U型(Y(Y),X(X),β)可以回归S公司X(X)使用工作非线性模型或一般的可加性模型。我们使用估计方程修正了工作模型中可能存在的偏差(8)然后利用EL将它们结合起来。所得估计具有诱人的理论性质和良好的有限样本性能。当关于条件密度的信息很少时,该方法特别有用S公司给定(Y(Y),X(X)),因为在这种情况下,罗宾斯估计量等方法所需的最佳条件估计函数等。(1995)不可用。经过一些修改,所提出的方法可以推广到其他缺少数据的情况,例如在测量误差问题中。

致谢

我们感谢副主编和两位推荐人提出的建设性意见和建议。陈的研究得到了国家科学基金资助SES-0518904和DMS 06-04563。梁的研究得到了新加坡管理大学研究中心的支持。我们感谢韩国大学的Myoung-Jae Lee教授为我们提供了选举数据以及他对数据的宝贵意见。

工具书类

1

阿尔瓦雷斯
,
风险管理。
纳格勒
,
J。
(
1998
)
经济、权利和社会问题:1996年总统选举中的选民选择
.
美国政治科学杂志。
,
42
,
1349
1363
.

2

贝克
,
S.G.公司。
(
2006
)
替代终点:一厢情愿还是现实?
J.纳顿。癌症研究所。
,
98
,
502
503
.

贝克
,
S.G.公司。
,
伊兹墨廉
,
G.公司。
基普尼斯
,
五、。
(
2005
)
解决涉及代理端点的悖论
.
J.R.统计。Soc.A公司
,
168
,
753
762
.

4

贝格
,
C.B.公司。
,
D.H.Y.博士。
(
2000
)
随机试验中替代终点的使用
.
J.R.统计。社会学硕士
,
163
,
15
28
.

5

伯兹科夫斯基
,
T。
,
莫伦伯格
,
G.公司。
比斯
,
M。
(
2005
)
替代端点的评估
纽约:
施普林格
.

6

卡塞尔
,
C.M.公司。
,
萨恩达尔
,
C.E.公司。
弗雷特曼
,
J.小时。
(
1976
)
有限总体广义差分估计和回归估计的一些结果
.
生物特征
,
63
,
615
620
.

7

,
J。
布雷斯洛
,
东北。
(
2004
)
条件平均模型辅助结果问题的半参数有效估计
.
可以。J.统计。
,
32
,
359
372
.

8

,
S.X公司。
,
,
D。
,
J。
(
2003
)
替代终点研究中的信息恢复
.
《美国统计杂志》。助理。
,
98
,
1052
1062
.

9

,
十、。
,
商行
,
小时。
Tamer公司
,
E.公司。
(
2005
)
带有辅助数据的测量误差模型
.
经济版。螺柱。
,
72
,
343
366
.

10

,
Y.-H年。
,
小时。
(
2000
)
双样本设计下回归分析的统一方法
.
J.R.统计。Soc.B公司
,
62
,
449
460
.

11

克莱顿
,
D。
,
Spiegelhalter公司
,
D。
,
邓恩
,
G.公司。
泡菜
,
答:。
(
1998
)
多相采样的纵向二进制数据分析
.
J.R.统计。Soc.B公司
,
60
,
71
87
.

12

科克伦
,
W.G.公司。
(
1977
)
采样技术
,第3版。纽约:
威利
.

13

文件管理器
,
J·E。
肯尼
,
L.W.公司。
(
1980
)
选民投票率和投票的好处
.
出版物。选择
,
35
,
575
585
.

14

霍维茨
,
D.G.公司。
汤普森
,
D.J.博士。
(
1952
)
有限宇宙中无替换采样的推广
.
《美国统计杂志》。助理。
,
47
,
663
685
.

15

,
医学博士。
(
2005
)
样本选择和无响应问题的单调性条件和不等式插补
.
计量经济学。版次。
,
24
,
175
194
.

16

,
医学博士。
,
S.J.公司。
(
2002
)
多项选择和总统选举
.未发表的手稿韩国大学,首尔。

17

,
D.H.-Y.公司。
(
2001
)
存在替代终点的临床研究的统计方法
.
J.R.统计。社会学硕士
,
164
,
485
503
.

18

,
R·J·A。
鲁宾
,
D.B.博士。
(
2002
)
缺失值的统计分析
,第2版。霍博肯:
威利
.

19

纽伊
,
西。
(
1990
)
半参数效率界限
.
J.应用。计量经济学。
,
5
,
99
135
.

20

欧文
,
答:。
(
1990
)
经验似然比置信区
.
安。统计师。
,
18
,
90
120
.

21

佩佩
,
M。
(
1992
)
使用替代结果数据和验证样本进行推断
.
生物特征
,
79
,
355
365
.

22

,
J。
无法无天的
,
J.F.公司。
(
1994
)
经验似然和一般估计方程
.
安。统计师。
,
22
,
300
325
.

23

莱克
,
重量小时。
德舒克
,
邮政编码:。
(
1968
)
投票演算理论
.
美国政治科学。版次。
,
62
,
25
42
.

24

罗宾斯
,
J·M·。
罗特尼茨基
,
答:。
(
1995
)
缺失数据多元回归模型的半参数效率
.
《美国统计杂志》。助理。
,
90
,
122
129
.

25

罗宾斯
,
J·M·。
,
罗特尼茨基
,
答:。
,
L.P.公司。
(
1994
)
当某些回归变量不总是被观测时回归系数的估计
.
《美国统计杂志》。助理。
,
89
,
846
866
.

26

罗宾斯
,
J·M·。
,
罗特尼茨基
,
答:。
,
L.P.公司。
(
1995
)
缺失数据下重复结果的半参数回归模型分析
.
《美国统计杂志》。助理。
,
90
,
106
121
.

27

罗森鲍姆
,
第页。
鲁宾
,
D。
(
1983
)
倾向评分在因果效应观察性研究中的中心作用
.
生物特征
,
70
,
41
55
.

28

鲁宾
,
D.B.博士。
(
1987
)
调查中无应答的多重插补
纽约:
威利
.

29

砂光机
,
医学硕士。
(
2001
)
不确定性和道岔
.
政治分析。
,
90
,
45
57
.

30

申克尔
,
N。
泰勒
,
J·M·G。
(
1996
)
多重插补的部分参数技术
.
J.计算机统计。数据分析。
,
22
,
425
446
.

31

瓦尔迪
,
年。
(
1985
)
选择偏差模型中的经验分布(附评论)
.
安。统计师。
,
13
,
178
205
.

32

沃伦
,
电子显微镜。
,
金德
,
D.R.公司。
罗森斯通
,
S.J.公司。
(
1999
)
1996年全国选举研究
.
报告
.
密歇根大学政治研究中心
安娜堡。

33

威特斯
,
J。
,
拉卡托斯
,
E.公司。
普罗斯特菲尔德
,
J。
(
1989
)
临床试验的替代终点:心血管疾病
.
统计师。医学。
,
8
,
415
425
.

34

伍尔德里奇
,
J。
(
2004
)
一般缺失数据问题的逆概率加权估计
.工作文件CWP05/04.
财政研究所
,伦敦。

35

,
M。
,
B。
(
2006
)
缺失数据下半参数回归模型的再探讨
.
统计师。罪。
,
16
,
1193
1212
.

附录A

建立定理1和定理2所需的条件如下。

条件1。倾向得分w个(θ)是关于的两倍连续可微θ在…附近θ0且从0和1一致有界;此外,/N个ρ∈(0,1)为N个→∞.

条件2。初始估计器γ˜在均方收敛到γ0在参数空间Γ内,对于足够大的N个,E类[(γ˜γ0)(γ˜γ0)T型]A类0对于固定正定矩阵A类0.

条件3。ξ0=(U型0T型,(ψ0μ0)T型)T型。假设E类[ξ0ξ0T型/w个0]E类[ξ0ξ0T型/(1w个0)]是正定的,并且E类[∂U型0/∂β]是第页,这也是β.

条件4。2U型(β)/∂ββT型在附近是连续的β0其中‖ñU型(β)/∂β‖有界2ψ(β,γ)/∂γγT型在附近是连续的(β0,γ0),在这个街区ψ(β,γ)/∂γ‖有界,E类[‖U型(β)‖]2<∞和E类[‖ψ(β,γ)第二十四条2<∞.

q个N个0=N个1=1N个δw个(θ0)w个(θ0){1w个(θ0)}w个(θ0)θ,
Λθ=E类[1w个0(1w个0)w个0θw个0T型θ].

关于最大似然估计量,我们有以下结果θ^倾向得分的参数。

引理1。在条件1下,θ^θ0=Λθ1q个n个0+o(o)第页(N个1/2)

证明。θ^是二项式似然(1)的最大值,

B类(θ)θ==1N个δw个(θ)w个(θ){1w个(θ)}w个(θ)θ=0
24

由泰勒方程展开(24)以真实值θ0,

θ^θ0=B类N个1q个N个0+o(o)第页(N个1)
25

哪里

B类N个=N个1=1N个[δw个(θ0)w个(θ0){1w个(θ0)}][2w个(θ)θ2{12w个(θ0)}w个(θ0){1w个(θ0)}w个(θ0)θw个T型(θ0)θ]              +N个1=1N个11w个(θ0)w个(θ0)θw个T型(θ0)θ.

作为B类N个=Λ+o(o)第页(1) 和q个N个0=O(运行)第页(N个−1/2),引理是由方程建立的(25).

引理2。在条件1-4下,14,λ^=O(运行)第页(N个1/2),ν^=O(运行)第页(N个1/2)μ^μ0=O(运行)第页(N个1/2).

证明。结果变量缺失中的选择偏差意味着

E类[δ{ψ(η0)μ0}w个(θ0)]=0,=1,,n个,E类[(1δj个){ψj个(η0)μ0}1w个j个(θ0)]=0,j个=+1,,N个.

因此两者都是N个1=1{ψ(η0)μ0}/w个(θ0)N个1j个=+1N个{ψj个(η0)μ0}/{1w个j个(θ0)}O(运行)第页(N个−1/2). 请注意η˜=η0+O(运行)第页(N个1/2)如条件2中假设的那样。引理2随后遵循与欧文中类似的推导(1990)秦与无法无天(1994).

A.1、。定理1的证明

θ^=θ0+O(运行)第页(N个1/2)然后进行泰勒方程展开(12)–(15)在(β=β0,μ=μ0,λ=0)并忽略o(o)第页(N个1/2)导致

=1μ^μ0w个(θ0)+=1(ψ(η0)μ0)(ψ(η0)μ0)T型w个2(θ0)λ^==1ψ(η˜)μ0w个(θ^),
26
j个=+1N个μ^μ01w个j个(θ0)+j个=+1N个(ψj个(η0)μ0)(ψj个(η0)μ0)T型{1w个j个(θ0)}2ν^=j个=+1N个ψj个(η˜)μ01w个j个(θ^),
27
=1λ^w个(θ0)+j个=+1N个ν^1w个j个(θ0)=0,
28
=1U型T型(β0)/βw个(θ0)(β^β0)+=1U型(β0)(ψT型(η0)μ0)T型w个2(θ0)λ==1U型(β0)w个(θ^).
29

A类N个=N个1(0A类12A类12T型A类22),

哪里

A类12=N个1(0,=11w个(θ0),j个=+1N个11w个j个(θ0)),

A类22=N个1(=1U型T型(β0)/βw个(θ0)=1U型(β0)(ψT型(η0)μ0)T型w个2(θ0)00=1(ψ(η0)μ0)(ψ(η0)μ0)T型w个2(θ0)000j个=+1N个(ψj个(η0)μ0)(ψj个(η0)μ0)T型{1w个j个(θ0)}2).

此外,让

q个N个=N个1{=1U型T型(β0)w个(θ^),=1(ψ(η0)μ0)T型w个(θ^),j个=+1N个(ψj个(η0)μ0)T型1w个j个(θ^)}T型.
30

四个方程式(26)–(29)可以写为

A类N个((μ^μ0)T型,(β^β0)T型,λ^T型,ν^T型)T型=(0,q个N个T型)T型+o(o)第页(N个1/2).
31

可以看出

A类N个第页=:(01212T型22)作为N个,
32

其中∑12=(0,第页,第页)和

22=(E类[U型0β]E类[U型0(ψ0μ0)T型w个0]00E类[(ψ0μ0)(ψ0μ0)T型w个0]000E类[(ψ0μ0)(ψ0μ0)T型1w个0]).

在这里第页是一个第页×第页单位矩阵。因此,方程(31)和(32)暗示

((μ^μ0)T型,(β^β0)T型,λ^T型,ν^T型)T型=1(0,q个N个T型)T型+o(o)第页(N个1/2).
33

请注意

1=(D类1D类11222122112T型D类122122112T型D类112221),
34

哪里

D类=1222112T型=E类1[(ψ0μ0)(ψ0μ0)T型w个0]+E类1[(ψ0μ0)(ψ0μ0)T型1w个0].

此外,

D类112221=D类1{0,E类1[(ψ0μ0)(ψ0μ0)T型w个0],E类1[(ψ0μ0)(ψ0μ0)T型1w个0]}.

R(右)是∑的第二行−1删除第一列后。然后,

R(右)=E类1[U型0β](第页,E类[U型0(ψ0μ0)T型w个0]E类1[(ψ0μ0)(ψ0μ0)T型w个0(1w个0)]       E类[U型0(ψ0μ0)T型w个0]E类1[(ψ0μ0)(ψ0μ0)T型w个0]D类1E类1[(ψ0μ0)(ψ0μ0)T型1w个0])=E类1[U型0β](第页,A类,A类)
35

哪里

A类=E类[U型0(ψ0μ0)T型w个0]E类1[(ψ0μ0)(ψ0μ0)T型w个0(1w个0)].

这种独特的结构R(右)有助于为渐近协方差矩阵提供简洁的表达式β^.根据方程式(33),

β^β0=R(右)q个N个+o(o)第页(N个1/2).
36

将泰勒展开应用于q个N个,

q个N个=q个N个(1)+q个N个(2)+o(o)第页(N个1/2)
37

哪里

q个N个(1)=N个1(=1U型0w个0,=1ψ0μ0w个0,j个=+1N个ψj个0μ01w个j个0)+(E类[U型0w个0T型/θw个0],E类[(ψ0μ0)w个0T型/θw个0],        E类[(ψ0μ0)w个0T型/θ1w个0])T型Λθ1q个N个0,        q个N个(2)=N个1(0,第页,第页)T型E类[(ψ0μ0)T型η](η˜η0),

哪里q个N个0定义见附录开头。请注意q个N个(1)是独立同分布随机向量的样本平均值。应用标准多元中心极限定理和Slutsky定理,可以证明

N个1/2q个N个(1)d日N个(0,Ω(1))作为N个,
38

哪里

Ω(1)=Ω(11)Ω(12),
39
Ω(11)=(E类[U型0U型0T型w个0]E类[U型0(ψ0μ0)T型w个0]0E类[U型0(ψ0μ0)T型w个0]E类[(ψ0μ0)(ψ0μ0)T型w个0]000E类[(ψ0μ0)(ψ0μ0)T型1w个0]],
Ω(12)=E类[ζw个0T型θ]Λθ1E类[w个0θζT型],
ζ=(U型0T型w个0,(ψ0μ0)T型w个0,(ψ0μ0)T型1w个0).

B类=E类[(ψ0μ0)η]无功功率,无功功率(η˜)E类[(ψ0μ0)T型η].

然后,

N个无功功率,无功功率(q个N个(2))=Ω(2)=:(0000B类B类0B类B类).
40

根据方程式(35),N个无功功率,无功功率(R(右)q个N个(2))=N个R(右)Ω(2)R(右)T型=0因此,R(右)q个N个(2)=o(o)第页(N个1/2)因此,β^β0=R(右)q个N个(1)+o(o)第页(N个1/2).该结果和方程式(38)共同给予

N个1/2(β^β0)d日N个(0,β)作为N个,
41

其中∑=R(右)(11)−Ω(12))R(右)T型.经过一些矩阵代数,可以证明

R(右)Ω(11)R(右)T型=β(0)β(2).

很明显R(右)Ω(12)R(右)T型=β(1)这些结果暗示了定理1的结果。

A.2、。定理2的证明

泰勒展开式在方程中的应用(4)在(β0,γ0,θ0)给予

E类[U型T型β](β^RRZ公司β0)=第页n个1+第页n个2+o(o)第页(N个1/2)
42

哪里

第页n个1=N个1=1N个δU型0(δw个0)ψ0w个0,
第页n个2=E类[U型0ψ0w个0w个0T型θ](θ^θ0).

标准推导表明

无功功率,无功功率(第页n个1)=:N个1Ω˜1=N个1{E类[U型0U型0T型w个0]E类[(1w个0)(U型0ψ0T型w个0+ψ0U型0T型w个0ψ0ψ0T型w个0)]}
43

覆盖(cov)(第页n个1,第页n个2)覆盖(cov)(第页n个2,第页n个1)+无功功率,无功功率(第页n个2)=:N个1Ω˜2=N个1E类[U型0ψ0w个0w个0T型θ]Λθ1E类[w个0θ(U型0ψ0)T型w个0].
44

中心极限定理和方程(43)和(44)共同意味着

N个1/2(第页n个1+第页n个2)d日N个(0,Ω˜1+Ω˜2).
45

定理2很容易由方程式隐含(42)和(45).