总结

当从与其他调查数据具有不同平均值的分布中提取离群值时,最近提出的离群值稳健小面积估计量可能会有很大偏差。这自然会导致人们考虑对这些估值器进行异常值稳健偏差校正。我们发展了这一思想,提出了两种不同的分析均方误差估计量,用于随后的偏差校正异常值稳健估计量。基于实际离群值数据的仿真结果表明,所提出的偏差校正通常会导致更有效的估计。此外,所提出的均方误差估计方法在各种异常值稳健小面积估计量下表现良好。

1.简介

离群值是任何调查的现实,因此,设计了多种方法来减轻离群值对调查估计的影响。其中一些方法,例如由经验丰富的数据专家在调查处理过程中识别和删除异常数据值,可以有效地确保得出的调查估计不受这些值的影响。然而,由于有点主观,这些方法不适合科学评估。因此,有许多客观的调查估计方法,它们使用统计规则来确定一个观测值是否是潜在的异常值,如果是这样的话,可以降低其对调查估计的贡献,这种类型的异常值鲁棒估计器是基于非样本数据值都遵循假设的工作模型的假设,因此这些估计器旨在基于异常值污染的样本数据,鲁棒地估计该工作模型下研究变量的非样本和(或平均)的期望值。在实践中,这通常涉及到用估计值替换一个离群的样本值,如果它实际上是在工作模型下生成的,那么它应该是什么样的。我们指的是以下方法稳健投影由于他们将样本非离群(即工作模型)行为投射到调查人群的非抽样部分,因此在接下来的内容中。

稳健投影方法本质上模拟了前面描述的主观方法,通常会导致偏差估计值的方差低于其他情况。偏差的原因不难找到——目标人群中的所有非抽样值都不太可能与样本非离群值来自同一分布,然而这些方法正是基于这个假设。钱伯斯(1986)认识到这一困境,并提出了“代表性离群值”的概念,即样本离群值,它可能是从一组人口离群值中提取出来的,因此不能在估计中进行单位加权。他指出,在估计时,不能像处理其他更符合人口工作模型的样本数据那样,在相同的基础上处理具有代表性的离群值,因为这种离群值会严重破坏调查估计,他建议在稳健预测调查估计器中添加一个异常稳健偏差校正项,例如基于模型参数的异常稳健估计的项。威尔士语和朗切蒂语(1998)扩展了这一思想,将其更广泛地应用于在存在代表性离群值的情况下估计调查变量的有限总体分布。《钱伯斯》中描述的方法也隐含着类似的想法. (1993),其中建议进行非参数偏差修正。在下文中,我们将允许代表性样本异常值贡献的方法称为稳健预测因为他们试图预测人口异常值对感兴趣人口数量的贡献。

如果离群值是人口数量估算的一个关注点,那么可以肯定的是,离群值在小面积估算(SAE)中更为重要,因为小面积估算的样本量要小得多,而模型依赖性估算是标准的。很容易看出,一个使基于大调查样本的人口估计不稳定的异常值几乎肯定会破坏该异常值来源的小区域的相应直接估计的有效性,因为该估计将基于一个小得多的样本。当小面积估计器是间接估计器时,这个问题并没有消失,例如经验最佳线性无偏预测器(EBLUP),因为支持这个估计器的权重仍然最重视小面积感兴趣的数据,而支撑估计器的模型参数估计值本身将被样本异常值破坏。因此,我们有兴趣了解野值稳健调查估计如何适应这种情况。

钱伯斯和扎维迪斯(2006)使用基于拟合异常稳健的方法,明确解决了SAE中异常稳健的问题-分位数模型到调查数据。最近,辛哈和饶(2009)还从线性混合模型的角度解决了这个问题。然而,这两种方法都使用插件稳健预测,即用异常稳健版本(稳健预测方法)替换最优但异常敏感预测中的参数估计。不幸的是,尽管这种方法通常导致较低的预测方差,但在异常值来自与其他调查数据具有不同平均值的分布的情况下,它可能会涉及不可接受的预测偏差。

在讨论了剖面中小面积的稳健投影估计之后2,我们在第节中探讨了稳健预测方法对SAE情况的扩展在节中4我们提出了两种不同的分析均方误差(MSE)估计,用于小面积均值的异常稳健预测。特别是,第一个建议是基于Chambers中描述的偏差稳健MSE估计方法. (2011)代表了罗亚尔和坎伯兰思想的延伸(1978)。第二个MSE估计基于对野值稳健估计方程解的方差的一阶近似。我们展示了这两种方法如何可用于估计本文中考虑的各种小面积预测因子的MSE。在节中56我们使用基于实际离群值包含数据场景的基于模型的仿真以及基于设计的仿真来评估这两种不同方法在点估计性能以及MSE估计性能方面的比较。章节7最后,对本文进行了总结,并讨论了针对异常值鲁棒小区域推理的未来研究。

2.小面积稳健投影估计

在下文中,我们假设单位记录数据在小区域级别可用。对于人口中的抽样单位,这包括小区域归属指标、值j个感兴趣的变量,值x个j个第页个体水平协变量和值的×1向量z(z)j个区域级协变量向量的。对于非抽样人口单位,我们不知道j个然而,假设所有区域都被采样,并且我们知道每个小区域中这样的单元的数量以及相应的小区域平均值x个j个z(z)j个。我们还假设j个x个j个采样对于小面积分布的j个鉴于x个j个,允许我们使用样本数据的人口水平模型。

巴蒂斯. (1988)介绍了SAE的线性混合模型的使用,以及小范围关注的随机效应。参见Rao(2003)对基于这些模型的SAE进行全面审查。钱伯斯和克拉克是一篇更为近期、更为紧凑的综述(2012),第15章。,X(X)Z轴表示由定义的人口水平向量和矩阵j个,x个j个z(z)j个分别是。然后

=X(X)β++e、,
(1)

哪里u个=(u个1T型,,u个T型)T型是维度向量mq(平方米)独立变现{u个;=1,,}q个-维随机面积效应u个N个(0,u个)e(电子)N个(0,e(电子))是的向量N个个体特定随机效应。还假设u个独立于e(电子).在这里是构成人口的小区域总数q个是的尺寸z(z)j个以便Z轴是一个N个×mq(平方米)固定已知常数的矩阵。我们假设协方差矩阵u个e(电子)是根据一组较低维度的参数定义的θ=(θ1,,θK(K)),通常称为模型(1)的方差分量,而向量β通常称为其固定效应参数。

β^表示模型(1)中固定效应参数的估计,并让u个^=(u个^1T型,,u个^T型)T型表示模型(1)中随机面积效应预测值的向量。该地区的EBLUP平均值j个那么在模型(1)下

¯^电子束=N个1{n个¯+(N个n个)(x个¯第页T型β^+z(z)¯第页T型u个^)}
(2)

我们使用指数的地方第页分别表示样品数量和非样品数量。因此,¯n个的样本值j个来自区域x个¯第页z(z)¯第页表示的平均值向量x个j个z(z)j个分别用于N个n个同一区域中的非采样单元。

从稳健投影的观点来看,通过替换,可以使预测器(2)对样本异常值不敏感β^u个^通过异常稳健的替代方案。为了激励这种方法,我们首先假设方差分量θ已知,所以协方差矩阵u个e(电子)在模型(1)中是已知的。放置V(V)=e(电子)+Z轴u个Z轴T型哪里e(电子)表示的样本组件e(电子)然后是固定效应参数的最佳线性无偏估计β以及随机效应向量的最佳线性无偏预测(BLUP)u个是解决方案

X(X)T型V(V)1(X(X)β)=0
(3)

u个Z轴T型V(V)1(X(X)β)u个=0.
(4)

求解方程的简单方法(3)(4)因此,对样本异常值的鲁棒性是将其替换为

X(X)T型V(V)1/2ψ{V(V)1/2(X(X)β)}=0
(5)

u个Z轴T型V(V)1/2ψ{V(V)1/2(X(X)β)}u个1/2ψ(u个1/2u个)=0.
(6)

在这里ψ是有界影响函数ψ()表示通过应用ψ到的每个组件观察有界影响函数分别应用于模型残差和方程中的预测面积效应(5)(6),使这些估计方程的解对单个以及区域异常值具有鲁棒性。不幸的是,自V(V)不是对角矩阵,方程的解(6)可能在数值上不稳定。因此Fellner提出了一种替代方法(1986)他指出,任何方程的解(3)(4)也是解决

X(X)T型e(电子)1(X(X)βZ轴u个)=0

Z轴T型e(电子)1(X(X)βZ轴u个)u个1u个=0.

费尔纳(1986)建议将这些替代估计方程(及其解)替换为

X(X)T型e(电子)1/2ψ{e(电子)1/2(X(X)βZ轴u个)}=0
(7)

Z轴T型e(电子)1/2ψ{e(电子)1/2(X(X)βZ轴u个)}u个1/2ψ(u个1/2u个)=0.
(8)

自方程(7)(8)假设方差分量θ已知,除非也可以定义这些参数的异常稳健估计,否则它们的有用性在一定程度上是有限的。理查森和威尔士(1995)对最大似然估计方程提出了两个异常值鲁棒变化θ其中之一(他们的“ML提案二”)导致了方差分量的估算方程θk个属于θ表单的

ψ{(X(X)β)T型V(V)1/2}V(V)1/2(θk个V(V))V(V)1/2ψ{V(V)1/2(X(X)β)}=信托收据{n个ψ(θk个V(V))},
(9)

哪里θk个V(V)表示的一阶偏导数V(V)关于方差分量θk个和,用于Z轴N个(0, 1),n个ψ=E类{ψ2(Z轴)}V(V)1理查德森和威尔士(1995)还提出了鲁棒的限制最大似然型方程θ但不像等式(9)这些都不是限制最大似然估计方程的稳健推广。

辛哈和饶(2009)描述了一种异常值稳健估计方法βu个在以这些结果为基础的模型(1)中,用近似解替换这两个方程(5)和方程式(9)Fellner估计方程(8)获得面积效应的异常稳健预测值u个特别是,他们的方法取代了等式(5)通过

X(X)T型V(V)1U型1/2ψ{U型1/2(X(X)β)}=0,
(10)

哪里U型=诊断(V(V)),并替换方程式(9)通过

Ψ(θ)=ψ{(X(X)β)T型U型1/2}U型1/2V(V)1(θk个V(V))V(V)1U型1/2ψ{U型1/2(X(X)β)}=信托收据{n个ψ(θk个V(V))}.
(11)

因为方程的解(10)(11)取决于影响函数ψ,我们用上标表示ψ如下所示。辛哈和饶(2009)方程的鲁棒投影替代(2)就是那个时候

¯^SR公司=x个¯T型β^ψ+z(z)¯T型u个^ψ.
(12)

注意,预测器(12)估计面积模型(1)下的平均值。一个小的修改将此限制为区域内未取样装置的平均值,在这种情况下,方程式(12)成为

¯^REBLUP公司=N个1{n个¯+(N个n个)(x个¯第页T型β^ψ+z(z)¯第页T型u个^ψ)}.
(13)

从现在起,我们将预测器(13)称为鲁棒EBLUP(REBLUP)。

异常稳健SAE的另一种方法是-钱伯斯和扎维迪斯描述的基于分位数回归的方法(2006)。这是基于-分位数回归X(X),即。

q个(|X(X))=X(X)βq个,
(14)

哪里q个(|X(X))表示-阶分位数q个的条件分布鉴于X(X).估算β^q个属于βq个可以计算任何值q个在区间(0,1)中,对于样本中的每个单位,我们定义其唯一性-此拟合模型下的分位数系数作为值q个j个这样的话j个=x个j个T型β^q个j个,这些系数在面积中的样本平均值记为q个¯. The-平均值的分位数估计MQj个在区域内就是那个时候

¯^MQ公司=N个1{n个¯+(N个n个)x个¯第页T型β^q个¯}.
(15)

请注意,回归-分位数模型(14)取决于影响函数ψMQ也是如此。当此函数有界时,样本异常值对β^q个,即估计器(15)对应于假设区域中的所有非样本单元遵循工作模型(14)q个=q个¯在我们可以写作的意义上j个=x个j个T型βq个¯+个体级噪声适用于所有此类装置。

3.小面积稳健预测估计

稳健投影方法的一个问题是,它假设所有非采样单元都遵循工作模型,或者,从本质上来说,与该模型的任何偏差都是噪声,因此“平均”抵消。因此,在线性混合模型(1)下,我们可以看到,如果非采样单元的个别误差对称分布在零左右,则Sinha和Rao建议的REBLUP(13)(2009)由于它基于一个隐含的假设,即这些误差在区域内非采样单元上的平均值收敛到0。这个-钱伯斯和扎维迪斯的分位数估计量MQ(15)(2006)没有什么不同,因为它假设错误j个x个j个T型βq个¯从该地区-特定的-分位数回归模型是“噪声”,因此也平均抵消了。这并不意味着这些非抽样单位不是离群值。只是我们对其模型误差的相应小面积平均值的最佳预测是0。

威尔士语和朗切蒂语(1998)在人口水平调查估计的背景下,考虑了异常值稳健预测问题。从一个工作线性模型开始,将j个x个j个,以及包含代表性异常值的样本数据,他们扩展了钱伯斯的方法(1986)对人口值的经验分布函数进行稳健预测j个他们的论点立即适用于对该地区经验分布函数的稳健预测的值j个并导致形式的预测

F类^ψϕ(t吨)=N个1[j个(j个t吨)+n个1j个k个第页(x个k个T型β^ψ+ωj个ψϕ{(j个x个j个T型β^ψ)/ωj个ψ}t吨)].
(16)

在这里β^ψ表示-基于有界影响函数的线性工作模型回归参数估计ψ,ωj个ψ是残差规模的稳健估计j个x个j个T型β^ψ在区域内ϕ表示满足以下条件的有界影响函数|ϕ|⩾|ψ|. 扎维迪斯. (2010)注意到面积的稳健估计平均值j个与方程式一致(16)只是它定义的期望值函数,即

¯^ψϕ=t吨d日F类^ψϕ(t吨)=N个1(n个¯+(N个n个)[x个¯第页T型β^ψ+n个1j个ωj个ψϕ{(j个x个j个T型β^ψ)/ωj个ψ}]).
(17)

扎维迪斯. (2010)因此建议将-通过替换分位数估计器(15)β^ψ在方程式中(17)通过β^q个¯,这导致估计量(15)的偏差修正版本MQ–BC,由下式给出

¯^MQ公司不列颠哥伦比亚省=N个1(n个¯+(N个n个)[x个¯第页T型β^q个¯+n个1j个ωj个MQ公司ϕ{(j个x个j个T型β^q个¯)/ωj个MQ公司}]).
(18)

在这里ωj个MQ公司是残差规模的稳健估计j个x个j个T型β^q个¯在区域内.

两个影响函数的使用ψϕ在方程式中(18)值得评论。第一,ψ、鞋垫β^q个,因此β^q个¯其目的是确保样本异常值对工作拟合的影响很小或没有影响-分位数模型。因此,它是有界的,因此降低了这些异常值的权重。第二,ϕ,仍然有界,但“限制性”低于ψ(自|ϕ|⩾|ψ|),其目的是定义对因方程式右侧的前两项导致的偏差的调整(18)将样本异常值视为自我呈现。类似的参数可用于修改REBLUP(13)。特别是,该估计器的稳健预测版本REBLUP–BC模拟了等式中使用的偏差校正思想(18)并导致

¯^REBLUP公司不列颠哥伦比亚省=¯^REBLUP公司+(1n个N个1)n个1j个ωj个ψϕ{(j个x个j个T型β^ψz(z)j个T型u个^ψ)/ωj个ψ},
(19)

其中ωj个ψ现在是对该地区规模的可靠估计残余沉积物j个x个j个T型β^ψz(z)j个T型u个^ψ.

4.稳健预测的均方误差估计

在本节中,我们提出了两种不同的MSE估计分析方法,分别用于稳健预测和稳健预测方法下的小面积均值稳健预测。这两种方法都是在假设面积效应实现值的推理条件工作模型的基础上发展的,因此所提出的MSE估计量是条件估计量。在节中4.1我们采用了钱伯斯提出的想法. (2011)定义REBLUP(13)条件MSE的伪线性化估计量。REBLUP–BC(19)、MQ(15)和MQ–BC(18)的类似条件MSE估计量直接跟随。在节中4.2我们使用估计方程解的方差的一阶近似来开发REBLUP(13)和REBLUP-BC(19)的条件MSE估计。基于此方法的MQ(15)和MQ–BC(18)的类似MSE估计量如所述附录A.

4.1. 鲁棒小面积预报器均方误差估计的伪线性化方法

辛哈和饶(2009)提出了一种基于参数自举的REBLUP最小均方误差估计方法。在这里,我们描述了REBLUP的条件MSE的分析估计量,它的计算要求较少。提出的估计器基于钱伯斯描述的MSE估计的伪线性化方法. (2011),可用于表示为样本值加权和的预测值。由于REBLUP可以用伪线性形式表示,即作为以下样本值的加权和,这种方法立即适用。首先,我们注意到在模型(1)下,假设方差分量已知¯可以表示为

¯^RBLUP公司=j个w个j个RBLUP公司j个=w个RBLUP公司T型,
(20)

哪里

w个RBLUP公司T型=N个1[1T型+(N个n个){x个¯第页T型一个+z(z)¯第页T型B类(X(X)一个)}].

在这里

  • (a)
    一个=(X(X)T型V(V)1U型1/2W公司1U型1/2X(X))1X(X)T型V(V)1U型1/2W公司1U型1/2,使用W公司1一个n个×n个加权对角矩阵j个th分量
    w个1j个=ψ{U型j个1/2(j个x个j个T型β~ψ)}/U型j个1/2(j个x个j个T型β~ψ),
  • (b)
    B类=(Z轴T型e(电子)1/2W公司2e(电子)1/2Z轴+u个1/2W公司u个1/2)1(Z轴T型e(电子)1/2W公司2e(电子)1/2),使用W公司2一个n个×n个权重的对角矩阵j个th分量
    w个2j个=ψ{(σe(电子)ψ)1(j个x个j个T型β~ψz(z)j个u个~ψ)}/(σe(电子)ψ)1(j个x个j个T型β~ψz(z)j个u个~ψ),
    W公司是一个×加权对角矩阵th分量
    w个=ψ{(σu个ψ)1u个~ψ}/(σu个ψ)1u个~ψ
  • (c)

    β~ψu个~ψ是方程的解(10)(11)方差分量已知时。

此外,1n个-向量j个当相应的样本单位位于区域内时,第个分量等于1否则为0。REBLUP(13)可以用完全相同的方式表示,除了权重向量中的所有量w个RBLUP公司依赖于(未知)方差分量的现在需要一个扬抑符,在这种情况下,我们将其表示为w个REBLUP公司给出了REBLUP的伪线性表示,假设模型(1)的条件版本,即随机效应被视为固定但未知的量,则发展了其MSE的简单一阶近似。(j个)表示单位是否j个在区域中REBLUP的条件MSE的估计量是

MSE公司^(¯^REBLUP公司)=V(V)^(¯^再发光)+B类^(¯^REBLUP公司)2,
(21)

哪里

V(V)^(¯^REBLUP公司)=N个2j个{j个2+(N个n个)n个1}λj个1(j个μ^j个)2

是方程条件预测方差的估计(13),使用j个=N个w个j个REBLUP公司(j个)

B类^(¯^REBLUP公司)=j个w个j个REBLUP公司μ^j个N个1j个(第页)μ^j个

是对其条件预测偏差的估计。计算方程式(21)我们需要定义μ^j个λ^j个.在这里μ^j个=k个ϕk个j个k个是条件期望值的无偏线性估计量μj个=E类(j个|x个j个,u个ψ)λj个=12ϕj个j个+k个ϕk个j个2是缩放常数。由于众所周知的收缩效应与BLUP有关μ^j个由的EBLUPμj个模型(1)下可能导致条件预测方差的有偏估计。钱伯斯. (2011)因此建议μ^j个计算为的EBLUP的“unshunken”版本μj个。另请参阅Salvati. (2012)。注意,MSE估计量(21)忽略了与方差分量估计相关的额外变异性,因此是REBLUP实际条件MSE的一阶近似值。

REBLUP–BC(19)的MSE估计量是通过使用上述相同的伪线性化方法获得的。唯一的区别是重量w个j个REBLUP公司方程式中使用的(21)现在由相应的REBLUP–BC重量代替。此外,由于REBLUP–BC是小面积平均值的近似无偏估计量,因此方程中的平方偏差项(21)省略。

经验证明,这种MSE方法对于实际小面积应用(如钱德拉和钱伯斯)具有良好的重复采样特性(2009)钱伯斯和扎维迪斯(2006)、钱德拉. (2007),扎维迪斯. (2010)和Salvati. (2010)。尽管经验结果(见钱伯斯(2011))显示方程式(21)在偏差方面表现良好,这种改进的偏差性能是以增加MSE为代价的,主要是由于在这种情况下平方偏差项的可变性。特别是,当特定区域的样本量非常小时,使用公式(21)可能导致MSE估计值较高。

4.2. 基于线性化的小面积预报器均方误差估计

在下文中,我们基于布斯和霍伯特提出的线性化思想(1998)提出一种新的小面积估计量MSE估计量,该估计量由一组稳健估计方程的解定义。MSE显示为预测方差、平方偏差项和校正项的总和,用于解释参数估计的采样可变性。我们的理论发展基于与假设相对应的近似值最大值(n个)=O(运行)(1),所以,作为→∞,预测方差和平方偏差为O(运行)(1) 修正项为O(运行)(1).我们还做了一个标准假设,即对感兴趣的小面积估计量进行线性近似的MSE的一致估计可以用作其MSE估计量。如Harville和Jeske所述(1992),这样的方法通常不会一致,并且得出的MSE估计值可能会有偏差。在小样本问题中,这通常不是问题。然而,在下文中需要记住这一点。

我们通过将其应用于REBLUP(13)和REBLUP-BC(19)的条件MSE估计来说明该方法。EBLUP(2)的相应MSE估计器可以作为REBLUP(13)的MSE估计器的特殊情况来获得。为了简洁起见,开发中省略了一些技术细节,但作者可以根据要求提供这些细节。请注意,当与基于混合模型的估计器一起使用时,所提出的MSE估计器提供了条件MSE的二阶近似值,因为它包括一个项,表示方差分量估计对变异性的贡献。在整个过程中,我们假设使用带有调谐常数的Huber建议2影响函数c(c)。我们还假设了中规定的正则性条件(RCs)1-7附录A.

在模型(1)下¯可以表示为

变量u个(¯^RBLUP公司¯)=(1n个N个1)2(x个¯第页T型z(z)¯第页T型)变量u个(δ~)(x个¯第页T型z(z)¯第页T型)T型+(1n个N个1)2变量u个(e(电子)¯第页),
(22)

哪里δ~=(β~ψT型,u个~ψT型)T型具有相应的“true”值δ0=(β0ψT型,u个0ψT型)T型.在这里

e(电子)¯第页=(N个n个)1j个第页(j个x个j个T型β0ψz(z)j个T型u个0ψ),

u个~ψ=(u个~1ψT型,,u个~ψT型)T型和下标u个用于表示以面积效应实现值为条件的力矩。估算方程式(22)我们需要估计无功功率,无功功率u个(δ~).根据方程式(7)和方程式(9)我们看到了H(H)(δ~)=0哪里

H(H)(δ)=H(H)βψ(δ)H(H)u个ψ(δ)=X(X)T型V(V)1U型1/2ψ{U型1/2(X(X)βψ)}Z轴T型e(电子)1/2ψ{e(电子)1/2(X(X)βψZ轴u个ψ)}u个1/2ψ(u个1/2u个ψ).

我们计算一个估计方程解的渐近方差,以获得无功功率,无功功率u个(δ~)并推广到RBLUP的条件预测方差。给定RC 1和2,并遵循与Booth和Hobert中相同的论点(1998),导致一级近似

无功功率,无功功率u个(δ~)=E类u个(δH(H)0)1无功功率,无功功率u个{H(H)(δ0)}(E类u个(δH(H)0)1)T型+(1).

经过一些简化后,这个近似值建议了无功功率,无功功率u个(δ~):

V(V)^u个(δ~)=E类u个(δH(H)0)1V(V)^u个(H(H)0βψ)覆盖(cov)^u个(H(H)0βψ,H(H)0u个ψ)覆盖(cov)^u个(H(H)0u个ψ,H(H)0βψ)V(V)^u个(H(H)0u个ψ)(E类u个(δH(H)0)1)^T型,

哪里

E类u个(δH(H)0)1^=E类^u个(β0ψH(H)0βψ)1E类^u个(⏴==================================================================================================================================================================================β0ψH(H)0βψ)1E类^u个(β0ψH(H)0u个ψ)E类^u个(u个0ψH(H)0u个ψ)10E类^u个(u个0ψH(H)0u个ψ)1,

具有

E类^u个(β0ψH(H)0βψ)=X(X)T型V(V)1U型1/2俄罗斯1/2X(X),
E类^u个(u个0ψH(H)0u个ψ)=Z轴T型e(电子)1/2T型e(电子)1/2Z轴u个1/2u个1/2,
E类^u个(β0ψH(H)0u个ψ)=Z轴T型e(电子)1/2T型e(电子)1/2X(X),
V(V)^u个(H(H)0βψ)=(n个第页)1j个=1n个ψ2(第页j个)X(X)T型V(V)1U型V(V)1X(X),
V(V)^u个(H(H)0u个ψ)=(n个第页)1j个=1n个ψ2(t吨j个)Z轴T型e(电子)1Z轴

覆盖(cov)^u个(H(H)0u个ψ,H(H)0βψ)=(n个第页)1j个=1n个{ψ(第页j个)ψ(t吨j个)}X(X)T型V(V)1U型1/2e(电子)1/2Z轴.

在这里R(右)是一个n个×n个对角矩阵j个第th个对角线元素等于1,如果c(c)<第页j个<c(c),否则为0,T型是维度的对角矩阵n个×n个具有j个第个对角线元素等于1,如果c(c)<t吨j个<c(c),否则为0,以及是一个×对角矩阵第个对角线元素等于1,如果c(c)<d日<c(c),否则为0。根据方程式(22)RBLUP条件预测方差的估计量可以写成

V(V)^u个(¯^RBLUP公司¯)=小时1(δ~)+小时2(δ~),
(23)

哪里

  • (a)

    小时1(δ~)=(1n个N个1)2(x个¯第页T型z(z)¯第页T型)V(V)^u个(δ~)(x个¯第页T型z(z)¯第页T型)T型是由于模型中固定和随机效应的估计,以及

  • (b)
    小时2(δ~)=(1n个N个1)2V(V)^u个(e(电子)¯第页)只需使用面积数据即可计算,即。
    V(V)^u个(e(电子)¯第页)=(N个n个)1(n个1)1j个(j个x个j个T型β~ψz(z)j个T型u个~ψ)2,
    或者通过汇集整个样本的数据,在这种情况下
    V(V)^u个(e(电子)¯第页)=(N个n个)1(n个1)1小时j个小时(j个x个j个T型β~ψz(z)j个T型u个~ψ)2.
    请注意,当面积样本量非常小时,合并估计值会导致更稳定的MSE估计。

最后,我们将平方条件偏差的估计量添加到方程中(23),导致对形式的RBLUP的MSE进行估计

MSE公司^u个(¯^RBLUP公司)=小时1(δ~)+小时2(δ~)+B类^u个(¯^RBLUP公司)2,
(24)

哪里B类^u个(¯^RBLUP公司)是以下等式定义的条件偏差的估计量(21).

REBLUP(13)的MSE的相应估计量是通过在方程中添加一个额外的项来获得的(24)解释因方差分量估计而增加的变异性。θ=(σu个ψ2,σe(电子)ψ2)用估计器表示方差分量的向量θ^=(σ^u个ψ2,σ^e(电子)ψ2)我们的发展与普拉萨德和拉奥的发展相似(1990)因为它是基于分解

MSE公司u个(¯^REBLUP公司)=MSE公司u个(¯^RBLUP公司)+E类u个{(¯^REBLUP公司¯^RBLUP公司)2}+2E类u个{(¯^RBLUP公司¯)(¯^REBLUP公司¯^RBLUP公司)}=MSE公司u个(¯^RBLUP公司)+E类u个{(¯^REBLUP公司¯^RBLUP公司)2}+O(运行)(1).
(25)

作者提供了证明上述交叉乘积项为低阶的详细信息。方程右侧第二项的近似(25)可通过使用Taylor级数方法根据中规定的RCs 1-7获得附录A。为了得到这个近似值,我们首先注意到,使用RC 7,我们可以写

¯^REBLUP公司¯^RBLUP公司=θ¯^RBLUP公司(θ^θ)+O(运行)第页(1).

接下来,使用身份

¯^RBLUP公司=1N个j个第页x个T型β0ψ+1N个j个第页z(z)j个T型B类(X(X)β0ψ)+1N个j个第页x个j个T型1N个j个第页z(z)j个T型B类X(X)(β~ψβ0ψ),

事实上β~ψ关于θ是低阶的,我们可以写

¯^REBLUP公司¯^RBLUP公司=(N个1j个第页z(z)j个T型)k个=12(θk个B类)(X(X)β0ψ)(θ^k个θk个)+O(运行)第页(1).

最后,使用RCs 2-6并注意β~ψβ0ψ=O(运行)第页(1/2)我们获得

无功功率,无功功率u个(¯^REBLUP公司¯^RBLUP公司)=(N个1j个第页z(z)j个T型){k个=12=12(θk个B类)覆盖(cov)u个(X(X)β0ψ)(θ^k个θk个),(X(X)β0ψ)(θ^θ)(θB类)T型}(N个1j个第页z(z)j个T型)T型+(1)

哪里

覆盖(cov)u个{(j个x个j个T型β0ψ)(θ^k个θk个),(1x个T型β0ψ)(θ^θ)}=(z(z)j个T型u个0ψ)(z(z)T型u个0ψ)+σe(电子)ψ2(j个=1)E类u个(θ^k个θk个)(θ^θ)+O(运行)(1)

因此,方程式(25)可以近似为

MSE公司^(¯^REBLUP公司)=小时1(δ~)+小时2(δ~)+小时(δ~)+B类^(¯^RBLUP公司)2,
(26)

哪里

小时(δ~)=(N个1j个第页z(z)j个T型)Υ无功功率,无功功率u个(θ^)(N个1j个第页z(z)j个T型)T型

Υ=k个=12=12{(θk个B类)[j个{(z(z)j个T型u个0ψ)(z(z)T型u个0ψ)+σe(电子)ψ2(j个=)}](θB类)T型}.

方差分量的方差-协方差矩阵的估计无功功率,无功功率u个(θ^)可以使用Sinha和Rao的结果进行计算(2009)。然后通过替换来获得REBLUP的条件MSE的估计器δ0=(β0ψT型,u个0ψT型)T型δ~=(β~ψT型,u个~ψT型)T型通过δ^=(β^ψT型,u个^ψT型)T型在方程式中(26)并导致

MSE公司(¯^REBLUP公司)=小时1(δ^)+小时2(δ^)+小时(δ^)+B类^(¯^REBLUP公司)2.
(27)

通过设置方程中影响函数的调谐常数,可以很容易地计算出EBLUP条件MSE的相应估计(27)这样就不会发生异常值修改,例如设置c(c)>100.

我们采用类似的方法来定义REBLUP–BC的条件MSE估计量。首先,当方差分量已知时,即对于RBLUP–BC,我们得出了该预测因子的条件预测方差的近似值。在这种情况下,预测误差为

¯^RBLUP公司不列颠哥伦比亚省¯=(1n个N个1){(x个¯第页T型β~ψ+z(z)¯第页T型u个~ψ)+n个1j个ωj个ψϕ(j个x个j个T型β~ψz(z)j个T型u个~ψωj个ψ)¯第页}.

此表达式右侧大括号内的第二个(偏差校正)项可以使用泰勒级数近似展开。当调谐常数用于ϕ很大,所以ϕ1,此近似值变为

n个1j个ωj个ψϕ(j个x个j个T型β˜ψz(z)j个T型u个˜ψωj个ψ)= n个1j个ωj个ψϕ(j个x个j个T型β0ψz(z)j个T型u个0ψωj个ψ)(β˜ψβ0ψu个˜ψu个0ψ)T型(x个¯z(z)¯)+O(运行)第页(1).

用前面的表达式替换RBLUP–BC的预测误差会导致

¯^RBLUP公司不列颠哥伦比亚省¯=(1n个N个1)(T型e(电子)¯第页+U型)+O(运行)第页(1)
(28)

哪里

T型=(x个¯第页x个¯)T型(β~ψβ0ψ)+(z(z)¯第页z(z)¯)T型(u个~ψu个0ψ)

U型=n个1j个ωj个ψϕ(j个x个j个T型β0ψz(z)j个T型u个0ψωj个ψ).

在RCs 1-5下T型O(运行)(1)和之间的协方差T型U型其数量级低于它们的任何一个方差,因此从方程(28)我们可以写下RBLUP–BC的条件方差的估计量,形式如下

MSE公司^(¯^RBLUP公司不列颠哥伦比亚省)=小时1不列颠哥伦比亚省(δ~)+小时2(δ~)+小时不列颠哥伦比亚省(δ~),
(29)

哪里

小时1不列颠哥伦比亚省(δ~)=(1n个N个1)2x个¯第页x个¯z(z)¯第页z(z)¯T型V(V)^u个(δ~)x个¯第页x个¯z(z)¯第页z(z)¯

小时不列颠哥伦比亚省(δ~)=(1n个N个1)2n个1(n个第页q个)1j个{ωj个ψϕ(j个x个j个T型β~ψz(z)j个T型u个~ψωj个ψ)}2.

然后通过在方程中添加一个项来获得REBLUP–BC的条件MSE的估计值(29)解释因方差分量估计而产生的额外不确定性。可以采用与REBLUP相同的方法,从而得出近似值

E类u个{(¯^REBLUP公司不列颠哥伦比亚省¯^RBLUP公司不列颠哥伦比亚省)2}=(1n个N个1)2T型Υ无功功率,无功功率u个(θ^)+O(运行)(1)=小时4不列颠哥伦比亚省(δ0)+O(运行)(1)
(30)

哪里

=z(z)¯第页n个1j个ϕ{j个x个j个T型β0ψz(z)j个T型B类(X(X)β0ψ)ωj个ψ}z(z)j个.

请注意=0什么时候ϕ是恒等函数,例如《钱伯斯》中描述的偏差修正版本. (1993),并且该模型仅包含随机截取。然后通过替换定义REBLUP–BC的MSE估计值δ0=(β0ψT型,u个0ψT型)T型δ~=(β~ψT型,u个~ψT型)T型通过δ^=(β^ψT型,u个^ψT型)T型在方程式中(29)(30),给予

MSE公司(¯^REBLUP公司不列颠哥伦比亚省)=小时1不列颠哥伦比亚省(δ^)+小时2(δ^)+小时不列颠哥伦比亚省(δ^)+小时4不列颠哥伦比亚省(δ^).
(31)

与基于伪线性化方法的REBLUP–BC条件MSE估计量一样,无平方条件偏差估计量与方程一起使用(31)因为REBLUP–BC预测值对于小面积平均值几乎是无偏的。然而,与方程不同(27),REBLUP的MSE–BC有一个额外的学期小时不列颠哥伦比亚省(δ^)这是由于REBLUP–BC中的条件偏差修正引起的(19)。注意,术语小时4不列颠哥伦比亚省(δ^)在方程式中(31)等于小时(δ^)在方程式中(27)也就是说,他们都估计了由于方差分量的估计而导致的变异性增加。MQ(15)和MQ–BC(18)的条件MSE的估计值可以类似地获得,这一发展在附录A.

5.基于模型的仿真

我们提供了基于模型的仿真结果,说明了第节中描述的各种异常值鲁棒小面积预测器和相应的MSE估计器的性能4。人口数据是为=40个小区域,通过简单随机抽样选择样本,每个区域内无需更换。所有地区的人口和样本数量都是相同的,并且固定在N个=100n个=5N个=300n个=15。的值x个从对数正态分布中独立、一致地生成,平均值为1.0,标准偏差为0.5。的值Y(Y)生成为j个=100+5x个j个+u个+εj个其中,随机区域和个体效应根据四种场景独立生成:

  • (a)

    [0,0]-无异常值,u个N个(0,3)和ɛN个(0, 6);

  • (b)

    [e(电子),0]-仅单个异常值,u个N个(0,3)和ɛδN个(0, 6)+(1 −δ)N个(20、150),其中δ是一个独立生成的Bernoulli随机变量,带有&pr;(δ=1)=0.97,即个体效应是从两个正态分布的混合中独立提取的,平均97%来自“表现良好”N个(0,6)分布和从异常值中提取的平均3%N个(20,150)分布;

  • (c)

    [0,u个]-仅区域异常值,u个N个(0,3)适用于区域1–36,u个N个(9,20)用于37–40区域和ɛN个(0,6),即区域1-36的随机效应来自“表现良好”N个(0,3)分布,区域37–40的分布来自异常值N个(9,20)分布(个体效应不受离群值污染);

  • (d)

    [e(电子),u个]-区域和个体效应中的异常值,u个N个(0,3)对于区域1-36,u个N个(9,20)用于37–40区域和ɛδN个(0, 6)+(1 −δ)N个(20, 150).

每个场景单独模拟500次。对于每个模拟,根据基本场景生成人口值,在每个区域选择一个样本,然后使用样本数据计算每个实际面积平均值的估计值.

为此,使用了五种不同的估计值——标准EBLUP(参见等式(2)),用作参考,投射-分位数估计器MQ(见等式(15)),稳健的偏差修正预测-分位数估计器MQ–BC(见等式(17)),Sinha和Rao的鲁棒投影REBLUP估计量(2009)(见方程式(13))及其稳健的偏差修正版本REBLUP–BC(见等式(19))。在所有情况下,“投影”影响函数ψ是带有调谐常数的Huber建议2型c(c)= 1.345. 相比之下,“预测性”、限制性较小的影响功能ϕMQ–BC和REBLUP–BC中使用的也是Huber建议2类型,但具有较大的调整常数,c(c)= 3.

这些估计器在各种模拟中的性能是通过计算其特定区域的相对偏差和相对均方根误差(RRMSE)的中值来评估的,其中估计器的相对偏差¯^实际平均值¯面积的是误差模拟的平均值¯^¯除以相应的平均值¯,其RRMSE是这些误差平方模拟的平均值的平方根,再次除以¯.表1给出了各种模拟场景和估计器的这些中值。

表1

基于模型的仿真结果:小面积均值预测因子的性能

预测值以下场景和区域的结果(%):
[0,0], 1–40[e,0],1–40[0,u],1–36[0,u],37–40[e,u],1-36[e,u],37–40
相对偏差中值
EBLUP公司0.02−0.020.10−0.540.17−1.59
REBLUP公司0.03−0.390.11−0.47−0.30−1.00
MQ公司0.02−0.430.09−0.94−0.32−0.99
翻新——不列颠哥伦比亚省0.02−0.290.030.02−0.28−0.32
MQ–不列颠哥伦比亚省0.02−0.280.03−0.07−0.26−0.30
RRMSE中值
EBLUP公司0.811.220.850.971.372.39
REBLUP公司0.821.010.841.020.991.44
MQ公司0.821.030.831.461.011.57
重组–BC0.911.230.920.861.241.27
MQ–不列颠哥伦比亚省0.911.240.920.931.261.49
预测值以下场景和区域的结果(%):
[0,0], 1–40[e,0],1–40[0,u],1-36[0,u],37–40[e,u],1-36[e,u],37–40
相对偏差中值
EBLUP公司0.02−0.020.10−0.540.17−1.59
REBLUP公司0.03−0.390.11−0.47−0.30−1.00
MQ公司0.02−0.430.09−0.94−0.32−0.99
翻新——不列颠哥伦比亚省0.02−0.290.030.02−0.28−0.32
MQ–不列颠哥伦比亚省0.02−0.280.03−0.07−0.26−0.30
RRMSE中值
EBLUP公司0.811.220.850.971.372.39
再发光0.821.010.841.020.991.44
MQ公司0.821.030.831.461.011.57
翻新——不列颠哥伦比亚省0.911.230.920.861.241.27
MQ–不列颠哥伦比亚省0.911.240.920.931.261.49
表1

基于模型的仿真结果:小面积均值预测因子的性能

预测值以下场景和区域的结果(%):
[0,0], 1–40[e,0],1–40[0,u],1–36[0,u],37–40[e,u],1-36[e,u],37–40
相对偏差中值
EBLUP公司0.02−0.020.10−0.540.17−1.59
REBLUP公司0.03−0.390.11−0.47−0.30−1.00
MQ公司0.02−0.430.09−0.94−0.32−0.99
翻新——不列颠哥伦比亚省0.02−0.290.030.02−0.28−0.32
MQ–BC公司0.02−0.280.03−0.07−0.26−0.30
RRMSE中值
EBLUP公司0.811.220.850.971.372.39
REBLUP公司0.821.010.841.020.991.44
MQ公司0.821.030.831.461.011.57
翻新——不列颠哥伦比亚省0.911.230.920.861.241.27
MQ–不列颠哥伦比亚省0.911.240.920.931.261.49
预测值以下场景和区域的结果(%):
[0,0], 1–40[e,0],1–40[0,u],1–36[0,u],37–40[e,u],1-36[e,u],37–40
相对偏差中值
EBLUP公司0.02−0.020.10−0.540.17−1.59
REBLUP公司0.03−0.390.11−0.47−0.30−1.00
MQ公司0.02−0.430.09−0.94−0.32−0.99
翻新——不列颠哥伦比亚省0.02−0.290.030.02−0.28−0.32
MQ–BC公司0.02−0.280.03−0.07−0.26−0.30
RRMSE中值
EBLUP公司0.811.220.850.971.372.39
REBLUP公司0.821.010.841.020.991.44
MQ公司0.821.030.831.461.011.57
翻新——不列颠哥伦比亚省0.911.230.920.861.241.27
MQ–不列颠哥伦比亚省0.911.240.920.931.261.49

表中列出的相对偏差结果1确认我们对投影估计量(EBLUP、REBLUP和MQ估计量)和预测估计量(REBLUP-BC和MQ-BC)行为的期望。前者比后者更具偏向性(参见区域和个别异常值的情景),因为他们的隐含假设是,尽管异常值方差相对于非异常值可能被夸大,但异常值效应仍然具有零期望。当面积效应中存在异常值时,偏差的增加最为显著,这并不意外,因为这是面积平均值受人口数据中异常值影响最大的时候。关于RRMSE结果的中位数,我们可以看到文献中的声明(例如Chambers和Tzavidis(2006))MQ与EBLUP相比具有更高的异常值稳健性,这一点肯定是正确的,前提是异常值具有个别影响。如果区域效应中存在异常值,那么MQ与EBLUP相比似乎没有提供额外的保护,实际上性能更差,主要是因为它在这种情况下的偏差急剧增加。类似地,当我们比较EBLUP和REBLUP时,我们发现,如果异常值与个体效应相关,那么REBLUP提供了比EBLUP更好的RRMSE性能。然而,当异常值与面积效应相关时,这两个估计值之间的差距会大大缩小。相比之下,就RRMSE性能而言,这两个预测估计器似乎相对稳健。然而,由于偏差修正导致变异性增加,当异常值与个别效应相关时,两种预测估计器都不如投影估计器有效,但当面积效应中存在异常值时,两者都不会失败。最后,在使用预测估计器提供收益的情况下,REBLUP–BC估计器的性能似乎优于MQ–BC估测器。

我们现在检查各种MSE估计器的性能。我们主要对预测估计量REBLUP–BC和MQ–BC的MSE估计量的性能感兴趣。然而,当用于估计一系列场景下投影估计量的MSE时,我们也对MSE估计量的性能进行了评论。REBLUP和REBLUP-BC的MSE估计是通过伪线性化MSE估计量(21)(估计量CCT)和基于线性化的MSE估计器(27)和(31)(估计器CCST)实现的。对于MQ和MQ–BC,MSE估计值(37)和(39)-参见附录A有关详细信息,请参阅钱伯斯(Chambers). (2011)详细信息)。对于REBLUP和REBLUP-BC,我们研究了Sinha和Rao的参数引导程序(2009)估计器BOOT,我们通过在每次蒙特卡罗运行中生成100个引导样本来实现它(使用更多的引导样本不会在很大程度上改变我们的结果)。最后,通过Prasad和Rao估算了EBLUP的MSE(1990)估计器PR,以及通过估计器CCT和CCST。每个场景和每个估计器的MSE估计器的结果如表所示2其中,我们报告了其区域特定相对偏差的中值及其RRMSE。

表2

RMSE估计器在基于模型的仿真实验中的性能

预测值MSE估计器以下场景和区域的结果(%):
[0,0], 1–40[e,0],1–40[0,u],1–36[0,u],37–40[e,u],1-36[e,u],37–40
相对偏差中值
EBLUP公司公共关系−0.341.743.82−17.3111.32−40.86
CCT公司3.6131.241.552.155.95−3.05
CCST公司0.5531.22−3.91−0.302.96−4.17
REBLUP公司CCT公司−17.71−15.76−20.24−34.79−19.51−36.63
CCST公司−2.01−8.46−5.31−3.58−7.91−22.51
启动−1.19−4.427.38−19.4211.37−31.44
MQ公司CCT公司−2.98−16.29−12.566.69−24.02岁177.42
CCST公司0.11−8.21−7.778.95−14.10163.38
翻新——不列颠哥伦比亚省CCT公司−10.56−12.46−11.88−10.54−12.57−18.37
CCST公司−2.95−2.83−4.21−11.27−5.81−8.48
启动−0.21−6.76−0.52−1.25−4.90−12.96
MQ–不列颠哥伦比亚省CCT公司−6.353.48−7.193.921.875.96
CCST公司−7.18−11.38−7.423.21−11.42−9.20
RRMSE中值
EBLUP公司公共关系6.2418.577.2017.9022.2843.19
CCT公司31.5176.2031.2528.3761.5751.30
CCST公司22.9266.277.6818.9827.1539.13
再发光CCT公司29.5230.8228.6728.582938.70
CCST公司27.8628.4720.8922.8720.2529.24
启动10.2734.9210.6714.6216.6133.04
MQ(百万立方米)CCT公司61.9461.5059.8843.7659.67205.30
CCST公司54.7749.1450.6340.5845.34189.92
翻新——不列颠哥伦比亚省CCT公司33.6445.2033.2133.5645.4847.18
CCST公司33.3045.1733.1132.9945.1347.10
启动10.1215.2710.2010.6014.5318.35
MQ–不列颠哥伦比亚省CCT公司36.6865.3736.1938.3365.7064.26
CCST公司33.9344.8133.5535.3044.6550.55
预测值MSE估计器以下场景和区域的结果(%):
[0,0], 1–40[e,0],1–40[0,u],1–36[0,u],37–40[e,u],1-36[e,u],37–40
相对偏差中值
EBLUP公司公共关系−0.341.743.82−17.3111.32−40.86
CCT公司3.6131.241.552.155.95−3.05
CCST公司0.5531.22−3.91−0.302.96−4.17
REBLUP公司CCT公司−17.71−15.76−20.24−34.79−19.51−36.63
CCST公司−2.01−8.46−5.31−3.58−7.91−22.51
启动−1.19−4.427.38−19.4211.37−31.44
MQ公司CCT公司−2.98−16.29−12.566.69−24.02岁177.42
CCST公司0.11−8.21−7.778.95−14.10163.38
翻新——不列颠哥伦比亚省CCT公司−10.56−12.46−11.88−10.54−12.57−18.37
CCST公司−2.95−2.83−4.21−11.27−5.81−8.48
启动−0.21−6.76−0.52−1.25−4.90−12.96
MQ–不列颠哥伦比亚省CCT公司−6.353.48−7.193.921.875.96
CCST公司−7.18−11.38−7.423.21−11.42−9.20
RRMSE中值
EBLUP公司公共关系6.2418.577.2017.9022.2843.19
CCT公司31.5176.2031.2528.3761.5751.30
CCST公司22.9266.277.6818.9827.1539.13
再发光CCT公司29.5230.8228.6728.582938.70
CCST公司27.8628.4720.8922.8720.2529.24
启动10.2734.9210.6714.6216.6133.04
MQ(百万立方米)CCT公司61.9461.5059.8843.7659.67205.30
CCST公司54.7749.1450.6340.5845.34189.92
翻新——不列颠哥伦比亚省CCT公司33.6445.2033.2133.5645.4847.18
CCST公司33.3045.1733.1132.9945.1347.10
启动10.1215.2710.2010.6014.5318.35
MQ–不列颠哥伦比亚省CCT公司36.6865.3736.1938.3365.7064.26
CCST公司33.9344.8133.5535.3044.6550.55
表2

RMSE估计器在基于模型的仿真实验中的性能

预测值MSE估计器以下场景和区域的结果(%):
[0,0], 1–40[e,0],1–40[0,u],1–36[0,u],37–40[e,u],1-36[e,u],37–40
相对偏差中值
EBLUP公司公共关系−0.341.743.82−17.3111.32−40.86
CCT公司3.6131.241.552.155.95−3.05
CCST公司0.5531.22−3.91−0.302.96−4.17
REBLUP公司CCT公司−17.71−15.76−20.24−34.79−19.51−36.63
CCST公司−2.01−8.46−5.31−3.58−7.91−22.51
靴子−1.19−4.427.38−19.4211.37−31.44
MQ公司CCT公司−2.98−16.29−12.56磅6.69−24.02177.42
CCST公司0.11−8.21−7.778.95−14.10163.38
翻新——不列颠哥伦比亚省CCT公司−10.56−12.46−11.88−10.54−12.57−18.37
CCST公司−2.95−2.83−4.21−11.27−5.81−8.48
启动−0.21−6.76−0.52−1.25−4.90−12.96
MQ–BC公司CCT公司−6.353.48−7.193.921.875.96
CCST公司−7.18−11.38−7.423.21−11.42−9.20
RRMSE中值
EBLUP公司公共关系6.2418.577.2017.9022.2843.19
CCT公司31.5176.2031.2528.3761.5751.30
CCST公司22.9266.277.6818.9827.1539.13
REBLUP公司CCT公司29.5230.8228.6728.582938.70
CCST公司27.8628.4720.8922.8720.2529.24
启动10.2734.9210.6714.6216.6133.04
MQ公司CCT公司61.9461.5059.8843.7659.67205.30
CCST公司54.7749.1450.6340.5845.34189.92
翻新——不列颠哥伦比亚省CCT公司33.6445.2033.2133.5645.4847.18
CCST公司33.3045.1733.1132.9945.1347.10
启动10.1215.2710.2010.6014.5318.35
MQ–不列颠哥伦比亚省CCT公司36.6865.3736.1938.3365.7064.26
CCST公司33.9344.8133.5535.3044.6550.55
预测值MSE估计器以下场景和区域的结果(%):
[0,0], 1–40[e,0],1–40[0,u],1–36[0,u],37–40[e,u],1-36[e,u],37–40
相对偏差中值
EBLUP公司公共关系−0.341.743.82−17.3111.32−40.86
CCT公司3.6131.241.552.155.95−3.05
CCST公司0.5531.22−3.91−0.302.96−4.17
REBLUP公司CCT公司−17.71−15.76−20.24−34.79−19.51−36.63
CCST公司−2.01−8.46−5.31−3.58−7.91−22.51
靴子−1.19−4.427.38−19.4211.37−31.44
MQ公司CCT公司−2.98−16.29−12.56磅6.69−24.02177.42
CCST公司0.11−8.21−7.778.95−14.10163.38
翻新——不列颠哥伦比亚省CCT公司−10.56−12.46−11.88−10.54−12.57−18.37
CCST公司−2.95−2.83−4.21−11.27−5.81−8.48
启动−0.21−6.76−0.52−1.25−4.90−12.96
MQ–BC公司CCT公司−6.353.48−7.193.921.875.96
CCST公司−7.18−11.38−7.423.21−11.42−9.20
RRMSE中值
EBLUP公司公共关系6.2418.577.2017.9022.2843.19
CCT公司31.5176.2031.2528.3761.5751.30
CCST公司22.9266.277.6818.9827.1539.13
REBLUP公司CCT公司29.5230.8228.6728.582938.70
CCST公司27.8628.4720.8922.8720.2529.24
启动10.2734.9210.6714.6216.6133.04
MQ公司CCT公司61.9461.5059.8843.7659.67205.30
CCST公司54.7749.1450.6340.5845.34189.92
翻新——不列颠哥伦比亚省CCT公司33.6445.2033.2133.5645.4847.18
CCST公司33.3045.1733.1132.9945.1347.10
启动10.1215.2710.2010.6014.5318.35
MQ–不列颠哥伦比亚省CCT公司36.6865.3736.1938.3365.7064.26
CCST公司33.9344.8133.5535.3044.6550.55

作为第一个一般性评论,我们注意到,对于我们考虑的所有估算器和场景,CCST提供了比CCT更好的稳定性。我们现在关注这两个MSE估计器的性能,以估计稳健预测估计器REBLUP–BC和MQ–BC的MSE。如前所述,估计器CCST的整体稳定性优于CCT。然而,就偏差而言,由于两个相同数量级的MSE估计值的偏差,情况就不那么明朗了。特别是,尽管估计器CCST对REBLUP–BC有更好的偏差性能,但CCT对MQ–BC的偏差性能更好。我们还看到,与CCT和CCST相比,估计量BOOT通常是REBLUP–BC的一个更稳定的MSE估计量。然而,这是一种计算密集的MSE估计方法,因此在实际调查环境中可能并不总是合适的。在这种情况下,我们注意到最近针对MQ和非健壮版本的MQ–BC(Tzavidis)提出了半参数引导方法。,2010)。我们没有在这里充分评估这些不同的引导方法,因为本文的重点是MSE估计的分析方法,而且这样做会大大增加本文的篇幅。

现在转到投影估计量的MSE估计,我们观察到REBLUP和MQ的估计量CCST比估计量CCT的偏差更低,也更稳定。相比之下,估计器BOOT有时比CCST更有偏差,但更稳定。然而,当总体包含区域和单位异常值时,CCT和CCST似乎都大大高估了MQ的MSE。目前尚不清楚发生这种情况的原因。由于这种情况下建议进行稳健预测估计,因此更有趣的是,CCT和CCST在估计MQ–BC的MSE方面都工作良好,在这种情况下,估计器CCST是两个MSE估计器中更稳定的。

正如我们预期的那样,EBLUP MSE的PR估计在[0,0]场景中表现良好,并且还记录了小的相对偏差[e(电子),0]场景,即只有个别异常值(当CCT和CCST都记录了较大的正偏差时)。然而,在存在区域级异常值的情况下(当CCT和CCST都记录可忽略的偏差时),它会记录较大的负偏差。估计器PR的主要优势在于其稳定性——其中位RRMSE始终低于CCT,并且在没有区域级异常值的情况下也比CCST更稳定。在很大程度上,这是由于CCT和CCST中使用的平方条件偏差项引起的小样本不稳定性。钱伯斯注意到了这个问题. (2011),他指出,表中可以明显看出CCT对EBLUP的偏差稳健性2这是以更高的可变性为代价的,尤其是在面积非常小的样本大小的情况下。相比之下,EBLUP的估计量CCST表现出与CCT非常相似的偏差鲁棒性,并且更稳定。

6.基于设计的仿真

基于设计的模拟是对SAE基于模型的模拟的补充,因为它们使我们能够在我们不知道准确污染源的真实人群和现实采样方法的背景下评估SAE方法的性能。从有限总体的角度来看,我们认为这种模拟构成了SAE问题更实际、更恰当的表示。此外,它很好地说明了为什么关注条件MSE可能更接近使用小面积方法的分析师感兴趣的MSE。

支持基于设计的模拟的人口基于根据美国环境保护署的“环境监测和评估计划”(EMAP)获得的数据集。该数据集的背景是,1991年至1995年间,环境管理局对美国东北部各州的湖泊进行了调查。本次调查收集的数据包括来自该地区21026个湖泊中334个湖泊样本的551次测量。构成这一人口的湖泊分为113个八位水文单位代码(HUC),其中64个包含少于五个观测值,27个没有任何观测值。在我们的模拟中,我们将HUC定义为感兴趣的小区域,将湖泊分组在HUC中。关注的变量是酸中和能力(ANC),它是水体酸化风险的指标。除了采样位置的ANC值外,EMAP数据集还包含目标区域内每个湖泊的高程。在该模拟中,高程被用作唯一的模型协变量。

按照与Salvati相同的程序,构建了21026个ANC湖泊特定个体值的合成种群. (2012)。这对应于使用最近邻插补算法对所有21026个湖泊的ANC值进行非参数模拟,该算法保留了EMAP样本数据中观察到的334个湖泊特定ANC值的空间结构。然后,ANC值的合成总体在蒙特卡罗模拟中保持不变。关于精确数据生成机制和人口特征的详细信息,请参阅Salvati. (2012)。通过随机选择包含EMAP采样湖泊的86个HUC中的湖泊,从21026个湖泊中抽取1000个独立随机湖泊样本,这些HUC的样本大小设置为5和原始EMAP样本大小中的较大值。对合成种群数据拟合了一个两级(1级为湖泊,2级为HUC)混合模型。Shapiro–Wilk正态性检验拒绝了残差服从正态分布的零假设第页-值0.0356(1级)和小于0.0001(2级),表明不符合混合模型的高斯假设。使用放松这些假设的模型,例如-具有有界影响函数的分位数模型,因此对于这些数据似乎是合理的。

显示了各种预测因子(EBLUP、REBLUP、MQ、REBLUP–BC和MQ–BC)的中位数相对偏差和中位数RRMSE,以及表4报告了这些预测值最小均方误差相应估计值的中位数相对偏差和中位数RRMSE。稳健预测估计器MQ–BC和REBLUP–BC在偏差和RRMSE方面都表现良好,而EBLUP和MQ的RRMSE最高,MQ也记录了最大的负偏差。REBLUP在RRMSE方面表现良好,但记录了较大的负偏差。这些结果表明,预测估计器在偏差和MSE方面为该人群提供了最平衡的性能。

表3

基于设计的仿真中点估计量的相对偏差和RRMSE的中值

估算员相对RRMSE公司
偏差(%)(%)
EBLUP公司10.7935.18
REBLUP公司−13.0830.59
MQ公司−22.9835.07
翻新——不列颠哥伦比亚省−4.1331.94
MQ–不列颠哥伦比亚省−6.1731.57
估算员相对RRMSE公司
偏差(%)(%)
EBLUP公司10.7935.18
REBLUP公司−13.0830.59
MQ公司−22.9835.07
重组–BC−4.1331.94
MQ–不列颠哥伦比亚省−6.1731.57

所有值均表示为百分比,中位数位于感兴趣的区域。

表3

基于设计的仿真中点估计量的相对偏差和RRMSE的中值

估算员相对RRMSE公司
偏差(%)(%)
EBLUP公司10.7935.18
REBLUP公司−13.0830.59
MQ公司−22.9835.07
翻新——不列颠哥伦比亚省−4.1331.94
MQ–不列颠哥伦比亚省−6.1731.57
估算员相对RRMSE公司
偏差(%)(%)
电子束10.7935.18
REBLUP公司−13.0830.59
MQ公司−22.9835.07
翻新——不列颠哥伦比亚省−4.1331.94
MQ–不列颠哥伦比亚省−6.1731.57

所有值均表示为百分比,中位数位于感兴趣的区域。

表4

RMSE估计器在基于设计的仿真中的性能:相对偏差百分比和RRMSE的中值

以下MSE估计值的结果(%):
公共关系CCT公司CCST公司启动
相对偏差中值
EBLUP公司6.371.793.23
REBLUP公司−23.063.5932.12
MQ公司−31.59−24.48
重组–BC−14.5830.48
MQ–不列颠哥伦比亚省−6.40−11.01
RRMSE中值
EBLUP公司30.6130.6728.86
REBLUP公司45.7943.7261.95
MQ公司62.1955.88
翻新——不列颠哥伦比亚省39.7839.4739.81
MQ–不列颠哥伦比亚省45.5338.38
以下MSE估计量的结果(%):
公共关系CCT公司CCST公司启动
相对偏差中值
EBLUP公司6.371.793.23
REBLUP公司−23.063.5932.12
MQ公司−31.59−24.48
翻新——不列颠哥伦比亚省−14.5830.48
MQ–不列颠哥伦比亚省−6.40−11.01
RRMSE中值
电子束30.6130.6728.86
REBLUP公司45.7943.7261.95
MQ公司62.1955.88
翻新——不列颠哥伦比亚省39.7839.4739.81
MQ–不列颠哥伦比亚省45.5338.38
表4

RMSE估计器在基于设计的仿真中的性能:相对偏差百分比和RRMSE的中值

以下MSE估计值的结果(%):
公共关系CCT公司CCST公司启动
相对偏差中值
EBLUP公司6.371.793.23
REBLUP公司−23.063.5932.12
MQ公司−31.59−24.48
翻新——不列颠哥伦比亚省−14.5830.48
MQ–不列颠哥伦比亚省−6.40−11.01
RRMSE中值
EBLUP公司30.6130.6728.86
REBLUP公司45.7943.7261.95
MQ公司62.1955.88
翻新——不列颠哥伦比亚省39.7839.4739.81
MQ–不列颠哥伦比亚省45.5338.38
以下MSE估计值的结果(%):
公共关系CCT公司CCST公司靴子
相对偏差中值
EBLUP公司6.371.793.23
REBLUP公司−23.063.5932.12
MQ公司−31.59−24.48磅
翻新——不列颠哥伦比亚省−14.5830.48
MQ–不列颠哥伦比亚省−6.40−11.01
RRMSE中值
EBLUP公司30.6130.6728.86
REBLUP公司45.7943.7261.95
MQ公司62.1955.88
翻新——不列颠哥伦比亚省39.7839.4739.81
MQ–不列颠哥伦比亚省45.5338.38

我们现在检查各种MSE估计方法的性能。首先,表4表明平均而言,对于所有具有这些数据的预测因子,跨区域估计器CCST的表现优于或与CCT相当。它还显示了Sinha和Rao的参数引导BOOT的性能(2009)取决于预测器。我们看到,BOOT在REBLUP–BC中的表现与CCST类似,但在REBLUP中表现出很大的偏差。最后,我们观察到,对于EBLUP,通过估计器PR估计MSE与通过CCT和CCST估计MSE基本上没有区别,估计器CCST更稳定。

表中的分析4重点关注各领域的平均均方根误差估计性能。这掩盖了区域之间MSE估计性能的巨大差异。每个预测值的“真实”(经验)RMSE与每个区域的估计值之间的关系如图所示。1其中,显示了每个预测值和每个MSE估计方法的RMSE比率变化的箱线图,RMSE比率定义为每个区域的平均估计RMSE与真实RMSE的比率。在这里,我们看到估计器PR和CCST对于EBLUP的表现非常相似,并且没有充分捕捉到该预测值的区域特定MSE中的区域间差异。相比之下,估计器CCT很好地跟踪了这一区域特定的经验MSE。这些结果与Longford的评论一致(2007)和钱伯斯. (2011)如果MSE的区域特定估计是一个要求,则不应该使用估计器PR。估计量CCT和CCST之间的主要区别在于,CCT本质上只假设数据的线性平均结构,而CCST和PR一样,假设样本数据遵循线性混合模型。因此,在我们的模拟中,估计器CCST在跟踪EBLUP的区域特定MSE方面的表现不如CCT,这是建议CCST不应与EBLUP这样的非稳健预测器一起使用的一些证据。关于REBLUP和REBLUP-BC的MSE估计,我们看到估计器CCST在一定程度上改进了REBLUP-,这与该估计器比EBLUP更稳健一致,并且在稳健偏差校正的REBLUP-BC中表现得非常好,而估计器CC,尽管仍然是这两个预测因子的区域特定MSE的有效“跟踪器”,但也显示出较小的向下偏差。相比之下,估计器BOOT没有跟踪REBLUP和REBLUP-BC的区域特定MSE。最后,我们注意到估计器CCT和CCST对于MQ和MQ-BC的行为非常相似。两者都能很好地跟踪这些预测因子的区域特定MSE。总的来说,对于我们模拟中使用的EMAP人口数据,估计器CCST是稳健预测估计器REBLUP–BC和MQ–BC的区域特定MSE估计的首选方法。

图1

箱线图显示了基于设计的场景中MSE估计器的RMSE比率的区域特定值(RMSE比率定义为预测值的RMSE估计器在重复采样下的平均重复采样次数与该预测值的实际RMSE的比率):(a)EBLUP;(b) REBLUP;(c) REBLUB–不列颠哥伦比亚省;(d) MQ;(e) MQ–BC公司

7.最后备注

本文探讨了稳健预测方法在SAE中的推广,并提出了两种基于解析线性化的MSE估计,用于小面积均值的异常稳健预测。第一种是基于钱伯斯伪线性化方法的偏稳健MSE估计器. (2011)。第二种方法基于稳健估计方程解的方差的一阶近似。

章节中报告的实证结果56结果表明,在存在区域和个别异常值的情况下,稳健预测估计量(REBLUP–BC和MQ–BC)的偏差较小,并且比稳健预测估计值(REBLUP和MQ)更有效。从这些结果中也可以明显看出,稳健预测估值器的偏差校正以更高的可变性为代价。因此,当模型诊断表明与假设的工作小区域模型存在重大偏差时,我们预计使用这些估计值将产生效益。使用稳健预测方法时,控制偏差-方差权衡的一种方法是选择最佳调整常数c(c)ϕ以用于这些估计器。一般来说,c(c)对于ψ影响函数,并为ϕ影响函数。实际数据的应用程序表明c(c)=2或c(c)=3用于ϕ在偏差和方差之间提供了良好的平衡。“最佳”c(c)-价值可以通过交叉验证来实现,这是未来研究的一个途径。

伪线性化MSE估计器CCT和基于线性化的MSE估测器CCST为鲁棒预测估计器的MSE分析估计提供了一种很有前景的方法。正如钱伯斯已经指出的那样. (2011)估计器CCT代表一种MSE估计方法,非常适合跟踪MSE中的区域特定变化。然而,这是以不稳定加剧为代价的。虽然我们在本文中没有充分探讨这个问题,但很明显,当与稳健预测估计方法结合使用时,估计器CCST也跟踪MSE中的区域特定变异性,并且比CCT更稳定。这为CCST可能与用于MSE估计的数值密集型bootstrap方法竞争提供了可能性。然而,将此MSE估计方法与MSE估计的可选参数和半参数bootstrap方法进行更完整的比较超出了本文的范围,有待进一步研究。最后,我们注意到,虽然CCST估计器是在线性混合模型的条件版本下开发的,但应该可以开发出CCST的无条件版本,该版本在线性混合模式下平均随机区域效应的分布,从而在EBLUP的情况下降低到广泛使用的MSE估计器PR。这为进一步研究提供了另一条途径。

致谢

这项工作得到了“贫困和生活条件评估的小区域方法”项目(SSH-CT-2007-217565;FP7-SSH-2007-1)和澳大利亚研究委员会联系拨款LP0776810的部分支持。作者感谢时空水生资源建模和分析项目提供了这些数据。他们还感谢副主编和两位审稿人的积极评论,这些评论大大改善了论文的发展。

工具书类

巴蒂斯
,
G.公司。
,
哈特
,
R。
富勒
,
西。
(
1988
)
利用调查和卫星数据预测县域作物面积的误差分量模型
.
《美国统计杂志》。助理。
,
83
,
28
36
.

展位
,
J·G·。
霍伯特
,
J.P.公司。
(
1998
)
广义线性混合模型中预测的标准误差
.
《美国统计杂志》。助理。
,
93
,
262
272
.

钱伯斯
,
共和国。
(
1986
)
异常稳健有限总体估计
.
《美国统计杂志》。助理。
,
81
,
1063
1069
.

钱伯斯
,
R。
,
钱德拉
,
H。
扎维迪斯
,
N。
(
2011
)
伪线性小面积估计的抗偏均方误差估计
.
Surv公司。Methodol公司。
,
37
,
153
170
.

钱伯斯
,
R。
克拉克
,
R。
(
2012
)
基于模型的调查抽样及其应用
.
牛津
:
牛津大学出版社
.

钱伯斯
,
共和国。
,
多尔夫曼
,
A.H.公司。
国防军
,
T.E.公司。
(
1993
)
基于非参数校准的有限总体偏差稳健估计
.
《美国统计杂志》。助理。
,
88
,
268
277
.

钱伯斯
,
R。
扎维迪斯
,
N。
(
2006
)
小面积估计的M分位数模型
.
生物计量学
,
93
,
255
268
.

钱德拉
,
H。
钱伯斯
,
R。
(
2009
)
小面积估计的多用途加权
.
J.关统计。
,
25
,
379
395
.

钱德拉
,
H。
,
萨尔瓦蒂
,
N。
钱伯斯
,
R。
(
2007
)
空间相关人群的小面积估计——基于直接和间接模型的方法的比较
.
统计师。传神
,
8
,
887
906
.

费尔纳
,
W.H.公司。
(
1986
)
方差分量的稳健估计
.
技术计量学
,
28
,
51
60
.

阿尔维尔
,
D.A.博士。
杰斯克
,
D.R.公司。
(
1992
)
一般线性模型下估计或预测的均方误差
.
《美国统计杂志》。助理。
,
87
,
724
731
.

朗福德
,
新墨西哥州。
(
2007
)
基于模型的小面积估计的标准误差
.
Surv公司。Methodol公司。
,
33
,
69
79
.

普拉萨德
,
N.G.N.公司。
,
J.N.K。
(
1990
)
小面积估计器均方误差的估计
.
《美国统计杂志》。助理。
,
85
,
163
171
.

,
J.N.K。
(
2003
)
小面积估算
.
纽约
:
威利
.

理查德森
,
上午。
威尔士语
,
A.H.公司。
(
1995
)
混合线性模型中的鲁棒限制最大似然
.
生物计量学
,
51
,
1429
1439
.

罗亚尔
,
风险管理。
坎伯兰
,
W.G.公司。
(
1978
)
有限总体抽样中的方差估计
.
《美国统计杂志》。助理。
,
73
,
351
358
.

萨尔瓦蒂
,
N。
,
钱德拉
,
H。
,
拉纳利
,
米·克。
钱伯斯
,
R。
(
2010
)
使用基于非参数模型的直接估计器进行小面积估计
.
计算统计。数据分析。
,
54
,
2159
2171
.

萨尔瓦蒂
,
N。
,
扎维迪斯
,
N。
,
普拉泰西
,
M。
钱伯斯
,
R。
(
2012
)
基于M分位数地理加权回归的小区域估计
.
测试
,
21
,
1
28
.

辛哈
,
韩国。
,
J.N.K。
(
2009
)
稳健的小面积估计
.
可以。J.统计。
,
37
,
381
399
.

街道
,
J.O.公司。
,
卡罗尔
,
R·J。
鲁珀特
,
D。
(
1988
)
关于用迭代加权最小二乘法计算稳健回归估计的注记
.
美国统计局
,
42
,
152
154
.

扎维迪斯
,
N。
,
马切蒂
,
美国。
钱伯斯
,
R。
(
2010
)
小面积平均值和分布的稳健预测
.
澳大利亚。新西兰。J.统计。
,
52
,
167
186
.

威尔士语
,
A.H.公司。
龙凯蒂
,
E.公司。
(
1998
)
包含离群值的抽样调查的偏差校准估计
.
J.R.统计。Soc.B公司
,
60
,
413
428
.

附录A

A.1、。规律性条件

第节中规定的基于线性化的MSE估计器的开发需要以下RC4.2并使用与此处相同的符号。

条件1

影响函数ψ是一个带导数的有界连续函数,除有限个点外,导数处处定义且有界。

条件2

的元素X(X)Z轴统一边界为→ ∞, 以便X(X)T型V(V)1U型V(V)1X(X)=[O(运行)()]第页×第页,Z轴T型e(电子)1Z轴=[O(运行)()]q个×q个X(X)T型V(V)1U型1/2e(电子)1/2Z轴=[O(运行)()]第页×q个一致有界,其中V(V)=e(电子)+Z轴u个Z轴T型具有U型=诊断(V(V)).

条件3

协方差矩阵u个e(电子)具有线性结构(Prasad和Rao,1990)和是已知的正定阶矩阵mq(平方米)×mq(平方米)n个×n个分别具有同样一致有界的元素→ ∞.

条件4

尺寸q个面积随机效应是一个固定的有限数啜饮1n个=λ1<.

条件5

存在常量ς>0和L(左)<∞使得,如果第页j个=U型j个1/2(j个x个j个T型β0ψ),t吨j个=(σe(电子)ψ)1/2(j个x个j个T型β0ψz(z)j个T型u个0ψ)d日=(σu个2ψ)1/2u个0ψ,然后E类u个|ψ(第页j个)|4+ς,E类u个ψ(第页j个),E类u个|ψ(t吨j个)|4+ς,E类u个ψ(t吨j个),E类u个|ψ(d日)|4+ςE类u个ψ(d日)都是以L(左).

条件6

θk个X(X)T型B类=[O(运行)(1)]第页×对于k个= 1,…,K(K),其中B类定义如下方程式(20).

条件7

的元素V(V)U型相对于方差分量是可微的θ^θ=O(运行)第页(1/2)θ(θ¯^REBLUP公司)|θ=θ*=O(运行)第页(1)什么时候θ^*θ^θ^θ.

A.2、。MQ和MQ-BC的基于线性化的均方误差估计

在下文中,我们假设每个区域有一个值q个0()这样,面积回归向量的“真”值βq个0()。在此特定区域模型下,我们还使用0到真值的下标。然后,表示-面积分位数系数通过q个(),MQ(15)的预测方差为

无功功率,无功功率{¯^MQ公司¯|q个()}=(1n个N个1)2{x个¯第页T型无功功率,无功功率0(β^q个())x个¯第页}+(1n个N个1)2无功功率,无功功率0(e(电子)¯第页).
(32)

一阶近似无功功率,无功功率0(β^q个())

无功功率,无功功率0(β^q个())=E类0(βq个()H(H)0)1无功功率,无功功率0{H(H)(βq个0())}(E类0(βq个()H(H)0)1)T型+(n个1)
(33)

具有H(H)(βq个0())=j个=1n个x个j个ψq个(第页j个0)=X(X)T型ψq个(第页0),其中ψq个是有界的-阶分位数影响函数q个,ψq个(第页0)n个-带元素的向量ψq个(第页j个0)=ψq个{ωj个01(j个x个j个T型βq个0())}ωj个0是残差规模的鲁棒估计量第页j个0=j个x个j个T型βq个0(). The无功功率,无功功率0{H(H)(β0q个)}方程组分(33)可以写为

无功功率,无功功率0{H(H)(βq个0())}=X(X)T型E类0{ψq个(第页0)ψq个T型(第页0)}X(X),

自从E类0{ψq个(第页j个0)}=0。假设Huber型影响函数,我们得到

E类0(βq个()H(H)0)=X(X)T型E类02d日d日βq个()ψq个(第页0)|βq个()=βq个0()=2X(X)T型C类X(X)

哪里C类是一个n个×n个对角矩阵j个第个对角线分量

ωj个01E类0{q个(0<第页j个0c(c))+(1q个)(c(c)<第页j个00)}.

这些表达式导致以下方程的估计(33):

V(V)^(β^q个())=(n个第页)1{j个ψq个2(第页^j个q个())}{n个1j个ψq个(第页^j个q个())}2(X(X)T型X(X))1
(34)

哪里第页^j个q个()=ω^j个q个()1(j个x个j个T型β^q个()).何时q个()=0.5,估计器(34)是Street提出的估计器. (1988).

一阶近似(32)的估计量是

V(V)^(¯^MQ公司)=(1n个N个1)2x个¯第页T型V(V)^(β^q个¯)x个¯第页+(1n个N个1)2V(V)^(e(电子)¯第页)
(35)

哪里

V(V)^(e(电子)¯第页)=(N个n个)1(n个1)1小时j个小时(j个x个j个T型β^q个¯小时)2.

MQ的面积特定偏差的相应估计值为

B类^(¯^MQ公司)=N个1(k个j个k个w个j个x个j个T型β^q个¯k个j个x个j个T型β^q个¯)
(36)

哪里w个j个=b条j个+N个n个1(j个)

b条=(b条j个)=W公司(q个¯)X(X)(X(X)T型W公司(q个¯)X(X))1(N个n个)(x个¯第页x个¯).

MQ的MSE估计量的最终表达式就是方程的和(35)和方程的平方(36):

MSE公司(¯^MQ公司)=V(V)^(¯^MQ(百万立方米))+B类^(¯^MQ公司)2.
(37)

为了开发MQ–BC的相应MSE估计器,我们首先注意到其预测误差为

¯^MQ公司不列颠哥伦比亚省¯=N个1j个第页x个j个T型β^q个¯N个1j个第页j个+N个n个N个n个j个ωj个ψϕj个x个j个T型β^q个¯ωj个ψ

其中,该误差中最右边的(偏差修正)项可以近似为

1n个j个ωj个ψϕ(j个x个j个T型β^q个¯ωj个ψ)1n个j个S公司ωj个ψϕ(j个x个j个T型βq个0()ωj个ψ)+(β^q个¯βq个0())T型βq个0()^{1n个j个ωj个ψϕ(x个T型βq个0()ωj个ψ)}.

在以下条件下ϕ很大,所以ϕ1,我们得到了相应的近似值

¯^MQ公司不列颠哥伦比亚省¯=N个1j个第页x个j个T型β^q个¯N个1j个第页j个+N个n个N个n个j个ωj个ψϕj个x个j个T型β^q个0()ωj个ψ.
(38)

近似值(38)右侧第一项和第三项之间的协方差将低于它们的方差,因此MQ–BC的预测方差的一阶近似值为

无功功率,无功功率0(¯^MQ(百万立方米)不列颠哥伦比亚省¯)=(1n个N个1)2[(x个¯第页x个¯)T型无功功率,无功功率(β^q个¯)(x个¯第页x个¯)+无功功率,无功功率(e(电子)¯第页)+1n个2j个E类ωj个ψϕj个x个j个T型βq个0()ωj个ψ2].

因此,MQ–BC的MSE的一阶近似的相应估计量为

MSE公司(¯^MQ公司不列颠哥伦比亚省)=(1n个N个1)2[(x个¯第页x个¯)T型V(V)^(β^q个¯)(x个¯第页x个¯)+V(V)^(e(电子)¯第页)+1n个2j个ωj个ψϕj个x个j个T型β^q个¯ωj个ψ2].
(39)

注意,与等式不同(37),方程中没有平方偏差项(39),因为该偏差(近似)由MQ–BC的偏差修正项修正。还要注意,这两个方程都不是(37)nor方程(39)允许与“参数错误”相关的可变性q个¯q个0()因此可能低估了特定地区模型下MQ和MQ–BC的MSE。

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)