总结
当从与其他调查数据具有不同平均值的分布中提取离群值时,最近提出的离群值稳健小面积估计量可能会有很大偏差。这自然会导致人们考虑对这些估值器进行异常值稳健偏差校正。我们发展了这一思想,提出了两种不同的分析均方误差估计量,用于随后的偏差校正异常值稳健估计量。基于实际离群值数据的仿真结果表明,所提出的偏差校正通常会导致更有效的估计。此外,所提出的均方误差估计方法在各种异常值稳健小面积估计量下表现良好。
1.简介
离群值是任何调查的现实,因此,设计了多种方法来减轻离群值对调查估计的影响。其中一些方法,例如由经验丰富的数据专家在调查处理过程中识别和删除异常数据值,可以有效地确保得出的调查估计不受这些值的影响。然而,由于有点主观,这些方法不适合科学评估。因此,有许多客观的调查估计方法,它们使用统计规则来确定一个观测值是否是潜在的异常值,如果是这样的话,可以降低其对调查估计的贡献,这种类型的异常值鲁棒估计器是基于非样本数据值都遵循假设的工作模型的假设,因此这些估计器旨在基于异常值污染的样本数据,鲁棒地估计该工作模型下研究变量的非样本和(或平均)的期望值。在实践中,这通常涉及到用估计值替换一个离群的样本值,如果它实际上是在工作模型下生成的,那么它应该是什么样的。我们指的是以下方法稳健投影由于他们将样本非离群(即工作模型)行为投射到调查人群的非抽样部分,因此在接下来的内容中。
稳健投影方法本质上模拟了前面描述的主观方法,通常会导致偏差估计值的方差低于其他情况。偏差的原因不难找到——目标人群中的所有非抽样值都不太可能与样本非离群值来自同一分布,然而这些方法正是基于这个假设。钱伯斯(1986)认识到这一困境,并提出了“代表性离群值”的概念,即样本离群值,它可能是从一组人口离群值中提取出来的,因此不能在估计中进行单位加权。他指出,在估计时,不能像处理其他更符合人口工作模型的样本数据那样,在相同的基础上处理具有代表性的离群值,因为这种离群值会严重破坏调查估计,他建议在稳健预测调查估计器中添加一个异常稳健偏差校正项,例如基于模型参数的异常稳健估计的项。威尔士语和朗切蒂语(1998)扩展了这一思想,将其更广泛地应用于在存在代表性离群值的情况下估计调查变量的有限总体分布。《钱伯斯》中描述的方法也隐含着类似的想法等. (1993),其中建议进行非参数偏差修正。在下文中,我们将允许代表性样本异常值贡献的方法称为稳健预测因为他们试图预测人口异常值对感兴趣人口数量的贡献。
如果离群值是人口数量估算的一个关注点,那么可以肯定的是,离群值在小面积估算(SAE)中更为重要,因为小面积估算的样本量要小得多,而模型依赖性估算是标准的。很容易看出,一个使基于大调查样本的人口估计不稳定的异常值几乎肯定会破坏该异常值来源的小区域的相应直接估计的有效性,因为该估计将基于一个小得多的样本。当小面积估计器是间接估计器时,这个问题并没有消失,例如经验最佳线性无偏预测器(EBLUP),因为支持这个估计器的权重仍然最重视小面积感兴趣的数据,而支撑估计器的模型参数估计值本身将被样本异常值破坏。因此,我们有兴趣了解野值稳健调查估计如何适应这种情况。
钱伯斯和扎维迪斯(2006)使用基于拟合异常稳健的方法,明确解决了SAE中异常稳健的问题米-分位数模型到调查数据。最近,辛哈和饶(2009)还从线性混合模型的角度解决了这个问题。然而,这两种方法都使用插件稳健预测,即用异常稳健版本(稳健预测方法)替换最优但异常敏感预测中的参数估计。不幸的是,尽管这种方法通常导致较低的预测方差,但在异常值来自与其他调查数据具有不同平均值的分布的情况下,它可能会涉及不可接受的预测偏差。
在讨论了剖面中小面积的稳健投影估计之后2,我们在第节中探讨了稳健预测方法对SAE情况的扩展三在节中4我们提出了两种不同的分析均方误差(MSE)估计,用于小面积均值的异常稳健预测。特别是,第一个建议是基于Chambers中描述的偏差稳健MSE估计方法等. (2011)代表了罗亚尔和坎伯兰思想的延伸(1978)。第二个MSE估计基于对野值稳健估计方程解的方差的一阶近似。我们展示了这两种方法如何可用于估计本文中考虑的各种小面积预测因子的MSE。在节中5和6我们使用基于实际离群值包含数据场景的基于模型的仿真以及基于设计的仿真来评估这两种不同方法在点估计性能以及MSE估计性能方面的比较。章节7最后,对本文进行了总结,并讨论了针对异常值鲁棒小区域推理的未来研究。
2.小面积稳健投影估计
在下文中,我们假设单位记录数据在小区域级别可用。对于人口中的抽样单位,这包括小区域归属指标、值感兴趣的变量,值的第页个体水平协变量和值的×1向量区域级协变量向量的。对于非抽样人口单位,我们不知道然而,假设所有区域都被采样,并且我们知道每个小区域中这样的单元的数量以及相应的小区域平均值和。我们还假设和采样对于小面积分布的鉴于,允许我们使用样本数据的人口水平模型。
巴蒂斯等. (1988)介绍了SAE的线性混合模型的使用,以及小范围关注的随机效应。参见Rao(2003)对基于这些模型的SAE进行全面审查。钱伯斯和克拉克是一篇更为近期、更为紧凑的综述(2012),第15章。让年,X(X)和Z轴表示由定义的人口水平向量和矩阵,和分别是。然后
(1)
哪里是维度向量mq(平方米)由米独立变现的q个-维随机面积效应和是的向量N个个体特定随机效应。还假设u个独立于e(电子).在这里米是构成人口的小区域总数q个是的尺寸以便Z轴是一个N个×mq(平方米)固定已知常数的矩阵。我们假设协方差矩阵和是根据一组较低维度的参数定义的,通常称为模型(1)的方差分量,而向量β通常称为其固定效应参数。
让表示模型(1)中固定效应参数的估计,并让表示模型(1)中随机面积效应预测值的向量。该地区的EBLUP我平均值那么在模型(1)下
(2)
我们使用指数的地方秒和第页分别表示样品数量和非样品数量。因此,是的样本值来自区域我和和表示的平均值向量和分别用于同一区域中的非采样单元。
从稳健投影的观点来看,通过替换,可以使预测器(2)对样本异常值不敏感和通过异常稳健的替代方案。为了激励这种方法,我们首先假设方差分量θ已知,所以协方差矩阵和在模型(1)中是已知的。放置哪里表示的样本组件然后是固定效应参数的最佳线性无偏估计β以及随机效应向量的最佳线性无偏预测(BLUP)u个是解决方案
(3)
和
(4)
求解方程的简单方法(3)和(4)因此,对样本异常值的鲁棒性是将其替换为
(5)
和
(6)
在这里ψ是有界影响函数ψ(一)表示通过应用ψ到的每个组件一观察有界影响函数分别应用于模型残差和方程中的预测面积效应(5)和(6),使这些估计方程的解对单个以及区域异常值具有鲁棒性。不幸的是,自不是对角矩阵,方程的解(6)可能在数值上不稳定。因此Fellner提出了一种替代方法(1986)他指出,任何方程的解(3)和(4)也是解决
和
费尔纳(1986)建议将这些替代估计方程(及其解)替换为
(7)
和
(8)
自方程(7)和(8)假设方差分量θ已知,除非也可以定义这些参数的异常稳健估计,否则它们的有用性在一定程度上是有限的。理查森和威尔士(1995)对最大似然估计方程提出了两个异常值鲁棒变化θ其中之一(他们的“ML提案二”)导致了方差分量的估算方程属于θ表单的
(9)
哪里表示的一阶偏导数关于方差分量和,用于Z轴∼N个(0, 1),理查德森和威尔士(1995)还提出了鲁棒的限制最大似然型方程θ但不像等式(9)这些都不是限制最大似然估计方程的稳健推广。
辛哈和饶(2009)描述了一种异常值稳健估计方法β和u个在以这些结果为基础的模型(1)中,用近似解替换这两个方程(5)和方程式(9)Fellner估计方程(8)获得面积效应的异常稳健预测值u个特别是,他们的方法取代了等式(5)通过
(10)
哪里,并替换方程式(9)通过
(11)
因为方程的解(10)和(11)取决于影响函数ψ,我们用上标表示ψ如下所示。辛哈和饶(2009)方程的鲁棒投影替代(2)就是那个时候
(12)
注意,预测器(12)估计面积我模型(1)下的平均值。一个小的修改将此限制为区域内未取样装置的平均值我,在这种情况下,方程式(12)成为
(13)
从现在起,我们将预测器(13)称为鲁棒EBLUP(REBLUP)。
异常稳健SAE的另一种方法是米-钱伯斯和扎维迪斯描述的基于分位数回归的方法(2006)。这是基于米-分位数回归年在X(X),即。
(14)
哪里表示米-阶分位数q个的条件分布年鉴于X(X).估算属于可以计算任何值q个在区间(0,1)中,对于样本中的每个单位,我们定义其唯一性米-此拟合模型下的分位数系数作为值这样的话,这些系数在面积中的样本平均值我记为. The米-平均值的分位数估计MQ在区域内我就是那个时候
(15)
请注意,回归米-分位数模型(14)取决于影响函数ψMQ也是如此。当此函数有界时,样本异常值对,即估计器(15)对应于假设区域中的所有非样本单元我遵循工作模型(14)在我们可以写作的意义上适用于所有此类装置。
3.小面积稳健预测估计
稳健投影方法的一个问题是,它假设所有非采样单元都遵循工作模型,或者,从本质上来说,与该模型的任何偏差都是噪声,因此“平均”抵消。因此,在线性混合模型(1)下,我们可以看到,如果非采样单元的个别误差对称分布在零左右,则Sinha和Rao建议的REBLUP(13)(2009)由于它基于一个隐含的假设,即这些误差在区域内非采样单元上的平均值我收敛到0。这个米-钱伯斯和扎维迪斯的分位数估计量MQ(15)(2006)没有什么不同,因为它假设错误从该地区我-特定的米-分位数回归模型是“噪声”,因此也平均抵消了。这并不意味着这些非抽样单位不是离群值。只是我们对其模型误差的相应小面积平均值的最佳预测是0。
威尔士语和朗切蒂语(1998)在人口水平调查估计的背景下,考虑了异常值稳健预测问题。从一个工作线性模型开始,将和,以及包含代表性异常值的样本数据,他们扩展了钱伯斯的方法(1986)对人口值的经验分布函数进行稳健预测他们的论点立即适用于对该地区经验分布函数的稳健预测我的值并导致形式的预测
(16)
在这里表示米-基于有界影响函数的线性工作模型回归参数估计ψ,是残差规模的稳健估计在区域内我和ϕ表示满足以下条件的有界影响函数|ϕ|⩾|ψ|. 扎维迪斯等. (2010)注意到面积的稳健估计我平均值与方程式一致(16)只是它定义的期望值函数,即
(17)
扎维迪斯等. (2010)因此建议将米-通过替换分位数估计器(15)在方程式中(17)通过,这导致估计量(15)的偏差修正版本MQ–BC,由下式给出
(18)
在这里是残差规模的稳健估计在区域内我.
两个影响函数的使用ψ和ϕ在方程式中(18)值得评论。第一,ψ、鞋垫,因此其目的是确保样本异常值对工作拟合的影响很小或没有影响米-分位数模型。因此,它是有界的,因此降低了这些异常值的权重。第二,ϕ,仍然有界,但“限制性”低于ψ(自|ϕ|⩾|ψ|),其目的是定义对因方程式右侧的前两项导致的偏差的调整(18)将样本异常值视为自我呈现。类似的参数可用于修改REBLUP(13)。特别是,该估计器的稳健预测版本REBLUP–BC模拟了等式中使用的偏差校正思想(18)并导致
(19)
其中现在是对该地区规模的可靠估计我残余沉积物.
4.稳健预测的均方误差估计
在本节中,我们提出了两种不同的MSE估计分析方法,分别用于稳健预测和稳健预测方法下的小面积均值稳健预测。这两种方法都是在假设面积效应实现值的推理条件工作模型的基础上发展的,因此所提出的MSE估计量是条件估计量。在节中4.1我们采用了钱伯斯提出的想法等. (2011)定义REBLUP(13)条件MSE的伪线性化估计量。REBLUP–BC(19)、MQ(15)和MQ–BC(18)的类似条件MSE估计量直接跟随。在节中4.2我们使用估计方程解的方差的一阶近似来开发REBLUP(13)和REBLUP-BC(19)的条件MSE估计。基于此方法的MQ(15)和MQ–BC(18)的类似MSE估计量如所述附录A.
4.1. 鲁棒小面积预报器均方误差估计的伪线性化方法
辛哈和饶(2009)提出了一种基于参数自举的REBLUP最小均方误差估计方法。在这里,我们描述了REBLUP的条件MSE的分析估计量,它的计算要求较少。提出的估计器基于钱伯斯描述的MSE估计的伪线性化方法等. (2011),可用于表示为样本值加权和的预测值。由于REBLUP可以用伪线性形式表示,即作为以下样本值的加权和年,这种方法立即适用。首先,我们注意到在模型(1)下,假设方差分量已知可以表示为
(20)
哪里
在这里
此外,是n个-向量j个当相应的样本单位位于区域内时,第个分量等于1我否则为0。REBLUP(13)可以用完全相同的方式表示,除了权重向量中的所有量依赖于(未知)方差分量的现在需要一个扬抑符,在这种情况下,我们将其表示为给出了REBLUP的伪线性表示,假设模型(1)的条件版本,即随机效应被视为固定但未知的量,则发展了其MSE的简单一阶近似。让我(j个∈我)表示单位是否j个在区域中我REBLUP的条件MSE的估计量是
(21)
哪里
是方程条件预测方差的估计(13),使用和
是对其条件预测偏差的估计。计算方程式(21)我们需要定义和.在这里是条件期望值的无偏线性估计量和是缩放常数。由于众所周知的收缩效应与BLUP有关由的EBLUP模型(1)下可能导致条件预测方差的有偏估计。钱伯斯等. (2011)因此建议计算为的EBLUP的“unshunken”版本。另请参阅Salvati等. (2012)。注意,MSE估计量(21)忽略了与方差分量估计相关的额外变异性,因此是REBLUP实际条件MSE的一阶近似值。
REBLUP–BC(19)的MSE估计量是通过使用上述相同的伪线性化方法获得的。唯一的区别是重量方程式中使用的(21)现在由相应的REBLUP–BC重量代替。此外,由于REBLUP–BC是小面积平均值的近似无偏估计量,因此方程中的平方偏差项(21)省略。
经验证明,这种MSE方法对于实际小面积应用(如钱德拉和钱伯斯)具有良好的重复采样特性(2009)钱伯斯和扎维迪斯(2006)、钱德拉等. (2007),扎维迪斯等. (2010)和Salvati等. (2010)。尽管经验结果(见钱伯斯等(2011))显示方程式(21)在偏差方面表现良好,这种改进的偏差性能是以增加MSE为代价的,主要是由于在这种情况下平方偏差项的可变性。特别是,当特定区域的样本量非常小时,使用公式(21)可能导致MSE估计值较高。
4.2. 基于线性化的小面积预报器均方误差估计
在下文中,我们基于布斯和霍伯特提出的线性化思想(1998)提出一种新的小面积估计量MSE估计量,该估计量由一组稳健估计方程的解定义。MSE显示为预测方差、平方偏差项和校正项的总和,用于解释参数估计的采样可变性。我们的理论发展基于与假设相对应的近似值,所以,作为米→∞,预测方差和平方偏差为O(运行)(1) 修正项为.我们还做了一个标准假设,即对感兴趣的小面积估计量进行线性近似的MSE的一致估计可以用作其MSE估计量。如Harville和Jeske所述(1992),这样的方法通常不会一致,并且得出的MSE估计值可能会有偏差。在小样本问题中,这通常不是问题。然而,在下文中需要记住这一点。
我们通过将其应用于REBLUP(13)和REBLUP-BC(19)的条件MSE估计来说明该方法。EBLUP(2)的相应MSE估计器可以作为REBLUP(13)的MSE估计器的特殊情况来获得。为了简洁起见,开发中省略了一些技术细节,但作者可以根据要求提供这些细节。请注意,当与基于混合模型的估计器一起使用时,所提出的MSE估计器提供了条件MSE的二阶近似值,因为它包括一个项,表示方差分量估计对变异性的贡献。在整个过程中,我们假设使用带有调谐常数的Huber建议2影响函数c(c)。我们还假设了中规定的正则性条件(RCs)1-7附录A.
在模型(1)下可以表示为
(22)
哪里具有相应的“true”值.在这里
和下标u个用于表示以面积效应实现值为条件的力矩。估算方程式(22)我们需要估计.根据方程式(7)和方程式(9)我们看到了哪里
我们计算一个估计方程解的渐近方差,以获得并推广到RBLUP的条件预测方差。给定RC 1和2,并遵循与Booth和Hobert中相同的论点(1998),导致一级近似
经过一些简化后,这个近似值建议了:
哪里
具有
和
在这里R(右)是一个n个×n个对角矩阵j个第th个对角线元素等于1,如果,否则为0,T型是维度的对角矩阵n个×n个具有j个第个对角线元素等于1,如果,否则为0,以及天是一个米×米对角矩阵我第个对角线元素等于1,如果,否则为0。根据方程式(22)RBLUP条件预测方差的估计量可以写成
(23)
哪里
最后,我们将平方条件偏差的估计量添加到方程中(23),导致对形式的RBLUP的MSE进行估计
(24)
哪里是以下等式定义的条件偏差的估计量(21).
REBLUP(13)的MSE的相应估计量是通过在方程中添加一个额外的项来获得的(24)解释因方差分量估计而增加的变异性。让用估计器表示方差分量的向量我们的发展与普拉萨德和拉奥的发展相似(1990)因为它是基于分解
(25)
作者提供了证明上述交叉乘积项为低阶的详细信息。方程右侧第二项的近似(25)可通过使用Taylor级数方法根据中规定的RCs 1-7获得附录A。为了得到这个近似值,我们首先注意到,使用RC 7,我们可以写
接下来,使用身份
事实上关于θ是低阶的,我们可以写
最后,使用RCs 2-6并注意我们获得
哪里
因此,方程式(25)可以近似为
(26)
哪里
和
方差分量的方差-协方差矩阵的估计可以使用Sinha和Rao的结果进行计算(2009)。然后通过替换来获得REBLUP的条件MSE的估计器和通过在方程式中(26)并导致
(27)
通过设置方程中影响函数的调谐常数,可以很容易地计算出EBLUP条件MSE的相应估计(27)这样就不会发生异常值修改,例如设置c(c)>100.
我们采用类似的方法来定义REBLUP–BC的条件MSE估计量。首先,当方差分量已知时,即对于RBLUP–BC,我们得出了该预测因子的条件预测方差的近似值。在这种情况下,预测误差为
此表达式右侧大括号内的第二个(偏差校正)项可以使用泰勒级数近似展开。当调谐常数用于ϕ很大,所以,此近似值变为
用前面的表达式替换RBLUP–BC的预测误差会导致
(28)
哪里
和
在RCs 1-5下是和之间的协方差和其数量级低于它们的任何一个方差,因此从方程(28)我们可以写下RBLUP–BC的条件方差的估计量,形式如下
(29)
哪里
和
然后通过在方程中添加一个项来获得REBLUP–BC的条件MSE的估计值(29)解释因方差分量估计而产生的额外不确定性。可以采用与REBLUP相同的方法,从而得出近似值
(30)
哪里
请注意什么时候ϕ是恒等函数,例如《钱伯斯》中描述的偏差修正版本等. (1993),并且该模型仅包含随机截取。然后通过替换定义REBLUP–BC的MSE估计值和通过在方程式中(29)和(30),给予
(31)
与基于伪线性化方法的REBLUP–BC条件MSE估计量一样,无平方条件偏差估计量与方程一起使用(31)因为REBLUP–BC预测值对于小面积平均值几乎是无偏的。然而,与方程不同(27),REBLUP的MSE–BC有一个额外的学期这是由于REBLUP–BC中的条件偏差修正引起的(19)。注意,术语在方程式中(31)等于在方程式中(27)也就是说,他们都估计了由于方差分量的估计而导致的变异性增加。MQ(15)和MQ–BC(18)的条件MSE的估计值可以类似地获得,这一发展在附录A.
5.基于模型的仿真
我们提供了基于模型的仿真结果,说明了第节中描述的各种异常值鲁棒小面积预测器和相应的MSE估计器的性能三和4。人口数据是为米=40个小区域,通过简单随机抽样选择样本,每个区域内无需更换。所有地区的人口和样本数量都是相同的,并且固定在和或和。的值x个从对数正态分布中独立、一致地生成,平均值为1.0,标准偏差为0.5。的值Y(Y)生成为其中,随机区域和个体效应根据四种场景独立生成:
- (a)
[0,0]-无异常值,u个∼N个(0,3)和ɛ∼N个(0, 6);
- (b)
[e(电子),0]-仅单个异常值,u个∼N个(0,3)和ɛ∼δN个(0, 6)+(1 −δ)N个(20、150),其中δ是一个独立生成的Bernoulli随机变量,带有≺(δ=1)=0.97,即个体效应是从两个正态分布的混合中独立提取的,平均97%来自“表现良好”N个(0,6)分布和从异常值中提取的平均3%N个(20,150)分布;
- (c)
[0,u个]-仅区域异常值,u个∼N个(0,3)适用于区域1–36,u个∼N个(9,20)用于37–40区域和ɛ∼N个(0,6),即区域1-36的随机效应来自“表现良好”N个(0,3)分布,区域37–40的分布来自异常值N个(9,20)分布(个体效应不受离群值污染);
- (d)
[e(电子),u个]-区域和个体效应中的异常值,u个∼N个(0,3)对于区域1-36,u个∼N个(9,20)用于37–40区域和ɛ∼δN个(0, 6)+(1 −δ)N个(20, 150).
每个场景单独模拟500次。对于每个模拟,根据基本场景生成人口值,在每个区域选择一个样本,然后使用样本数据计算每个实际面积平均值的估计值年.
为此,使用了五种不同的估计值——标准EBLUP(参见等式(2)),用作参考,投射米-分位数估计器MQ(见等式(15)),稳健的偏差修正预测米-分位数估计器MQ–BC(见等式(17)),Sinha和Rao的鲁棒投影REBLUP估计量(2009)(见方程式(13))及其稳健的偏差修正版本REBLUP–BC(见等式(19))。在所有情况下,“投影”影响函数ψ是带有调谐常数的Huber建议2型c(c)= 1.345. 相比之下,“预测性”、限制性较小的影响功能ϕMQ–BC和REBLUP–BC中使用的也是Huber建议2类型,但具有较大的调整常数,c(c)= 3.
这些估计器在各种模拟中的性能是通过计算其特定区域的相对偏差和相对均方根误差(RRMSE)的中值来评估的,其中估计器的相对偏差实际平均值面积的我是误差模拟的平均值除以相应的平均值,其RRMSE是这些误差平方模拟的平均值的平方根,再次除以.表1给出了各种模拟场景和估计器的这些中值。
预测值. | 以下场景和区域的结果(%):. |
---|
[0,0], 1–40. | [e,0],1–40. | [0,u],1–36. | [0,u],37–40. | [e,u],1-36. | [e,u],37–40. |
---|
相对偏差中值 |
EBLUP公司 | 0.02 | −0.02 | 0.10 | −0.54 | 0.17 | −1.59 |
REBLUP公司 | 0.03 | −0.39 | 0.11 | −0.47 | −0.30 | −1.00 |
MQ公司 | 0.02 | −0.43 | 0.09 | −0.94 | −0.32 | −0.99 |
翻新——不列颠哥伦比亚省 | 0.02 | −0.29 | 0.03 | 0.02 | −0.28 | −0.32 |
MQ–不列颠哥伦比亚省 | 0.02 | −0.28 | 0.03 | −0.07 | −0.26 | −0.30 |
RRMSE中值 |
EBLUP公司 | 0.81 | 1.22 | 0.85 | 0.97 | 1.37 | 2.39 |
REBLUP公司 | 0.82 | 1.01 | 0.84 | 1.02 | 0.99 | 1.44 |
MQ公司 | 0.82 | 1.03 | 0.83 | 1.46 | 1.01 | 1.57 |
重组–BC | 0.91 | 1.23 | 0.92 | 0.86 | 1.24 | 1.27 |
MQ–不列颠哥伦比亚省 | 0.91 | 1.24 | 0.92 | 0.93 | 1.26 | 1.49 |
预测值. | 以下场景和区域的结果(%):. |
---|
[0,0], 1–40. | [e,0],1–40. | [0,u],1-36. | [0,u],37–40. | [e,u],1-36. | [e,u],37–40. |
---|
相对偏差中值 |
EBLUP公司 | 0.02 | −0.02 | 0.10 | −0.54 | 0.17 | −1.59 |
REBLUP公司 | 0.03 | −0.39 | 0.11 | −0.47 | −0.30 | −1.00 |
MQ公司 | 0.02 | −0.43 | 0.09 | −0.94 | −0.32 | −0.99 |
翻新——不列颠哥伦比亚省 | 0.02 | −0.29 | 0.03 | 0.02 | −0.28 | −0.32 |
MQ–不列颠哥伦比亚省 | 0.02 | −0.28 | 0.03 | −0.07 | −0.26 | −0.30 |
RRMSE中值 |
EBLUP公司 | 0.81 | 1.22 | 0.85 | 0.97 | 1.37 | 2.39 |
再发光 | 0.82 | 1.01 | 0.84 | 1.02 | 0.99 | 1.44 |
MQ公司 | 0.82 | 1.03 | 0.83 | 1.46 | 1.01 | 1.57 |
翻新——不列颠哥伦比亚省 | 0.91 | 1.23 | 0.92 | 0.86 | 1.24 | 1.27 |
MQ–不列颠哥伦比亚省 | 0.91 | 1.24 | 0.92 | 0.93 | 1.26 | 1.49 |
预测值. | 以下场景和区域的结果(%):. |
---|
[0,0], 1–40. | [e,0],1–40. | [0,u],1–36. | [0,u],37–40. | [e,u],1-36. | [e,u],37–40. |
---|
相对偏差中值 |
EBLUP公司 | 0.02 | −0.02 | 0.10 | −0.54 | 0.17 | −1.59 |
REBLUP公司 | 0.03 | −0.39 | 0.11 | −0.47 | −0.30 | −1.00 |
MQ公司 | 0.02 | −0.43 | 0.09 | −0.94 | −0.32 | −0.99 |
翻新——不列颠哥伦比亚省 | 0.02 | −0.29 | 0.03 | 0.02 | −0.28 | −0.32 |
MQ–BC公司 | 0.02 | −0.28 | 0.03 | −0.07 | −0.26 | −0.30 |
RRMSE中值 |
EBLUP公司 | 0.81 | 1.22 | 0.85 | 0.97 | 1.37 | 2.39 |
REBLUP公司 | 0.82 | 1.01 | 0.84 | 1.02 | 0.99 | 1.44 |
MQ公司 | 0.82 | 1.03 | 0.83 | 1.46 | 1.01 | 1.57 |
翻新——不列颠哥伦比亚省 | 0.91 | 1.23 | 0.92 | 0.86 | 1.24 | 1.27 |
MQ–不列颠哥伦比亚省 | 0.91 | 1.24 | 0.92 | 0.93 | 1.26 | 1.49 |
预测值. | 以下场景和区域的结果(%):. |
---|
[0,0], 1–40. | [e,0],1–40. | [0,u],1–36. | [0,u],37–40. | [e,u],1-36. | [e,u],37–40. |
---|
相对偏差中值 |
EBLUP公司 | 0.02 | −0.02 | 0.10 | −0.54 | 0.17 | −1.59 |
REBLUP公司 | 0.03 | −0.39 | 0.11 | −0.47 | −0.30 | −1.00 |
MQ公司 | 0.02 | −0.43 | 0.09 | −0.94 | −0.32 | −0.99 |
翻新——不列颠哥伦比亚省 | 0.02 | −0.29 | 0.03 | 0.02 | −0.28 | −0.32 |
MQ–BC公司 | 0.02 | −0.28 | 0.03 | −0.07 | −0.26 | −0.30 |
RRMSE中值 |
EBLUP公司 | 0.81 | 1.22 | 0.85 | 0.97 | 1.37 | 2.39 |
REBLUP公司 | 0.82 | 1.01 | 0.84 | 1.02 | 0.99 | 1.44 |
MQ公司 | 0.82 | 1.03 | 0.83 | 1.46 | 1.01 | 1.57 |
翻新——不列颠哥伦比亚省 | 0.91 | 1.23 | 0.92 | 0.86 | 1.24 | 1.27 |
MQ–不列颠哥伦比亚省 | 0.91 | 1.24 | 0.92 | 0.93 | 1.26 | 1.49 |
表中列出的相对偏差结果1确认我们对投影估计量(EBLUP、REBLUP和MQ估计量)和预测估计量(REBLUP-BC和MQ-BC)行为的期望。前者比后者更具偏向性(参见区域和个别异常值的情景),因为他们的隐含假设是,尽管异常值方差相对于非异常值可能被夸大,但异常值效应仍然具有零期望。当面积效应中存在异常值时,偏差的增加最为显著,这并不意外,因为这是面积平均值受人口数据中异常值影响最大的时候。关于RRMSE结果的中位数,我们可以看到文献中的声明(例如Chambers和Tzavidis(2006))MQ与EBLUP相比具有更高的异常值稳健性,这一点肯定是正确的,前提是异常值具有个别影响。如果区域效应中存在异常值,那么MQ与EBLUP相比似乎没有提供额外的保护,实际上性能更差,主要是因为它在这种情况下的偏差急剧增加。类似地,当我们比较EBLUP和REBLUP时,我们发现,如果异常值与个体效应相关,那么REBLUP提供了比EBLUP更好的RRMSE性能。然而,当异常值与面积效应相关时,这两个估计值之间的差距会大大缩小。相比之下,就RRMSE性能而言,这两个预测估计器似乎相对稳健。然而,由于偏差修正导致变异性增加,当异常值与个别效应相关时,两种预测估计器都不如投影估计器有效,但当面积效应中存在异常值时,两者都不会失败。最后,在使用预测估计器提供收益的情况下,REBLUP–BC估计器的性能似乎优于MQ–BC估测器。
我们现在检查各种MSE估计器的性能。我们主要对预测估计量REBLUP–BC和MQ–BC的MSE估计量的性能感兴趣。然而,当用于估计一系列场景下投影估计量的MSE时,我们也对MSE估计量的性能进行了评论。REBLUP和REBLUP-BC的MSE估计是通过伪线性化MSE估计量(21)(估计量CCT)和基于线性化的MSE估计器(27)和(31)(估计器CCST)实现的。对于MQ和MQ–BC,MSE估计值(37)和(39)-参见附录A有关详细信息,请参阅钱伯斯(Chambers)等. (2011)详细信息)。对于REBLUP和REBLUP-BC,我们研究了Sinha和Rao的参数引导程序(2009)估计器BOOT,我们通过在每次蒙特卡罗运行中生成100个引导样本来实现它(使用更多的引导样本不会在很大程度上改变我们的结果)。最后,通过Prasad和Rao估算了EBLUP的MSE(1990)估计器PR,以及通过估计器CCT和CCST。每个场景和每个估计器的MSE估计器的结果如表所示2其中,我们报告了其区域特定相对偏差的中值及其RRMSE。
预测值. | MSE估计器. | 以下场景和区域的结果(%):. |
---|
[0,0], 1–40. | [e,0],1–40. | [0,u],1–36. | [0,u],37–40. | [e,u],1-36. | [e,u],37–40. |
---|
相对偏差中值 |
EBLUP公司 | 公共关系 | −0.34 | 1.74 | 3.82 | −17.31 | 11.32 | −40.86 |
CCT公司 | 3.61 | 31.24 | 1.55 | 2.15 | 5.95 | −3.05 |
CCST公司 | 0.55 | 31.22 | −3.91 | −0.30 | 2.96 | −4.17 |
REBLUP公司 | CCT公司 | −17.71 | −15.76 | −20.24 | −34.79 | −19.51 | −36.63 |
CCST公司 | −2.01 | −8.46 | −5.31 | −3.58 | −7.91 | −22.51 |
启动 | −1.19 | −4.42 | 7.38 | −19.42 | 11.37 | −31.44 |
MQ公司 | CCT公司 | −2.98 | −16.29 | −12.56 | 6.69 | −24.02岁 | 177.42 |
CCST公司 | 0.11 | −8.21 | −7.77 | 8.95 | −14.10 | 163.38 |
翻新——不列颠哥伦比亚省 | CCT公司 | −10.56 | −12.46 | −11.88 | −10.54 | −12.57 | −18.37 |
CCST公司 | −2.95 | −2.83 | −4.21 | −11.27 | −5.81 | −8.48 |
启动 | −0.21 | −6.76 | −0.52 | −1.25 | −4.90 | −12.96 |
MQ–不列颠哥伦比亚省 | CCT公司 | −6.35 | 3.48 | −7.19 | 3.92 | 1.87 | 5.96 |
CCST公司 | −7.18 | −11.38 | −7.42 | 3.21 | −11.42 | −9.20 |
RRMSE中值 |
EBLUP公司 | 公共关系 | 6.24 | 18.57 | 7.20 | 17.90 | 22.28 | 43.19 |
CCT公司 | 31.51 | 76.20 | 31.25 | 28.37 | 61.57 | 51.30 |
CCST公司 | 22.92 | 66.27 | 7.68 | 18.98 | 27.15 | 39.13 |
再发光 | CCT公司 | 29.52 | 30.82 | 28.67 | 28.58 | 29 | 38.70 |
CCST公司 | 27.86 | 28.47 | 20.89 | 22.87 | 20.25 | 29.24 |
启动 | 10.27 | 34.92 | 10.67 | 14.62 | 16.61 | 33.04 |
MQ(百万立方米) | CCT公司 | 61.94 | 61.50 | 59.88 | 43.76 | 59.67 | 205.30 |
CCST公司 | 54.77 | 49.14 | 50.63 | 40.58 | 45.34 | 189.92 |
翻新——不列颠哥伦比亚省 | CCT公司 | 33.64 | 45.20 | 33.21 | 33.56 | 45.48 | 47.18 |
CCST公司 | 33.30 | 45.17 | 33.11 | 32.99 | 45.13 | 47.10 |
启动 | 10.12 | 15.27 | 10.20 | 10.60 | 14.53 | 18.35 |
MQ–不列颠哥伦比亚省 | CCT公司 | 36.68 | 65.37 | 36.19 | 38.33 | 65.70 | 64.26 |
CCST公司 | 33.93 | 44.81 | 33.55 | 35.30 | 44.65 | 50.55 |
预测值. | MSE估计器. | 以下场景和区域的结果(%):. |
---|
[0,0], 1–40. | [e,0],1–40. | [0,u],1–36. | [0,u],37–40. | [e,u],1-36. | [e,u],37–40. |
---|
相对偏差中值 |
EBLUP公司 | 公共关系 | −0.34 | 1.74 | 3.82 | −17.31 | 11.32 | −40.86 |
CCT公司 | 3.61 | 31.24 | 1.55 | 2.15 | 5.95 | −3.05 |
CCST公司 | 0.55 | 31.22 | −3.91 | −0.30 | 2.96 | −4.17 |
REBLUP公司 | CCT公司 | −17.71 | −15.76 | −20.24 | −34.79 | −19.51 | −36.63 |
CCST公司 | −2.01 | −8.46 | −5.31 | −3.58 | −7.91 | −22.51 |
启动 | −1.19 | −4.42 | 7.38 | −19.42 | 11.37 | −31.44 |
MQ公司 | CCT公司 | −2.98 | −16.29 | −12.56 | 6.69 | −24.02岁 | 177.42 |
CCST公司 | 0.11 | −8.21 | −7.77 | 8.95 | −14.10 | 163.38 |
翻新——不列颠哥伦比亚省 | CCT公司 | −10.56 | −12.46 | −11.88 | −10.54 | −12.57 | −18.37 |
CCST公司 | −2.95 | −2.83 | −4.21 | −11.27 | −5.81 | −8.48 |
启动 | −0.21 | −6.76 | −0.52 | −1.25 | −4.90 | −12.96 |
MQ–不列颠哥伦比亚省 | CCT公司 | −6.35 | 3.48 | −7.19 | 3.92 | 1.87 | 5.96 |
CCST公司 | −7.18 | −11.38 | −7.42 | 3.21 | −11.42 | −9.20 |
RRMSE中值 |
EBLUP公司 | 公共关系 | 6.24 | 18.57 | 7.20 | 17.90 | 22.28 | 43.19 |
CCT公司 | 31.51 | 76.20 | 31.25 | 28.37 | 61.57 | 51.30 |
CCST公司 | 22.92 | 66.27 | 7.68 | 18.98 | 27.15 | 39.13 |
再发光 | CCT公司 | 29.52 | 30.82 | 28.67 | 28.58 | 29 | 38.70 |
CCST公司 | 27.86 | 28.47 | 20.89 | 22.87 | 20.25 | 29.24 |
启动 | 10.27 | 34.92 | 10.67 | 14.62 | 16.61 | 33.04 |
MQ(百万立方米) | CCT公司 | 61.94 | 61.50 | 59.88 | 43.76 | 59.67 | 205.30 |
CCST公司 | 54.77 | 49.14 | 50.63 | 40.58 | 45.34 | 189.92 |
翻新——不列颠哥伦比亚省 | CCT公司 | 33.64 | 45.20 | 33.21 | 33.56 | 45.48 | 47.18 |
CCST公司 | 33.30 | 45.17 | 33.11 | 32.99 | 45.13 | 47.10 |
启动 | 10.12 | 15.27 | 10.20 | 10.60 | 14.53 | 18.35 |
MQ–不列颠哥伦比亚省 | CCT公司 | 36.68 | 65.37 | 36.19 | 38.33 | 65.70 | 64.26 |
CCST公司 | 33.93 | 44.81 | 33.55 | 35.30 | 44.65 | 50.55 |
预测值. | MSE估计器. | 以下场景和区域的结果(%):. |
---|
[0,0], 1–40. | [e,0],1–40. | [0,u],1–36. | [0,u],37–40. | [e,u],1-36. | [e,u],37–40. |
---|
相对偏差中值 |
EBLUP公司 | 公共关系 | −0.34 | 1.74 | 3.82 | −17.31 | 11.32 | −40.86 |
CCT公司 | 3.61 | 31.24 | 1.55 | 2.15 | 5.95 | −3.05 |
CCST公司 | 0.55 | 31.22 | −3.91 | −0.30 | 2.96 | −4.17 |
REBLUP公司 | CCT公司 | −17.71 | −15.76 | −20.24 | −34.79 | −19.51 | −36.63 |
CCST公司 | −2.01 | −8.46 | −5.31 | −3.58 | −7.91 | −22.51 |
靴子 | −1.19 | −4.42 | 7.38 | −19.42 | 11.37 | −31.44 |
MQ公司 | CCT公司 | −2.98 | −16.29 | −12.56磅 | 6.69 | −24.02 | 177.42 |
CCST公司 | 0.11 | −8.21 | −7.77 | 8.95 | −14.10 | 163.38 |
翻新——不列颠哥伦比亚省 | CCT公司 | −10.56 | −12.46 | −11.88 | −10.54 | −12.57 | −18.37 |
CCST公司 | −2.95 | −2.83 | −4.21 | −11.27 | −5.81 | −8.48 |
启动 | −0.21 | −6.76 | −0.52 | −1.25 | −4.90 | −12.96 |
MQ–BC公司 | CCT公司 | −6.35 | 3.48 | −7.19 | 3.92 | 1.87 | 5.96 |
CCST公司 | −7.18 | −11.38 | −7.42 | 3.21 | −11.42 | −9.20 |
RRMSE中值 |
EBLUP公司 | 公共关系 | 6.24 | 18.57 | 7.20 | 17.90 | 22.28 | 43.19 |
CCT公司 | 31.51 | 76.20 | 31.25 | 28.37 | 61.57 | 51.30 |
CCST公司 | 22.92 | 66.27 | 7.68 | 18.98 | 27.15 | 39.13 |
REBLUP公司 | CCT公司 | 29.52 | 30.82 | 28.67 | 28.58 | 29 | 38.70 |
CCST公司 | 27.86 | 28.47 | 20.89 | 22.87 | 20.25 | 29.24 |
启动 | 10.27 | 34.92 | 10.67 | 14.62 | 16.61 | 33.04 |
MQ公司 | CCT公司 | 61.94 | 61.50 | 59.88 | 43.76 | 59.67 | 205.30 |
CCST公司 | 54.77 | 49.14 | 50.63 | 40.58 | 45.34 | 189.92 |
翻新——不列颠哥伦比亚省 | CCT公司 | 33.64 | 45.20 | 33.21 | 33.56 | 45.48 | 47.18 |
CCST公司 | 33.30 | 45.17 | 33.11 | 32.99 | 45.13 | 47.10 |
启动 | 10.12 | 15.27 | 10.20 | 10.60 | 14.53 | 18.35 |
MQ–不列颠哥伦比亚省 | CCT公司 | 36.68 | 65.37 | 36.19 | 38.33 | 65.70 | 64.26 |
CCST公司 | 33.93 | 44.81 | 33.55 | 35.30 | 44.65 | 50.55 |
预测值. | MSE估计器. | 以下场景和区域的结果(%):. |
---|
[0,0], 1–40. | [e,0],1–40. | [0,u],1–36. | [0,u],37–40. | [e,u],1-36. | [e,u],37–40. |
---|
相对偏差中值 |
EBLUP公司 | 公共关系 | −0.34 | 1.74 | 3.82 | −17.31 | 11.32 | −40.86 |
CCT公司 | 3.61 | 31.24 | 1.55 | 2.15 | 5.95 | −3.05 |
CCST公司 | 0.55 | 31.22 | −3.91 | −0.30 | 2.96 | −4.17 |
REBLUP公司 | CCT公司 | −17.71 | −15.76 | −20.24 | −34.79 | −19.51 | −36.63 |
CCST公司 | −2.01 | −8.46 | −5.31 | −3.58 | −7.91 | −22.51 |
靴子 | −1.19 | −4.42 | 7.38 | −19.42 | 11.37 | −31.44 |
MQ公司 | CCT公司 | −2.98 | −16.29 | −12.56磅 | 6.69 | −24.02 | 177.42 |
CCST公司 | 0.11 | −8.21 | −7.77 | 8.95 | −14.10 | 163.38 |
翻新——不列颠哥伦比亚省 | CCT公司 | −10.56 | −12.46 | −11.88 | −10.54 | −12.57 | −18.37 |
CCST公司 | −2.95 | −2.83 | −4.21 | −11.27 | −5.81 | −8.48 |
启动 | −0.21 | −6.76 | −0.52 | −1.25 | −4.90 | −12.96 |
MQ–BC公司 | CCT公司 | −6.35 | 3.48 | −7.19 | 3.92 | 1.87 | 5.96 |
CCST公司 | −7.18 | −11.38 | −7.42 | 3.21 | −11.42 | −9.20 |
RRMSE中值 |
EBLUP公司 | 公共关系 | 6.24 | 18.57 | 7.20 | 17.90 | 22.28 | 43.19 |
CCT公司 | 31.51 | 76.20 | 31.25 | 28.37 | 61.57 | 51.30 |
CCST公司 | 22.92 | 66.27 | 7.68 | 18.98 | 27.15 | 39.13 |
REBLUP公司 | CCT公司 | 29.52 | 30.82 | 28.67 | 28.58 | 29 | 38.70 |
CCST公司 | 27.86 | 28.47 | 20.89 | 22.87 | 20.25 | 29.24 |
启动 | 10.27 | 34.92 | 10.67 | 14.62 | 16.61 | 33.04 |
MQ公司 | CCT公司 | 61.94 | 61.50 | 59.88 | 43.76 | 59.67 | 205.30 |
CCST公司 | 54.77 | 49.14 | 50.63 | 40.58 | 45.34 | 189.92 |
翻新——不列颠哥伦比亚省 | CCT公司 | 33.64 | 45.20 | 33.21 | 33.56 | 45.48 | 47.18 |
CCST公司 | 33.30 | 45.17 | 33.11 | 32.99 | 45.13 | 47.10 |
启动 | 10.12 | 15.27 | 10.20 | 10.60 | 14.53 | 18.35 |
MQ–不列颠哥伦比亚省 | CCT公司 | 36.68 | 65.37 | 36.19 | 38.33 | 65.70 | 64.26 |
CCST公司 | 33.93 | 44.81 | 33.55 | 35.30 | 44.65 | 50.55 |
作为第一个一般性评论,我们注意到,对于我们考虑的所有估算器和场景,CCST提供了比CCT更好的稳定性。我们现在关注这两个MSE估计器的性能,以估计稳健预测估计器REBLUP–BC和MQ–BC的MSE。如前所述,估计器CCST的整体稳定性优于CCT。然而,就偏差而言,由于两个相同数量级的MSE估计值的偏差,情况就不那么明朗了。特别是,尽管估计器CCST对REBLUP–BC有更好的偏差性能,但CCT对MQ–BC的偏差性能更好。我们还看到,与CCT和CCST相比,估计量BOOT通常是REBLUP–BC的一个更稳定的MSE估计量。然而,这是一种计算密集的MSE估计方法,因此在实际调查环境中可能并不总是合适的。在这种情况下,我们注意到最近针对MQ和非健壮版本的MQ–BC(Tzavidis)提出了半参数引导方法等。,2010)。我们没有在这里充分评估这些不同的引导方法,因为本文的重点是MSE估计的分析方法,而且这样做会大大增加本文的篇幅。
现在转到投影估计量的MSE估计,我们观察到REBLUP和MQ的估计量CCST比估计量CCT的偏差更低,也更稳定。相比之下,估计器BOOT有时比CCST更有偏差,但更稳定。然而,当总体包含区域和单位异常值时,CCT和CCST似乎都大大高估了MQ的MSE。目前尚不清楚发生这种情况的原因。由于这种情况下建议进行稳健预测估计,因此更有趣的是,CCT和CCST在估计MQ–BC的MSE方面都工作良好,在这种情况下,估计器CCST是两个MSE估计器中更稳定的。
正如我们预期的那样,EBLUP MSE的PR估计在[0,0]场景中表现良好,并且还记录了小的相对偏差[e(电子),0]场景,即只有个别异常值(当CCT和CCST都记录了较大的正偏差时)。然而,在存在区域级异常值的情况下(当CCT和CCST都记录可忽略的偏差时),它会记录较大的负偏差。估计器PR的主要优势在于其稳定性——其中位RRMSE始终低于CCT,并且在没有区域级异常值的情况下也比CCST更稳定。在很大程度上,这是由于CCT和CCST中使用的平方条件偏差项引起的小样本不稳定性。钱伯斯注意到了这个问题等. (2011),他指出,表中可以明显看出CCT对EBLUP的偏差稳健性2这是以更高的可变性为代价的,尤其是在面积非常小的样本大小的情况下。相比之下,EBLUP的估计量CCST表现出与CCT非常相似的偏差鲁棒性,并且更稳定。
6.基于设计的仿真
基于设计的模拟是对SAE基于模型的模拟的补充,因为它们使我们能够在我们不知道准确污染源的真实人群和现实采样方法的背景下评估SAE方法的性能。从有限总体的角度来看,我们认为这种模拟构成了SAE问题更实际、更恰当的表示。此外,它很好地说明了为什么关注条件MSE可能更接近使用小面积方法的分析师感兴趣的MSE。
支持基于设计的模拟的人口基于根据美国环境保护署的“环境监测和评估计划”(EMAP)获得的数据集。该数据集的背景是,1991年至1995年间,环境管理局对美国东北部各州的湖泊进行了调查。本次调查收集的数据包括来自该地区21026个湖泊中334个湖泊样本的551次测量。构成这一人口的湖泊分为113个八位水文单位代码(HUC),其中64个包含少于五个观测值,27个没有任何观测值。在我们的模拟中,我们将HUC定义为感兴趣的小区域,将湖泊分组在HUC中。关注的变量是酸中和能力(ANC),它是水体酸化风险的指标。除了采样位置的ANC值外,EMAP数据集还包含目标区域内每个湖泊的高程。在该模拟中,高程被用作唯一的模型协变量。
按照与Salvati相同的程序,构建了21026个ANC湖泊特定个体值的合成种群等. (2012)。这对应于使用最近邻插补算法对所有21026个湖泊的ANC值进行非参数模拟,该算法保留了EMAP样本数据中观察到的334个湖泊特定ANC值的空间结构。然后,ANC值的合成总体在蒙特卡罗模拟中保持不变。关于精确数据生成机制和人口特征的详细信息,请参阅Salvati等. (2012)。通过随机选择包含EMAP采样湖泊的86个HUC中的湖泊,从21026个湖泊中抽取1000个独立随机湖泊样本,这些HUC的样本大小设置为5和原始EMAP样本大小中的较大值。对合成种群数据拟合了一个两级(1级为湖泊,2级为HUC)混合模型。Shapiro–Wilk正态性检验拒绝了残差服从正态分布的零假设第页-值0.0356(1级)和小于0.0001(2级),表明不符合混合模型的高斯假设。使用放松这些假设的模型,例如米-具有有界影响函数的分位数模型,因此对于这些数据似乎是合理的。
表三显示了各种预测因子(EBLUP、REBLUP、MQ、REBLUP–BC和MQ–BC)的中位数相对偏差和中位数RRMSE,以及表4报告了这些预测值最小均方误差相应估计值的中位数相对偏差和中位数RRMSE。稳健预测估计器MQ–BC和REBLUP–BC在偏差和RRMSE方面都表现良好,而EBLUP和MQ的RRMSE最高,MQ也记录了最大的负偏差。REBLUP在RRMSE方面表现良好,但记录了较大的负偏差。这些结果表明,预测估计器在偏差和MSE方面为该人群提供了最平衡的性能。
估算员. | 相对. | RRMSE公司. |
---|
. | 偏差(%). | (%). |
---|
EBLUP公司 | 10.79 | 35.18 |
REBLUP公司 | −13.08 | 30.59 |
MQ公司 | −22.98 | 35.07 |
翻新——不列颠哥伦比亚省 | −4.13 | 31.94 |
MQ–不列颠哥伦比亚省 | −6.17 | 31.57 |
估算员. | 相对. | RRMSE公司. |
---|
. | 偏差(%). | (%). |
---|
EBLUP公司 | 10.79 | 35.18 |
REBLUP公司 | −13.08 | 30.59 |
MQ公司 | −22.98 | 35.07 |
重组–BC | −4.13 | 31.94 |
MQ–不列颠哥伦比亚省 | −6.17 | 31.57 |
估算员. | 相对. | RRMSE公司. |
---|
. | 偏差(%). | (%). |
---|
EBLUP公司 | 10.79 | 35.18 |
REBLUP公司 | −13.08 | 30.59 |
MQ公司 | −22.98 | 35.07 |
翻新——不列颠哥伦比亚省 | −4.13 | 31.94 |
MQ–不列颠哥伦比亚省 | −6.17 | 31.57 |
估算员. | 相对. | RRMSE公司. |
---|
. | 偏差(%). | (%). |
---|
电子束 | 10.79 | 35.18 |
REBLUP公司 | −13.08 | 30.59 |
MQ公司 | −22.98 | 35.07 |
翻新——不列颠哥伦比亚省 | −4.13 | 31.94 |
MQ–不列颠哥伦比亚省 | −6.17 | 31.57 |
. | 以下MSE估计值的结果(%):. |
---|
. | 公共关系. | CCT公司. | CCST公司. | 启动. |
---|
相对偏差中值 |
EBLUP公司 | 6.37 | 1.79 | 3.23 | |
REBLUP公司 | | −23.06 | 3.59 | 32.12 |
MQ公司 | | −31.59 | −24.48 | |
重组–BC | | −14.58 | 3 | 0.48 |
MQ–不列颠哥伦比亚省 | | −6.40 | −11.01 | |
RRMSE中值 |
EBLUP公司 | 30.61 | 30.67 | 28.86 | |
REBLUP公司 | | 45.79 | 43.72 | 61.95 |
MQ公司 | | 62.19 | 55.88 | |
翻新——不列颠哥伦比亚省 | | 39.78 | 39.47 | 39.81 |
MQ–不列颠哥伦比亚省 | | 45.53 | 38.38 | |
. | 以下MSE估计量的结果(%):. |
---|
. | 公共关系. | CCT公司. | CCST公司. | 启动. |
---|
相对偏差中值 |
EBLUP公司 | 6.37 | 1.79 | 3.23 | |
REBLUP公司 | | −23.06 | 3.59 | 32.12 |
MQ公司 | | −31.59 | −24.48 | |
翻新——不列颠哥伦比亚省 | | −14.58 | 3 | 0.48 |
MQ–不列颠哥伦比亚省 | | −6.40 | −11.01 | |
RRMSE中值 |
电子束 | 30.61 | 30.67 | 28.86 | |
REBLUP公司 | | 45.79 | 43.72 | 61.95 |
MQ公司 | | 62.19 | 55.88 | |
翻新——不列颠哥伦比亚省 | | 39.78 | 39.47 | 39.81 |
MQ–不列颠哥伦比亚省 | | 45.53 | 38.38 | |
. | 以下MSE估计值的结果(%):. |
---|
. | 公共关系. | CCT公司. | CCST公司. | 启动. |
---|
相对偏差中值 |
EBLUP公司 | 6.37 | 1.79 | 3.23 | |
REBLUP公司 | | −23.06 | 3.59 | 32.12 |
MQ公司 | | −31.59 | −24.48 | |
翻新——不列颠哥伦比亚省 | | −14.58 | 3 | 0.48 |
MQ–不列颠哥伦比亚省 | | −6.40 | −11.01 | |
RRMSE中值 |
EBLUP公司 | 30.61 | 30.67 | 28.86 | |
REBLUP公司 | | 45.79 | 43.72 | 61.95 |
MQ公司 | | 62.19 | 55.88 | |
翻新——不列颠哥伦比亚省 | | 39.78 | 39.47 | 39.81 |
MQ–不列颠哥伦比亚省 | | 45.53 | 38.38 | |
. | 以下MSE估计值的结果(%):. |
---|
. | 公共关系. | CCT公司. | CCST公司. | 靴子. |
---|
相对偏差中值 |
EBLUP公司 | 6.37 | 1.79 | 3.23 | |
REBLUP公司 | | −23.06 | 3.59 | 32.12 |
MQ公司 | | −31.59 | −24.48磅 | |
翻新——不列颠哥伦比亚省 | | −14.58 | 3 | 0.48 |
MQ–不列颠哥伦比亚省 | | −6.40 | −11.01 | |
RRMSE中值 |
EBLUP公司 | 30.61 | 30.67 | 28.86 | |
REBLUP公司 | | 45.79 | 43.72 | 61.95 |
MQ公司 | | 62.19 | 55.88 | |
翻新——不列颠哥伦比亚省 | | 39.78 | 39.47 | 39.81 |
MQ–不列颠哥伦比亚省 | | 45.53 | 38.38 | |
我们现在检查各种MSE估计方法的性能。首先,表4表明平均而言,对于所有具有这些数据的预测因子,跨区域估计器CCST的表现优于或与CCT相当。它还显示了Sinha和Rao的参数引导BOOT的性能(2009)取决于预测器。我们看到,BOOT在REBLUP–BC中的表现与CCST类似,但在REBLUP中表现出很大的偏差。最后,我们观察到,对于EBLUP,通过估计器PR估计MSE与通过CCT和CCST估计MSE基本上没有区别,估计器CCST更稳定。
表中的分析4重点关注各领域的平均均方根误差估计性能。这掩盖了区域之间MSE估计性能的巨大差异。每个预测值的“真实”(经验)RMSE与每个区域的估计值之间的关系如图所示。1其中,显示了每个预测值和每个MSE估计方法的RMSE比率变化的箱线图,RMSE比率定义为每个区域的平均估计RMSE与真实RMSE的比率。在这里,我们看到估计器PR和CCST对于EBLUP的表现非常相似,并且没有充分捕捉到该预测值的区域特定MSE中的区域间差异。相比之下,估计器CCT很好地跟踪了这一区域特定的经验MSE。这些结果与Longford的评论一致(2007)和钱伯斯等. (2011)如果MSE的区域特定估计是一个要求,则不应该使用估计器PR。估计量CCT和CCST之间的主要区别在于,CCT本质上只假设数据的线性平均结构,而CCST和PR一样,假设样本数据遵循线性混合模型。因此,在我们的模拟中,估计器CCST在跟踪EBLUP的区域特定MSE方面的表现不如CCT,这是建议CCST不应与EBLUP这样的非稳健预测器一起使用的一些证据。关于REBLUP和REBLUP-BC的MSE估计,我们看到估计器CCST在一定程度上改进了REBLUP-,这与该估计器比EBLUP更稳健一致,并且在稳健偏差校正的REBLUP-BC中表现得非常好,而估计器CC,尽管仍然是这两个预测因子的区域特定MSE的有效“跟踪器”,但也显示出较小的向下偏差。相比之下,估计器BOOT没有跟踪REBLUP和REBLUP-BC的区域特定MSE。最后,我们注意到估计器CCT和CCST对于MQ和MQ-BC的行为非常相似。两者都能很好地跟踪这些预测因子的区域特定MSE。总的来说,对于我们模拟中使用的EMAP人口数据,估计器CCST是稳健预测估计器REBLUP–BC和MQ–BC的区域特定MSE估计的首选方法。
图1
箱线图显示了基于设计的场景中MSE估计器的RMSE比率的区域特定值(RMSE比率定义为预测值的RMSE估计器在重复采样下的平均重复采样次数与该预测值的实际RMSE的比率):(a)EBLUP;(b) REBLUP;(c) REBLUB–不列颠哥伦比亚省;(d) MQ;(e) MQ–BC公司
7.最后备注
本文探讨了稳健预测方法在SAE中的推广,并提出了两种基于解析线性化的MSE估计,用于小面积均值的异常稳健预测。第一种是基于钱伯斯伪线性化方法的偏稳健MSE估计器等. (2011)。第二种方法基于稳健估计方程解的方差的一阶近似。
章节中报告的实证结果5和6结果表明,在存在区域和个别异常值的情况下,稳健预测估计量(REBLUP–BC和MQ–BC)的偏差较小,并且比稳健预测估计值(REBLUP和MQ)更有效。从这些结果中也可以明显看出,稳健预测估值器的偏差校正以更高的可变性为代价。因此,当模型诊断表明与假设的工作小区域模型存在重大偏差时,我们预计使用这些估计值将产生效益。使用稳健预测方法时,控制偏差-方差权衡的一种方法是选择最佳调整常数c(c)和ϕ以用于这些估计器。一般来说,c(c)对于ψ影响函数,并为ϕ影响函数。实际数据的应用程序表明c(c)=2或c(c)=3用于ϕ在偏差和方差之间提供了良好的平衡。“最佳”c(c)-价值可以通过交叉验证来实现,这是未来研究的一个途径。
伪线性化MSE估计器CCT和基于线性化的MSE估测器CCST为鲁棒预测估计器的MSE分析估计提供了一种很有前景的方法。正如钱伯斯已经指出的那样等. (2011)估计器CCT代表一种MSE估计方法,非常适合跟踪MSE中的区域特定变化。然而,这是以不稳定加剧为代价的。虽然我们在本文中没有充分探讨这个问题,但很明显,当与稳健预测估计方法结合使用时,估计器CCST也跟踪MSE中的区域特定变异性,并且比CCT更稳定。这为CCST可能与用于MSE估计的数值密集型bootstrap方法竞争提供了可能性。然而,将此MSE估计方法与MSE估计的可选参数和半参数bootstrap方法进行更完整的比较超出了本文的范围,有待进一步研究。最后,我们注意到,虽然CCST估计器是在线性混合模型的条件版本下开发的,但应该可以开发出CCST的无条件版本,该版本在线性混合模式下平均随机区域效应的分布,从而在EBLUP的情况下降低到广泛使用的MSE估计器PR。这为进一步研究提供了另一条途径。
致谢
这项工作得到了“贫困和生活条件评估的小区域方法”项目(SSH-CT-2007-217565;FP7-SSH-2007-1)和澳大利亚研究委员会联系拨款LP0776810的部分支持。作者感谢时空水生资源建模和分析项目提供了这些数据。他们还感谢副主编和两位审稿人的积极评论,这些评论大大改善了论文的发展。
工具书类
附录A
A.1、。规律性条件
第节中规定的基于线性化的MSE估计器的开发需要以下RC4.2并使用与此处相同的符号。
条件1
影响函数ψ是一个带导数的有界连续函数,除有限个点外,导数处处定义且有界。
条件2
的元素和统一边界为米→ ∞, 以便,和一致有界,其中具有.
条件3
协方差矩阵和具有线性结构(Prasad和Rao,1990)和是已知的正定阶矩阵mq(平方米)×mq(平方米)和n个×n个分别具有同样一致有界的元素米→ ∞.
条件4
尺寸q个面积随机效应是一个固定的有限数.
条件5
存在常量ς>0和L(左)<∞使得,如果,和,然后,,,,和都是以L(左).
条件6
对于k个= 1,…,K(K),其中定义如下方程式(20).
条件7
的元素V(V)和U型相对于方差分量是可微的和什么时候.
A.2、。MQ和MQ-BC的基于线性化的均方误差估计
在下文中,我们假设每个区域我有一个值这样,面积回归向量的“真”值我是。在此特定区域模型下,我们还使用0到真值的下标。然后,表示米-面积分位数系数我通过q个(我),MQ(15)的预测方差为
(32)
一阶近似是
(33)
具有,其中是有界的米-阶分位数影响函数q个,是n个-带元素的向量和是残差规模的鲁棒估计量. The方程组分(33)可以写为
自从。假设Huber型影响函数,我们得到
哪里C类是一个n个×n个对角矩阵j个第个对角线分量
这些表达式导致以下方程的估计(33):
(34)
哪里.何时q个(我)=0.5,估计器(34)是Street提出的估计器等. (1988).
一阶近似(32)的估计量是
(35)
哪里
MQ的面积特定偏差的相应估计值为
(36)
哪里和
MQ的MSE估计量的最终表达式就是方程的和(35)和方程的平方(36):
(37)
为了开发MQ–BC的相应MSE估计器,我们首先注意到其预测误差为
其中,该误差中最右边的(偏差修正)项可以近似为
在以下条件下ϕ很大,所以,我们得到了相应的近似值
(38)
近似值(38)右侧第一项和第三项之间的协方差将低于它们的方差,因此MQ–BC的预测方差的一阶近似值为
因此,MQ–BC的MSE的一阶近似的相应估计量为
(39)
注意,与等式不同(37),方程中没有平方偏差项(39),因为该偏差(近似)由MQ–BC的偏差修正项修正。还要注意,这两个方程都不是(37)nor方程(39)允许与“参数错误”相关的可变性因此可能低估了特定地区模型下MQ和MQ–BC的MSE。
©2013皇家统计学会