跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
J应用统计。2022; 49(1): 143–168.
在线发布2020年8月5日。 数字对象标识:10.1080/02664763.2020.1803809
PMCID公司:PMC9041861型
PMID:35707801

单位水平二元线性混合模型下支出均值和比率的小面积估计

关联数据

补充资料

摘要

在单位水平二元线性混合模型下,引入了支出均值和支出比率的小面积预测因子,并导出了相应均方误差的近似值和估计值。对于所考虑的模型,采用REML估计方法。为了分析引入的拟合算法、预报器和均方误差估计器的性能,进行了几个仿真实验。对西班牙家庭预算调查的实际数据的应用说明了拟议统计方法的行为。目标是估计西班牙各省的粮食和非粮食家庭年度支出手段以及粮食家庭支出比率。

关键词:多元线性混合模型、嵌套误差回归模型、最佳线性无偏预测因子、比率估计、小面积估计、家庭预算调查
AMS科目分类:62E30、62J12

1.简介

似乎没有必要为消费在21世纪所获得的相关性辩解,因为当时经济发达国家已加入消费社会,消费社会是一种社会模式,在这种模式中,幸福和生活质量的一个非常重要的部分与商品和服务的获得有关。近年来消费发生的模式、对象、形状和地点的变化速度和多样性是人们从不同角度分析消费的兴趣所在。准确估计消费者支出对一个国家的经济很重要,因为这种支出约占西班牙国内生产总值的60%。然而,全球政治措施往往不能令区域当局满意,区域当局也可以制定自己的经济战略。他们需要一些工具来精确、可靠和可接受的准时性来确定主要变量和消费指标,以便实施他们的战略。

在主要消费指标中,我们可以引用当地家庭的粮食和非粮食年支出以及粮食家庭年支出比例。最后一个指标被定义为某一地区家庭的年均食品支出与所有支出项目的相应年均支出之间的商。

在有限总体中,比率的估计通常是通过直接估计分别估计分子和分母来完成的。一个领域中目标变量的总和或平均值的直接估计器只使用该领域的数据,它相对于样本设计的分布基本上是无偏的,并且当样本量增加时,其方差减小。比率估计器继承了这些特性的一部分,因此它们的偏差和方差也会随着样本量的增加而减小。然而,在小面积估计(SAE)设置中,域样本大小通常很小。

SAE在样本量较小时处理领域指标的估计,以构建精确的直接估计量。弥补样本量不足的一种方法是将模型与整个样本相匹配。因此,在估计一个领域的人口指标时,还考虑了其他领域的数据以及不同可用变量之间的关系。这就是所谓的基于模型的SAE方法。拉奥和莫利纳的专著[29]给出了SAE方法的一般描述。

如果有多个目标变量,多变量区域级或单位级混合模型可以考虑它们的相关性。这些相关性为域参数的估计提供了重要的附加信息。费伊[12]和Datta等。[9]结果表明,对于每个响应变量,从多元模型获得的小面积估计量通常比从单变量模型获得的估计量具有更好的精度。例如,这些估计值可能是Datta引入的层次和经验贝叶斯预测值等。[9]或González-Manteiga得出的经验最佳线性无偏预测等。[13]或者Benavent和Morales[2]在多元线性混合模型下。

关于使用统计模型估计小面积社会经济指标的文献很多。我们引用了一些基于区域级模型的应用程序的作品,但并不详尽。莫利纳等。[23],洛佩兹·维兹卡诺等。[19,20]和埃斯特班等。[11]处理了估算劳动力指标的问题。莫拉莱斯等。[25],波特等。[27],布贝塔等人。[,4]或Arima等。[1]介绍了贫困比例或差距估计的应用。最近,Marchetti和Secondi[21]利用Fay-Herriot模型和Ubaidillah研究了意大利省级家庭消费支出等。[32]在双变量Fay-Herriot模型下按小地区估算的粮食和非粮食支出。

另一方面,单元级模型也为微观数据建模提供了很高的灵活性。达塔等。[8]研究了小面积均值向量的经验Bayes预测。莫利纳[22]对数变换的多元嵌套误差回归模型下混合效应的预测指数。扎维迪斯等。[31],钱伯斯等。[5]引入了基于M分位数回归模型的预测因子。钱德拉等。[6]将地理加权混合效应模型应用于澳大利亚农业和放牧业调查。霍布扎等。[16,17]基于单位级logit混合模型、Hobza和Morales导出的小区域贫困比例预测因子[15]还有莫拉莱斯和桑塔马利亚[24]分别在随机回归系数模型和时间线性混合模型下估计家庭归一化年净收入的领域平均数。恩加鲁耶等。[26]推导了多变量线性模型下重复测量数据领域均值的经验最佳线性预测因子。伊藤和久保川[18]采用多元嵌套误差回归模型对1998年至2001年京京铁路沿线公布的地价数据进行统计分析。

上述关于SAE应用区域级和单位级多元统计模型的论文的非完整列表显示了考虑目标变量的相关结构的好处。事实上,乌贝迪拉等。[32]考虑了多元FH模型,并通过使用响应变量之间的相关性证明了比单变量模型更有效的估计量,从而表明响应变量之间相关性的强度起着主要作用。然而,在SAE文献中,我们还没有发现基于模型的比率估值器,该模型考虑了相关目标变量的相关性。比率估计量通常由分子和分母的独立估计量构成。这可以通过对每个因变量拟合嵌套误差回归(NER)模型来实现,该模型是SAE中的基本单位级线性混合模型。然而,为每个目标变量选择单独的独立模型并没有考虑它们的相关性。这一事实降低了建模的预测能力,并且不允许正确估计比率预测因子的均方误差(MSE)。

虽然可以使用联合建模方法通过共享参数来联合建模双变量响应变量,以处理感兴趣的变量之间的关联,但本文采用了完全多元方法。提出的比率估计问题的解决方案是在单位级二元线性混合模型的基础上引入平均值的经验最佳线性无偏预报器(EBLUP)和比率的插件预报器。这种方法相对于单独建模改进了领域参数的预测。本文开发了预测因子,并提供了它们的MSE的近似值。它通过实证研究了新提议与基于单变量和独立模型构建的通常预测值的效率,显示了这两种程序的弱点和优势。最后,本文说明了引入的方法,并将其应用于2016年西班牙家庭预算调查的数据,估算了省级西班牙家庭的食品支出平均值和比率。

论文的其余部分组织如下。章节2描述了调查数据和感兴趣的估计问题。章节介绍了一种二元嵌套误差回归模型,推导了均值的EBLUP和比率的插件预测因子。章节4近似于引入的预测因子的最小均方误差。章节5进行了仿真实验,以研究剩余最大似然(REML)拟合算法、域平均值和比率的预测因子以及MSE估计量的行为。章节6给出了对实际数据的应用,其中目标是对西班牙各省家庭年度支出的平均数和比率进行小范围估计。章节7总结了一些结论。本文包含两个附录。附录A给出了用于计算模型参数的REML估计量的Fisher评分算法。附录B概述了获得区域平均EBLUP的MSE近似值的一些数学推导。

2.数据和关注的问题

西班牙家庭预算调查(SHBS)每年由国家统计研究所(INE)进行,目的是获取有关消费支出的性质和目的地以及与家庭生活条件有关的各种特征的信息。我们处理来自2016年SHBS的数据。SHBS通过个人访谈收集西班牙各地私人住宅的支出和人口信息。住宅是通过在主要抽样单元中进行两阶段分层随机抽样来选择的。主要抽样单位为人口普查部门,次要抽样单位为住房。我们的分析基于家庭层面的文件,该文件总共包含近21000户家庭。目标域是西班牙的52个省。SHBS的样本量是为了计算自治社区(NUTS 2)层面的精确估计值,而不是省级(NUTS 3)层面的官方估计值。在这种情况下,估计域级消费指标是一个SAE问题。

响应变量为d日j1d日j2家庭的食品和非食品年度支出j来自域d日食品包括食品和非酒精饮料,非食品代表剩余支出。目标参数是粮食和非粮食家庭年支出领域平均数粮食家庭年支出领域比率,即。

Y(Y)¯d日1=1N个d日j=1N个d日d日j1,Y(Y)¯d日2=1N个d日j=1N个d日d日j2,R(右)d日=Y(Y)¯d日1Y(Y)¯d日1+Y(Y)¯d日2,d日=1,,D类.

域平均值的Hájeck型直接估计Y(Y)¯d日k个,k个 = 1,2是

Y(Y)¯^d日k个目录=1N个^d日目录jd日w个d日jd日jk个,N个^d日目录=jd日w个d日j,k个=1,2,
(1)

哪里d日是域示例w个d日j的是海拔系数。这些估计量的基于设计的协方差可以近似为

覆盖(cov)^π(Y(Y)¯^d日1目录,Y(Y)¯^d日2目录)=(N个^d日目录)2jd日w个d日j(w个d日j1)(d日j1Y(Y)¯^d日k个1目录)(d日j2Y(Y)¯^d日2目录).
(2)

最后的公式来自于Särndal等。[30,第43、185和391页],并进行了简化w个d日j=1/πd日j,πd日j,d日j=πd日jπd日,d日j=πd日πd日j,j,在二阶包含概率中。区域比率的直接估计R(右)d日

R(右)^d日目录=Y(Y)¯^d日1目录Y(Y)¯^d日1目录+Y(Y)¯^d日2目录,d日=1,,D类.
(3)

章节6显示了直接估计(1)和()在省一级并不精确。这就是为什么我们寻找替代的基于模型的估计方法,该方法从辅助变量中借力,并可能产生更精确的领域目标参数估计值。可用的解释变量有

  • 收入。家庭年净收入总额(欧元)。
  • 家庭构成(FC)。FC1:单身或成年夫妇,至少有一名成员年满65岁或以上,FC2:其他单身或无子女的组合,FC3:与16岁以下儿童或16岁以下子女的成人夫妇,FC4:其他家庭。
  • 消耗单位数(乘以10)。网络控制单元=10{1+0.5(N个11)+0.3N个2},其中N个1是指家庭中14岁或以上的人数,以及N个2是指家庭中14岁以下的人数。
  • 农村。R1:人口稀少地区,R0:其他地区。

我们首先通过解释性数据分析分析这些辅助变量的潜在预测能力。1绘制观察到的食品和非食品支出与收入的关系图。我们观察到,尽管在这两个图中观察到了很大的变异性,但这两个支出变量似乎随着收入线性增加。据估计,食品支出与收入之间的皮尔逊相关系数为0.36,非食品支出与收益之间的皮尔森相关系数为0.65。此外,相应的95%置信区间分别为(0.36,0.37)和(0.64,0.66)。因此,收入似乎对目标变量具有很好的解释力。

2绘制每个家庭构成类别的食品和非食品支出。这两个反应变量在家庭构成类别中具有不同的均值和方差。因此,FC可以作为辅助变量输入到解释支出变量行为的模型中。

保存图片、插图等的外部文件。对象名称为CJAS_A_1803809_F0002_OB.jpg

家庭构成与支出。

绘制食品和非食品支出与消费单位的关系图。由于支出变量随着消费单位的增加而增加,NCU似乎是支出变量的一个很好的解释变量。

保存图片、插图等的外部文件。对象名称为CJAS_A_1803809_F0003_OB.jpg

消费单位数量与支出。

4绘制粮食和非粮食支出与城市化程度的关系图。可变农村地区R0类和R1类的食品支出没有显著差异。然而,非农村地区的其他支出似乎更大,因此,可以将其视为一个合理的辅助变量。

保存图片、插图等的外部文件。对象名称为CJAS_A_1803809_F0004_OB.jpg

城市化程度与支出。

因此,收入、FC、NCU和农村变量可能是建模粮食和非粮食支出的良好协变量。在拟合独立嵌套误差回归模型后,对回归参数的显著性检验证实了这些辅助变量的解释力。然而,单独或联合建模粮食和非粮食支出的问题仍然存在。为了分析这个问题,我们计算了皮尔逊相关系数,P(P)P(P)d日,以及相应的第页-域之间和域内的费用变量值。也就是说,对于值集

{(Y(Y)¯^d日1目录,Y(Y)¯^d日2目录):d日=1,,D类},{(d日j1,d日j2):j=1,,n个d日},d日=1,,D类.

域间相关系数为P(P) = 0.560,带第页-价值0.12×104.域内相关系数{P(P)1,,P(P)D类}四分位数均为正q个0=0.188,q个1=0.351,q个2=0.398,q个=0.440,q个4=0.539和相应的第页-数值均小于0.05。这一事实促使我们需要对支出变量进行联合建模,并根据该模型引入双变量净入学率模型。章节描述了新模型的基本属性,并提出了领域平均值和比率的预测值。

3.二元嵌套误差回归模型

3.1. 人口模型

U型是一个庞大的群体N个分割成D类域或区域U型1,,U型D类的大小N个1,,N个D类分别是。N个=j=1D类N个d日是全球人口规模。d日j=(d日j1,d日j2)是在样本单位上测量的连续变量向量j域的d日,d日=1,,D类,j=1,,N个d日。对于k个 = 1,2,让x个d日jk个=(x个d日jk个1,,x个d日jk个第页k个)是包含以下内容的行向量第页k个解释变量和letX(X)d日j=诊断(x个d日j1,x个d日j2)2×第页具有第页=第页1+第页2.让βk个是大小的列向量第页k个包含回归参数和letβ=(β1,β2)第页×1人口二元嵌套误差回归(BNER)模型为

d日j=X(X)d日jβ+单位d日+e(电子)d日j,d日=1,,D类,j=1,,N个d日,
(4)

其中随机效应向量单位d日=(单位d日1,单位d日2)和随机误差向量e(电子)d日j=(e(电子)d日j1,e(电子)d日j2)与多元正态分布相互独立

单位d日N个2(0,V(V)单位d日),e(电子)d日jN个2(0,V(V)e(电子)d日j),d日=1,,D类,j=1,,N个d日.

这个2×2协方差矩阵V(V)单位d日取决于3个未知参数,θ1=σ单位12,θ2=σ单位22θ=ρ单位,即。

V(V)单位d日=(σ单位12ρ单位σ单位1σ单位2ρ单位σ单位1σ单位2σ单位22).

这个2×2协方差矩阵V(V)e(电子)d日j取决于3个未知参数,θ4=σe(电子)12,θ5=σe(电子)22θ6=ρe(电子),即。

V(V)e(电子)d日j=(σe(电子)12ρe(电子)σe(电子)1σe(电子)2ρe(电子)σe(电子)1σe(电子)2σe(电子)22).

成为×单位矩阵。我们定义2N个d日×1向量d日e(电子)d日,的2N个d日×第页矩阵X(X)d日2N个d日×2矩阵Z轴d日,即。

d日=科尔1jN个d日(d日j),e(电子)d日=科尔1jN个d日(e(电子)d日j),X(X)d日=科尔1jN个d日(X(X)d日j),Z轴d日=科尔1jN个d日(2).

型号(4)可以以域级别的形式编写

d日=X(X)d日β+Z轴d日单位d日+e(电子)d日,d日=1,,D类,
(5)

哪里单位d日N个2(0,V(V)单位d日),e(电子)d日N个2N个d日(0,V(V)e(电子)d日)是独立的,并且V(V)e(电子)d日=诊断1jN个d日(V(V)e(电子)d日j).矢量d日独立于d日N个2N个d日(μd日,V(V)d日),μd日=X(X)d日βV(V)d日=Z轴d日V(V)单位d日Z轴d日+V(V)e(电子)d日.

我们定义2N个×1向量e(电子),的2D类×1矢量单位,的2N个×第页矩阵X(X)2N个×2D类矩阵Z轴,即。

=科尔1d日D类(d日),e(电子)=科尔1d日D类(e(电子)d日),单位=科尔1d日D类(单位d日),X(X)=科尔1d日D类(X(X)d日),Z轴=诊断1d日D类(Z轴d日).

型号(4)可以用线性混合模型形式书写

=X(X)β+Z轴单位+e(电子).
(6)

哪里单位N个2D类(0,V(V)单位),e(电子)N个2N个(0,V(V)e(电子)d日)是独立的,V(V)单位=诊断1d日D类(V(V)单位d日)V(V)e(电子)=诊断1d日D类(V(V)e(电子)d日).它认为N个2N个(μ,V(V)),μ=X(X)βV(V)=Z轴V(V)单位Z轴+V(V)e(电子).

3.2. 示例模型

实际上,推理是基于样本进行的=d日=1D类d日的尺寸n个=d日=1D类n个d日从有限的人口中提取U型.我们写作U型=第页U型d日=d日第页d日表示人口中抽样和非抽样部分。d日是的子向量d日对应于样本元素和第页d日第页的子向量d日对应于样本外元素。在不缺乏通用性的情况下,我们可以对向量的组成部分进行排序d日=(,第页)d日=(d日,d日第页).还定义了X(X),Z轴,V(V)e(电子),V(V)X(X)d日,Z轴d日,V(V)e(电子)d日,V(V)d日通过使用下标第页本文假设在有限总体中进行推理的预测方法,如Valliant中所述等。[33]. 因此,我们假设样本索引是固定的,因此样本子向量遵循从人口模型导出的模型(6). 也就是说,样本BNER模型是

=X(X)β+Z轴单位+e(电子),
(7)

哪里单位N个2D类(0,V(V)单位),e(电子)N个2n个(0,V(V)e(电子))是独立的,V(V)单位=诊断1d日D类(V(V)单位d日),V(V)e(电子)=诊断1d日D类(V(V)e(电子)d日)V(V)e(电子)d日=诊断1jn个d日(V(V)e(电子)d日j).它认为N个2n个(μ,V(V)),μ=X(X)βV(V)=Z轴V(V)单位Z轴+V(V)e(电子)类似地,样本子向量d日遵循衍生自的模型(5),即。

d日=X(X)d日β+Z轴d日单位d日+e(电子)d日,d日=1,,D类,
(8)

哪里单位d日N个2(0,V(V)单位d日),e(电子)d日N个2n个d日(0,V(V)e(电子)d日)都是独立的。向量d日独立于d日N个2n个d日(μd日,V(V)d日),μd日=X(X)d日βV(V)d日=Z轴d日V(V)单位d日Z轴d日+V(V)e(电子)d日.

在模型下(7),的最佳线性无偏估计量(BLUE)β,以及的最佳线性无偏预测(BLUP)单位

β^B类=(X(X)V(V)1X(X))1X(X)V(V)1,单位^B类=V(V)单位Z轴V(V)1(X(X)β^B类).
(9)

而不是对2n个d日×2n个d日矩阵V(V)d日=V(V)e(电子)d日+Z轴d日V(V)单位d日Z轴d日当计算的蓝色β,应用公式计算效率更高

(A类+B类C类D类)1=A类1A类1B类(C类1+D类A类1B类)1D类A类1,
(10)

具有A类=V(V)e(电子)d日,B类=Z轴d日,C类=V(V)单位d日D类=Z轴d日.作为Z轴d日V(V)e(电子)d日1Z轴d日=j=1n个d日V(V)e(电子)d日j1=n个d日V(V)e(电子)d日j1。我们获得

V(V)d日1=V(V)e(电子)d日1V(V)e(电子)d日1Z轴d日(V(V)单位d日1+Z轴d日V(V)e(电子)d日1Z轴d日)1Z轴d日V(V)e(电子)d日1=V(V)e(电子)d日1V(V)e(电子)d日1Z轴d日(V(V)单位d日1+n个d日V(V)e(电子)d日j1)1Z轴d日V(V)e(电子)d日1.

哪里V(V)e(电子)d日1=诊断1jn个d日(V(V)e(电子)d日j1)新公式减少了计算负担,因为它只需要对2×2矩阵。

实际上,BLUP和BLUE不能作为向量计算θ模型参数未知。附录A给出了计算REML估计量的Fisher-scoring算法θ.让θ^是…的估计量θ.通过堵塞θ^在里面V(V)单位V(V)e(电子),我们得到V(V)^单位=V(V)单位(θ^),V(V)^e(电子)=V(V)e(电子)(θ^)V(V)^=Z轴V(V)^单位Z轴+V(V)^e(电子).通过替换V(V)^V(V)^单位英寸(9),我们得到了的经验BLUE(EBLUE)β以及单位,即。

β^=(X(X)V(V)^1X(X))1X(X)V(V)^1,单位^=V(V)^单位Z轴V(V)^1(X(X)β^).
(11)

替代公式为

β^=(d日=1D类X(X)d日V(V)^d日1X(X)d日)1d日=1D类X(X)d日V(V)^d日1d日,单位^=科尔1d日D类(单位^d日),单位^d日=V(V)^单位d日Z轴d日V(V)^d日1(d日X(X)d日β^).

3.3. 领域平均值和比率的预测值

在BNER模型下(6),此部分导出2×1平均向量Y(Y)¯d日=(1/N个d日)j=1N个d日d日j并介绍了域比率的插件预测程序R(右)d日=Y(Y)¯d日1/(Y(Y)¯d日1+Y(Y)¯d日2),d日=1,,D类.假设样本索引是固定的,则非样本子向量d日第页遵循衍生自的模型(5),即。

d日第页=X(X)d日第页β+Z轴d日第页单位d日+e(电子)d日第页,d日=1,,D类,

哪里单位d日N个2(0,V(V)单位d日),e(电子)d日第页N个2(N个d日n个d日)(0,V(V)e(电子)d日第页)是独立的,并且V(V)e(电子)d日第页=诊断n个d日+1jN个d日(V(V)e(电子)d日j).矢量d日第页独立于d日第页N个2(N个d日n个d日)(μd日第页,V(V)d日第页),μd日第页=X(X)d日第页β,V(V)d日第页=Z轴d日第页V(V)单位d日Z轴d日第页+V(V)e(电子)d日第页此外d日第页d日

V(V)d日第页=覆盖(cov)(d日第页,d日)=覆盖(cov)(X(X)d日第页β+Z轴d日第页单位d日+e(电子)d日第页,X(X)d日β+Z轴d日单位d日+e(电子)d日)=Z轴d日第页无功功率,无功功率(单位d日)Z轴d日=Z轴d日第页V(V)单位d日Z轴d日.

的条件平均值d日第页,给定样本数据,是2(N个d日n个d日)×1矢量

E类[d日第页|]=E类[d日第页|d日]=μd日第页+V(V)d日第页V(V)d日1(d日μd日)=X(X)d日第页β+Z轴d日第页V(V)单位d日Z轴d日V(V)d日1(d日X(X)d日β)=X(X)d日第页β+Z轴d日第页V(V)单位d日Z轴d日{V(V)e(电子)d日1V(V)e(电子)d日1Z轴d日(V(V)单位d日1+n个d日V(V)e(电子)d日j1)1Z轴d日V(V)e(电子)d日1}(d日X(X)d日β).

对于以下计算,我们注意到

Z轴d日V(V)e(电子)d日1(d日X(X)d日β)=j=1n个d日V(V)e(电子)d日j1(d日jX(X)d日jβ).

如果n个d日>0j第页d日,j>n个d日,然后是条件2×1平均向量为

E类[d日j|d日]=X(X)d日jβ+V(V)单位d日Z轴d日{V(V)e(电子)d日1V(V)e(电子)d日1Z轴d日(V(V)单位d日1+n个d日V(V)e(电子)d日j1)1Z轴d日V(V)e(电子)d日1}(d日X(X)d日β)=X(X)d日jβ+V(V)单位d日{2n个d日V(V)e(电子)d日j1(V(V)单位d日1+n个d日V(V)e(电子)d日j1)1}j=1n个d日V(V)e(电子)d日j1(d日jX(X)d日jβ).

我们有

^d日e(电子)b条=d日,^d日第页e(电子)b条=E类^[d日第页|d日]=X(X)d日第页β^+Z轴d日第页V(V)^单位d日Z轴d日V(V)^d日1(d日X(X)d日β^),

或同等标准,^d日je(电子)b条=d日j如果jd日^d日je(电子)b条=E类^[d日j|d日]如果j第页d日,其中

E类^[d日j|d日]=X(X)d日jβ^+V(V)^单位d日{2n个d日V(V)^e(电子)d日j1(V(V)^单位d日1+n个d日V(V)^e(电子)d日j1)1}j=1n个d日V(V)^e(电子)d日j1(d日jX(X)d日jβ^).

的EBLUPY(Y)¯d日

Y(Y)¯^d日e(电子)b条=(Y(Y)¯^d日1e(电子)b条,Y(Y)¯^d日2e(电子)b条)=1N个d日j=1N个d日^d日je(电子)b条=1N个d日j=1n个d日d日j+1N个d日j=n个d日+1N个d日{X(X)d日jβ^+单位^d日}=(f)d日Y(Y)¯^d日+1N个d日j=1N个d日{X(X)d日jβ^+单位^d日}(f)d日1n个d日j=1n个d日{X(X)d日jβ^+单位^d日}=(1(f)d日)[X(X)¯d日β^+单位^d日]+(f)d日[Y(Y)¯^d日+(X(X)¯d日X(X)¯^d日)β^].
(12)

哪里Y(Y)¯^d日=(1/n个d日)j=1n个d日d日j,X(X)¯^d日=(1/n个d日)j=1n个d日X(X)d日j,(f)d日=n个d日/N个d日.比率的插件预测器R(右)d日=Y(Y)¯d日1/(Y(Y)¯d日1+Y(Y)¯d日2)

R(右)^d日n个=Y(Y)¯^d日1e(电子)b条Y(Y)¯^d日1e(电子)b条+Y(Y)¯^d日2e(电子)b条.
(13)

如果n个d日=0j第页d日,然后第页d日=U型d日和条件2×1平均向量为E类[d日j|]=X(X)d日jβ在这种情况下Y(Y)¯d日是综合估计器Y(Y)¯d日n个=X(X)¯d日β^,使用X(X)¯d日=(1/N个d日)j=1N个d日x个d日j.

4.MSE估计

普拉萨德和拉奥[28]给出了EBLUP的MSE近似值X(X)d日β+Z轴d日单位d日在单变量净入学率模型下,使用亨德森方法3估计方差分量参数。达塔和拉希里[10]扩展了Prasad和Rao的结果[28]一般纵向模型的情况。他们进一步考虑了方差分量的ML和REML估计。对于一般线性混合模型,Das等。[7]当采用REML或最大似然拟合方法时,导出了EBLUP的MSE。他们的证明包含Datta和Lahiri考虑的一般纵向模型[10]作为一种特殊情况。然而,这三篇论文都没有研究中定义的平均向量的EBLUP的均方交叉误差矩阵的近似(12). 尽管如此,BNER模型(6)可以用Das考虑的一般线性混合模型的形式编写等。[7],该文不涉及均方交叉误差矩阵的近似。这就是为什么附录B给出了近似和估算MSE的数学推导Y(Y)¯^d日e(电子)b条R(右)^d日n个获得的MSE估计值如下所示。

4.1. 域平均EBLUP的MSE

让我们定义T型d日=V(V)单位d日V(V)单位d日Z轴d日V(V)d日1Z轴d日V(V)单位d日,=(X(X)V(V)1X(X))1

X(X)¯^d日=j=1n个d日V(V)e(电子)d日j1X(X)d日j,X(X)¯d日第页=诊断(X(X)¯d日1第页,X(X)¯d日2第页),X(X)¯d日k个第页=1N个d日n个d日j=n个d日+1N个d日x个d日jk个,k个=1,2

预测时Y(Y)¯d日具有Y(Y)¯^d日e(电子)b条,我们使用MSE矩阵估计器

e(电子)(Y(Y)¯^d日e(电子)b条)=(e(电子)(Y(Y)¯^d日1e(电子)b条)e(电子)(Y(Y)¯^d日1e(电子)b条,Y(Y)¯^d日2e(电子)b条)e(电子)(Y(Y)¯^d日1e(电子)b条,Y(Y)¯^d日2e(电子)b条)e(电子)(Y(Y)¯^d日2e(电子)b条))=1(θ^)+2(θ^)+2(θ^)+4(θ^),
(14)

哪里

1(θ)=(1(f)d日)2{V(V)单位d日n个d日V(V)单位d日V(V)e(电子)d日j1V(V)单位d日+n个d日2V(V)单位d日V(V)e(电子)d日j1T型d日V(V)e(电子)d日j1V(V)单位d日},2(θ)=(1(f)d日)2[X(X)¯d日第页T型d日X(X)¯^d日][X(X)¯d日第页T型d日X(X)¯^d日].(θ)=(信托收据{(b条k个1)V(V)(b条k个2)E类[(θ^θ)(θ^θ)]})k个1,k个2=1,2,(b条k个)=科尔16(b条θ)6×2n个.4(θ)=1(f)d日N个d日V(V)e(电子)d日j.

其中6×6矩阵E类[(θ^θ)(θ^θ)]可以通过输出近似F类1(θ^)附录A中描述的REML-Fisher评分算法和b条

b条θ=(b条1θb条2θ)=(1(f)d日){V(V)单位d日Z轴d日V(V)d日1V(V)单位d日Z轴d日V(V)d日1Z轴d日V(V)单位d日Z轴d日V(V)d日1},=1,2,,

b条θ=(b条1θb条2θ)=(1(f)d日)V(V)单位d日Z轴d日V(V)d日1诊断1jn个d日(V(V)e(电子)d日j)V(V)d日1,=4,5,6

矩阵的对角元素(14),e(电子)(Y(Y)¯^d日1e(电子)b条)e(电子)(Y(Y)¯^d日2e(电子)b条),是的估算值M(M)S公司E类(Y(Y)¯^d日1e(电子)b条)M(M)S公司E类(Y(Y)¯^d日2e(电子)b条)分别是。

4.2. 域比率插件预测器的MSE

比率的插件预测器R(右)d日=Y(Y)¯d日1/(Y(Y)¯d日1+Y(Y)¯d日2)

R(右)^d日n个=Y(Y)¯^d日1e(电子)b条Y(Y)¯^d日1e(电子)b条+Y(Y)¯^d日2e(电子)b条=(f)(Y(Y)¯^d日1e(电子)b条,Y(Y)¯^d日2e(电子)b条),(f)(1,2)=11+2.

MSE的近似值R(右)^d日n个可以通过泰勒线性化得到。的一阶偏导数(f)

(f)1=2(1+2)2,(f)2=1(1+2)2,

的一阶泰勒展开(f)(Y(Y)¯^d日1e(电子)b条,Y(Y)¯^d日2e(电子)b条)围绕(Y(Y)¯d日1,Y(Y)¯d日2)

R(右)^d日n个=(f)(Y(Y)¯^d日1e(电子)b条,Y(Y)¯^d日2e(电子)b条)(f)(Y(Y)¯d日1,Y(Y)¯d日2)+(f)(Y(Y)¯d日1,Y(Y)¯d日2)1(Y(Y)¯^d日1e(电子)b条Y(Y)¯d日1)+(f)(Y(Y)¯d日1,Y(Y)¯d日2)2(Y(Y)¯^d日2e(电子)b条Y(Y)¯d日2)=R(右)d日+Y(Y)¯d日2(Y(Y)¯d日1+Y(Y)¯d日2)2(Y(Y)¯^d日1e(电子)b条Y(Y)¯d日1)Y(Y)¯d日1(Y(Y)¯d日1+Y(Y)¯d日2)2(Y(Y)¯^d日2e(电子)b条Y(Y)¯d日2).

因此,我们得到了近似值

MSE公司(R(右)^d日n个)=E类[(R(右)^d日n个R(右)d日)2]Y(Y)¯d日22(Y(Y)¯d日1+Y(Y)¯d日2)4E类[(Y(Y)¯^d日1e(电子)b条Y(Y)¯d日1)2]+Y(Y)¯d日12(Y(Y)¯d日1+Y(Y)¯d日2)4E类[(Y(Y)¯^d日2e(电子)b条Y(Y)¯d日2)2]2Y(Y)¯d日1Y(Y)¯d日2(Y(Y)¯d日1+Y(Y)¯d日2)4E类[(Y(Y)¯^d日1e(电子)b条Y(Y)¯d日1)(Y(Y)¯^d日2e(电子)b条Y(Y)¯d日2)]=Y(Y)¯d日22(Y(Y)¯d日1+Y(Y)¯d日2)4MSE公司(Y(Y)¯^d日1e(电子)b条)+Y(Y)¯d日12(Y(Y)¯d日1+Y(Y)¯d日2)4MSE公司(Y(Y)¯^d日2e(电子)b条)2Y(Y)¯d日1Y(Y)¯d日2(Y(Y)¯d日1+Y(Y)¯d日2)4M(M)S公司E类(Y(Y)¯^d日1e(电子)b条,Y(Y)¯^d日2e(电子)b条),
(15)

哪里M(M)S公司E类(Y(Y)¯^d日1e(电子)b条,Y(Y)¯^d日2e(电子)b条)是矩阵的非对角元素。

预测时R(右)d日具有R(右)^d日n个,我们使用MSE估计器e(电子)(R(右)^d日n个)作为近似值的插件估计量获得(15). 也就是说,我们用矩阵的相应分量代替每个MSEe(电子)(Y(Y)¯^d日e(电子)b条)在中给出(14). 类似地,附录C给出了插入式预测器的MSE的估计量^d日n个=Y(Y)¯^d日1e(电子)b条/Y(Y)¯^d日2e(电子)b条商数的d日=Y(Y)¯d日1/Y(Y)¯d日2.

5.模拟

5.1. 模拟1

仿真1的目标是检查REML算法在拟合BNER模型时的行为(8). 我们接受第页1=第页2=2,第页 = 4,β1=(β11,β12)=(1,1),β2=(β21,β22)=(1,1),对于d日=1,,D类,j=1,,n个d日,生成X(X)d日j=诊断(x个d日j1,x个d日j2)2×4,其中x个d日j1=(x个d日j11,x个d日j12),x个d日j2=(x个d日j21,x个d日j22),x个d日j11=x个d日j21=1,x个d日j12U型(2,4)x个d日j22U型(2,5).我们接受θ1=0.75,θ2=1,θ4=0.50,θ5=0.75θ=0.8,θ6=0.8。对于d日=1,,D类,模拟单位d日N个2(0,V(V)单位d日)e(电子)d日jN个2(0,V(V)e(电子)d日j),其中

V(V)单位d日=(θ1θθ1θ2θθ1θ2θ2),V(V)e(电子)d日=(θ4θ6θ4θ5θ6θ4θ5θ5),

模拟1的步骤如下

  1. 生成x个d日jk个,d日=1,,D类,j=1,,n个d日,k个 = 1, 2.
  2. 重复=10次(=1,,10)
    • (2.1)生成单位d日()N个2(0,V(V)单位d日),e(电子)d日()N个2n个d日(0,V(V)e(电子)d日),d日()=X(X)d日β+Z轴d日单位d日()+e(电子)d日(),d日=1,,D类.
    • (2.2)对于每个η{β11,β12,β21,β22,θ1,,θ6},计算REML估计值η^(){β^11(),β^12(),β^21(),β^22(),θ^1(),,θ^6()}.
  3. 输出:
    RMSE公司(η^)=(1=1(η^()η)2)1/2,BIAS公司(η^)=1=1(η^()η),

表格12给出了仿真结果。列标记为η包含真实模型参数的值。仿真1表明,REML-Fisher评分算法工作正常,因为BIAS和RMSE随着n个d日D类增加。

表1。

BIAS公司(η^)(左)和RMSE公司(η^)(右)带有n个d日=10.
 ηD类 = 25D类 = 50D类 = 100D类 = 200D类 = 25D类 = 50D类 = 100D类 = 200
β111−0.01640.01450.01010.00360.22690.15850.11290.0795
β121−0.00150.0006−0.0002−0.00020.04860.03190.02210.0171
β2110.0330−0.0042−0.0106−0.00060.22830.17440.12040.0886
β2210.0003−0.00170.0011−0.00070.03860.02900.01980.0137
θ10.75−0.00270.0161−0.01230.00260.19650.17200.10620.0818
θ21−0.02890.0034−0.0197−0.00660.29350.21430.13450.1094
θ40.5−0.0008−0.0019−0.0009−0.00130.04280.03390.02330.0153
θ50.750.00310.0018−0.0004−0.00090.06700.05340.03410.0263
θ−0.80.00750.0045−0.00020.00300.09370.07700.04980.0308
θ60.8−0.0019−0.0004000.02540.01790.01240.0084

表2。

BIAS公司(η^)(左)和RMSE公司(η^)(右)带有D类 = 25
 η n个d日=10 n个d日=25 n个d日=50 n个d日=100 n个d日=10 n个d日=25 n个d日=50 n个d日=100
β111−0.01640.0051−0.02660.00970.22690.18820.18870.1755
β121−0.0015−0.00070.0018−0.00120.04860.02940.01910.0141
β2110.03300.01080.03030.00300.22830.23510.21330.1987
β2210.0003−0.0006−0.0008−0.00100.03860.02490.01750.0119
θ10.75−0.00270.0047−0.00480.03050.19650.22670.22350.2172
θ21−0.02890.02690.00580.02760.29350.31930.27970.2774
θ40.5−0.0008−0.0003−0.0012−0.00100.04280.02910.01950.0136
θ50.750.0031−0.0020−0.00060.00010.06700.04220.02930.0214
θ−0.80.00750.0063−0.0060−0.00230.09370.08990.08160.0876
θ60.8−0.0019−0.0005−0.00020.00020.02540.01490.01080.0066

如果域样本大小都等于10,并且域的数量从25增加到200,表1表明所有估计器的RMSE均减小。如果域数为D类 = 25,实际值很小,表2表明n个d日有助于估计矢量方差分量的参数e(电子)d日随机误差,但不是矢量的相应参数单位d日随机效应。

5.2. 模拟2

仿真2的目标是研究BNER模型下域预测因子的行为(5). 为了产生人口,我们采取N个d日=200,d日=1,,D类,所以N个 = 200D类所有单位(人口)和选定单位(样本)的集合为

U型={单位d日j:d日=1,,D类,j=1,,N个d日},={单位d日j:d日=1,,D类,j=1,,n个d日}U型.

对于每个单位d日jU型,我们以与模拟1中相同的方式生成辅助变量。模拟2的步骤如下

  1. 生成x个d日jk个,d日=1,,D类,j=1,,N个d日,k个 = 1, 2. 构建人口矩阵X(X)d日Z轴d日尺寸的2N个d日×第页2N个d日×2分别是。
  2. 重复=104次(=1,,104)
    • (2.1)生成种群随机向量单位d日()N个2(0,V(V)单位d日),e(电子)d日j()N个2(0,V(V)e(电子)d日j)d日j()=X(X)d日jβ+单位d日()+e(电子)d日j(),d日=1,,D类 j=1,,N个d日.
    • (2.2)计算域平均值和比率,即。
      ηd日k个()=Y(Y)¯d日k个()=1N个d日j=1N个d日d日jk个(),ηd日()=R(右)d日()=Y(Y)¯d日1()Y(Y)¯d日1()+Y(Y)¯d日2(),d日=1,,D类,k个=1,2
    • (2.3)提取样品(d日j,X(X)d日j),d日=1,,D类,j=1,,n个d日.
    • (2.4)计算REML估计量β^11(),β^12(),β^21(),β^22(),θ^1(),,θ^6().
    • (2.5)计算Y(Y)¯d日k个()和插件比率预测器R(右)d日(),即。
      η^d日k个()=Y(Y)¯^d日k个e(电子)b条(),η^d日()=R(右)^d日n个(),d日=1,,D类,k个=1,2
  3. 对于d日=1,,D类k个 = 1、2、3,计算绝对绩效指标
    R(右)E类d日k个=(1=1(η^d日k个()ηd日k个())2)1/2,B类d日k个=1=1(η^d日k个()ηd日k个()),M(M)d日k个=1=1η^d日k个(),
  4. 对于d日=1,,D类,k个 = 1、2、3,计算相关绩效指标
    R(右)R(右)E类d日k个=R(右)E类d日k个M(M)d日k个100,R(右)B类d日k个=B类d日k个M(M)d日k个100,R(右)R(右)E类k个=1D类d日=1D类R(右)R(右)E类d日k个,A类R(右)B类k个=1D类d日=1D类|R(右)B类d日k个|.

显示以下对象的仿真结果Y(Y)¯^d日1e(电子)b条(k个 = 1),Y(Y)¯^d日2e(电子)b条(k个 = 2) 和R(右)^d日n个(k个 = 3). 正如预期的那样,绩效指标随着样本量的增加而减少n个d日增加。但是,如果样本大小保持不变,并且域数保持不变D类偏倚增大,MSE减小较小。这是因为当D类增加。

表3。

A类R(右)B类k个(左)和R(右)R(右)E类k个(右),ρ单位=0.8,ρe(电子)=0.8.
D类k个 n个d日=10 n个d日=25 n个d日=50 n个d日=100 n个d日=10 n个d日=25 n个d日=50 n个d日=100
2510.03430.02600.01610.00814.64863.08452.09831.2370
 20.03940.02540.01730.01105.00173.32682.26431.3389
 0.02210.01200.00760.00352.18211.35850.89870.5243
5010.03310.02360.01790.00734.55473.06082.09381.2360
 20.04250.02650.01890.00934.92713.31932.26741.3411
 0.01920.01180.00710.00412.17271.35630.90190.5239
10010.03580.02530.01790.01024.49573.04262.08411.2337
 20.03710.02630.01820.01124.87063.30102.26431.3392
 0.01860.01070.00730.00402.15921.35490.89970.5236
20010.03500.02280.01560.03054.47503.03572.08101.2350
 20.03880.02630.01870.03164.85113.29842.26341.3419
 0.02150.01250.00760.01222.15521.35160.89800.5240

数字56展示偏差箱线图B类d日k个和root-MSEE类d日k个分别是。数据表明,这三个预测因子基本上是无偏的,并且根质谱随着样本量的增加而减少。此外,方差(而非偏差)是root-MSE的主要贡献因素。

保存图片、插图等的外部文件。对象名称为CJAS_A_1803809_F0005_OB.jpg

偏见B类d日k个,d日=1,,D类,k个 = 1、2、3,带D类 = 25,ρ单位=0.8,ρe(电子)=0.8.

保存图片、插图等的外部文件。对象名称为CJAS_A_1803809_F0006_OB.jpg

R(右)E类d日k个,d日=1,,D类,k个 = 1、2、3,带D类 = 25,ρ单位=0.8,ρe(电子)=0.8.

我们运行了新的模拟,以比较基于BNER模型的EBLUP和基于两个独立NER模型的EBluP。除以下情况外,所有模拟设置都保持不变θ=ρ单位θ6=ρe(电子).在这种情况下ρ单位=ρe(电子)=0,独立的净入学率模型生成数据。在所有剩余的情况下,BNER模型生成数据。我们运行Fisher评分算法来计算NER和BNER模型参数的REML估计量。4给出了Fisher-scoring算法用于计算所有迭代中模型参数的REML估计量的模拟结果和计算时间的中位数(以秒为单位的c.time)。“预测值”列指示预测值所基于的模型(NER或BNER)。我们观察到,如果相关性ρ单位ρe(电子)具有不同的符号。在其余情况下,这两个过程的行为类似。另一方面,拟合两个独立的NER模型具有更低的计算成本。

表4。

的模拟结果D类 = 25和n个d日=50.
    A类R(右)B类k个 R(右)R(右)E类k个 
预测器 ρ单位 ρe(电子)k个 = 1k个 = 2k个 = k个 = 1k个 = 2k个 = c.时间(s)
净入学率000.13630.12460.12782.19212.31071.78470.035
BNER公司  0.13720.12350.12732.19302.31171.785712.446
净入学率−0.8−0.80.13670.14410.15362.18052.31612.28860.035
BNER公司  0.13640.14560.15342.18392.31922.291412.418
净入学率0.80.80.12030.11210.06362.18172.32280.84770.035
BNER公司  0.12060.11350.06202.18292.32650.847312.452
净入学率0.8−0.80.13290.14530.17622.18292.31232.43530.035
BNER公司  0.13720.13100.16232.11122.25862.384412.467
净入学率−0.80.80.12460.11250.06762.18352.32240.93620.035
BNER公司  0.10960.10580.06272.13232.25090.901112.499

5.3. 模拟3

模拟3的目标是研究BNER模型下EBLUP的MSE估计量的行为(5). 总体和样本数据以与模拟2中相同的方式生成。模拟3的步骤是

  1. 生成x个d日jk个,d日=1,,D类,j=1,,N个d日,k个 = 1, 2. 构建人口矩阵X(X)d日j尺寸的2×第页.
  2. 采取MSE公司d日k个=(R(右)E类d日k个)2,d日=1,,D类,k个 = 1、2、3,来自模拟2的输出。
  3. 重复 = 200次(=1,,200)
    • (3.1)生成种群随机向量单位d日()N个2(0,V(V)单位d日),e(电子)d日j()N个2(0,V(V)e(电子)d日j)d日j()=X(X)d日jβ+单位d日()+e(电子)d日j(),d日=1,,D类 j=1,,N个d日.
    • (3.2)提取样品(d日j,X(X)d日j),d日=1,,D类,j=1,,n个d日.
    • (3.3)计算REML估计值β^11(),β^12(),β^21(),β^22(),θ^1(),,θ^6().
    • (3.4)计算e(电子)d日k个()=e(电子)(Y(Y)¯^d日k个e(电子)b条()),k个 = 1、2和e(电子)d日()=e(电子)(R(右)^d日n个()).
  4. 对于d日=1,,D类,k个 = 1、2、3,计算绝对绩效指标
    R(右)E类d日k个=(1=1(e(电子)d日k个()MSE公司d日k个)2)1/2,B类d日k个=1=1(e(电子)d日k个()MSE公司d日k个),
  5. 对于d日=1,,D类,k个 = 1、2、3,计算相关绩效指标
    R(右)R(右)E类d日k个=100R(右)E类d日k个MSE公司d日k个,R(右)B类d日k个=100B类d日k个MSE公司d日k个,
    (16)
    R(右)R(右)E类k个=1D类d日=1D类R(右)R(右)E类d日k个,A类R(右)B类k个=1D类d日=1D类|R(右)B类d日k个|.
    (17)

5显示以下对象的仿真结果Y(Y)¯^d日1e(电子)b条(k个 = 1),Y(Y)¯^d日2e(电子)b条(k个 = 2) 和R(右)^d日n个(k个 = 3). 我们获得了与模拟2中类似的结果。性能指标随着样本量的增加而减少n个d日增加。如果样本大小保持不变,并且域的数量D类偏倚增大,MSE减小较小。

表5。

A类R(右)B类k个(左)和R(右)R(右)E类k个(右),ρ单位=0.8,ρe(电子)=0.8.
D类k个 n个d日=10 n个d日=25 n个d日=50 n个d日=100 n个d日=10 n个d日=25 n个d日=50 n个d日=100
251330.97126.4354.9818.42362.03141.0361.7120.55
 2337.20128.9156.1418.35369.30143.8662.9320.53
 100.9041.8519.076.17220.53118.6679.7158.99
501327.05120.6352.8218.04343.49127.9556.0419.15
 2333.46122.5754.2418.36350.65130.1057.5519.51
 98.4340.4518.376.80214.56118.1981.2361.94
1001306.09117.2949.9816.74312.07120.1551.4317.22
 2311.92119.2850.6217.16317.90122.1952.0817.64
 89.2537.0116.215.70187.73106.8174.6458.51
2001319.79117.4250.5316.88324.21119.1251.3117.17
 2327.10119.4751.2417.21331.55121.2252.0317.49
 93.1838.1817.297.26193.19108.7376.4860.19

作为表格5包含聚合信息,我们提供关于域级非相对性能度量(偏差和MSE)的信息。数字7和88显示偏差的箱线图B类d日k个和root-MSEE类d日k个MSE估计值。数据表明,这三个预测因子具有正偏差,随着样本量的增加而减小。此外,偏差(而不是方差)给出了对MSE估计器的根MSE的主要贡献。坏消息是,引入的分析MSE估计器在样本量非常小的领域(例如。n个d日25). 这一事实为基于重采样程序的MSE估计值的研究打开了大门;例如,通过调整González-Manteiga的引导程序等。[14]多变量情况。

保存图片、插图等的外部文件。对象名称为CJAS_A_1803809_F0007_OB.jpg

偏见B类d日k个,d日=1,,D类,k个 = 1、2、3,带D类 = 25,ρ单位=0.8,ρe(电子)=0.8.

保存图片、插图等的外部文件。对象名称为CJAS_A_1803809_F0008_OB.jpg

R(右)E类d日k个,d日=1,,D类,k个 = 1、2、3,带D类 = 25,ρ单位=0.8,ρe(电子)=0.8.

6.西班牙家庭预算调查数据的应用

本节将开发的SAE方法应用于2016年SHBS的数据。第一步是将BNER模型拟合到目标向量(d日j1,d日j2)包含家庭食品和非食品年度支出及辅助变量x个d日jk个,d日=1,,D类,j=1,,n个d日,k个 = 1、2,见第节2变量收入和NCU被视为协变量,变量FC和农村被视为参考类别FC4和R0的因素。对于每个目标变量,表6给出了回归参数及其标准误差的估计。它还显示了渐近第页-检验假设的值H(H)0:βk个第页=0.表7给出了方差和相关参数的估计及其95%渐近置信区间。该表显示,所有估计参数均显著大于零。我们注意到相关性ρ单位ρe(电子)显著大于零,因此12不合适。

表6。

拟合BNER模型的回归参数。
支出变量估算z(z)-价值标准误差第页-价值
食物拦截0.021.540.010.12
 收入0.5338.170.010
 国立大学0.0238.9100
 燃料电池10.059.290.010
 燃料电池2−0.022.600.010.01
 燃料电池3−0.037.7100
非足部拦截0.318.740.040
 收入6.89105.940.070
 国立大学0.0427.0100
 R1级0.042.410.020.02

表7。

方差和相关参数。
 估算下限lim上方.lim
σ单位120.0020.0010.003
σ单位220.0250.0140.037
ρ单位0.5520.3240.781
σe(电子)120.0570.0560.058
σe(电子)221.2611.2371.285
ρe(电子)0.2010.1880.214

9(左)绘制了西班牙各省家庭年度食品支出的平均值。9(右)绘制了估算的相对根质谱(RRMSE),单位为%。这一数字表明,自治区内的食品支出变化很大。

保存图片、插图等的外部文件。对象名称为CJAS_A_1803809_F0009_OC.jpg

手段Y(Y)¯^d日1e(电子)b条(左)及其相对根MS在西班牙各省家庭年度食品支出中所占百分比(右)。

10(左)绘制了西班牙各省的家庭食品支出比例(%)。10(右)以%为单位绘制相应的RRMSE。这里观察到的一个有趣的特点是,在一些自治区内,食品支出的百分比可能会有很大的变化。这主要发生在安达卢西亚自治区、阿拉贡自治区、卡斯蒂利亚·莱昂自治区或加利西亚自治区,那里有许多省份,其中一些省份的贫困程度高于其他省份。相比之下,还有其他地区,如加泰罗尼亚和巴斯克国家,估计比率的变异性较小。

保存图片、插图等的外部文件。对象名称为CJAS_A_1803809_F0010_OC.jpg

比率R(右)^d日n个西班牙各省家庭年度食品支出的%(左)及其相对根-MSEs(右)。

为了便于比较,两个独立的净入学率模型均采用表中所示的相同辅助变量进行拟合6两个NER模型是错误的模型,因为我们假设拟合的BNER模型是真实模型。因此,在NER模型下使用EBLUP计算公式获得的预测值不是EBLUP,称为INDEP。

11绘制直接、INDEP和EBLUP估计值Y(Y)¯1(左)和Y(Y)¯2(右)。域按样本大小排序,样本大小打印在OX轴上。该图显示,三个估计值遵循相同的模式,并且随着样本大小的增加而越来越接近,但INDEP和EBLUP的行为更平滑。

12绘制直接估计值的估计RRMSE和INDEP和EBLUP预测值Y(Y)¯1(左)和Y(Y)¯2(右)。和以前一样,域是按样本大小排序的。对于INDEP预测器的MSE的估计,我们使用估计器e(电子)k个印度,k个 = 函数的1、2公式14例如,在《拉奥和莫利纳》第7章中有描述[29]. 我们记得,这些公式在这里是不正确的,因为假定的真实模型是BNER,而不是两个独立的边际NER模型。我们注意到,BLUP是线性参数的预测器,它在无偏预测器类中最小化了MSE,而EBLUP和REML估计量渐近地继承了这一性质。因此,EBLUP的MSE应小于BNER模型下INDEP预测因子的MSE。

保存图片、插图等的外部文件。对象名称为CJAS_A_1803809_F0012_OC.jpg

直接和EBLUP估算的RRMSE。

12结果表明,EBLUP的RRMSE低于直接估计值,并且随着样本量的增加,RRMSE越来越接近。此外,它还表明e(电子)k个印度低估了INDEP预测因子的MSEY(Y)¯1Y(Y)¯2。这对从业者来说很有趣。如果我们不考虑这两个目标变量之间的相关性,我们可以很好地估计域数量,但我们无法估计MSE。

13(左)绘制了食品支出比率的直接估计值、独立估计值和插件估计值,单位为%。13(右)绘制直接估计器和插件预测器的估计RRMSE。比率直接估计量的最小均方误差是通过插入基于设计的协方差估计量来估计的(2)在公式中(15). 对于INDEP预测器,我们无法计算MSE,因为无法估计所需的协方差项(参见公式(15)). 该图表明,基于模型的插件估计器的RRMSE低于直接估计器,并且随着样本量的增加,RRMSE越来越接近。

保存图片、插图等的外部文件。对象名称为CJAS_A_1803809_F0013_OC.jpg

比率的直接和插入式估计(左)及其估计的RRMSE(左)。

表格89给出了一些简明的数值结果。表格分两步构建。域按样本大小排序,从样本大小最小的域开始。从52个域中选择14个域1,5,9,,52省的名称和代码用Prov和d日和样本大小n个.

表8。

估计Y(Y)¯d日1,Y(Y)¯d日2R(右)d日和CIR(右)d日(单位:%)。
Prov(保护)d日n个目录1电子束1目录2电子束2雷迪尔Rin公司Rin公司Rin公司+
瓜达拉哈拉1910239994229255912568613.5214.1412.6915.59
帕伦西亚3411843574396178931967119.5818.2616.0720.46
昆卡1612330993480191231950513.9515.1413.1317.15
欧伦塞3216929263064146911635416.6115.7813.4018.16
布尔戈斯918746664651234922325516.5716.6715.2518.09
格拉纳达1819837293841218332154514.5915.1313.6216.64
阿尔巴塞特224938584075210392125015.4916.0914.6317.55
皇城1335538584018207142108515.7016.0114.6417.37
蓬特韦德拉3646344694451235932319715.9316.1014.9517.25
科鲁尼亚,a1553641454306234292346415.0315.5114.4216.59
萨拉戈萨5067842284410238892343615.0415.8414.8216.86
坎塔布里亚3976140144173235362360214.5715.0214.0316.02
穆尔西亚3091343474557233792331015.6816.3515.3817.33
马德里28165340064094286762802112.2612.7512.0413.46

表9。

估计值的RRMSEY(Y)¯d日1,Y(Y)¯d日2R(右)d日(全部以%表示)。
Prov(保护)d日n个目录1电子束1目录2电子束2雷迪尔Rin公司
瓜达拉哈拉1910211.13611.424.8912.515.22
巴伦西亚3411810.485.5510.836.2111.496.12
昆卡1612311.116.9411.646.2312.566.76
欧伦塞321699.127.319.657.0110.567.67
布尔戈斯91879.864.688.664.8310.194.34
格拉纳达181988.305.618.175.179.355.08
阿尔巴塞特22497.3257.935.038.474.61
皇城133556.254.726.484.836.914.33
蓬特韦德拉364635.814.065.844.226.343.63
科鲁尼亚,a155365.354.105.504.105.953.56
萨拉戈萨506784.623.875.224.025.113.28
坎塔布里亚397614.284.034.323.934.933.38
穆尔西亚3091343.614.193.924.623.02
马德里2816532.953.822.933.173.372.82

8介绍了对粮食和非粮食家庭平均支出的直接和基于模型的估计,以及各省粮食支出的相应比率。估计量由dir1、eb1、dir2、eb2、Rdir和Rin表示R(右)d日(%)在Rin标记的列中和Rin+分别是。我们通过将标准正态性公式应用于插件估计值Rin及其RMSE来计算CI。该表显示,基于模型的估计遵循直接估计的模式,当样本量较大时,两种估计更接近。

9给出了直接和基于模型的估计值的RRMSEY(Y)¯d日1,Y(Y)¯d日2R(右)d日RRMSE由dir1、eb1、dir2、eb2、Rdir和Rin标记。通过观察RRMSE的列,我们得出结论,基于模型的预测因子优于直接估计因子。

7.结论

本文介绍了基于BNER模型的支出方式和比率的小面积预测因子(4). 对于给定的域,基于BNER模型的线性域参数的EBLUP从辅助数据、其他域的数据和目标变量之间的相关性中借用强度。通过使用该模型,应用统计学家可以获得跨域和目标参数以平滑稳定形式表现的域参数估计。这通常被视为官方统计的良好属性。本文还对EBLUP的最小均方误差矩阵进行了近似,并引入了显式形式估计。

双变量单位级模型是根据两个目标变量推导指标小面积预测值的最合适模型。总和或平均数的比率是此类参数的典型示例。这些参数可以通过将单变量模型拟合到每个响应变量来估计。这种方法的缺点是没有考虑响应变量之间的相关性和领域平均值的EBLUP之间的相关性。

如果目标域参数是总计或平均值,那么基于“不正确”的单独NER模型的INDEP预测因子相对于基于“真实”BNER模型的EBLUP产生效率损失,主要是当随机效应和误差的相关性具有不同的符号时。否则,效率损失相当小。主要问题不是INDEP预测本身,而是基于错误模型的相应MSE估计。这些估计值表现得相当糟糕。当目标变量正相关时,它们往往会低估最小均方误差,就像实际数据应用中发生的那样。这是一个严重错误。

在目标域参数是比率的情况下,也可以使用INDEP比率估值器。然而,在独立的单变量模型下,无法构建比率估计器MSE的适当估计器。这个问题可以通过基于BNER模型EBLUP的插入式比率预测器来处理和解决。

进行了三个仿真实验,以实证研究和检查拟合算法、预测因子(EBLUP和插件)和MSE估计量的行为。仿真1研究了REML拟合算法的行为,并实证显示了模型参数的REML估计量的一致性。模拟2研究了当使用双变量模型而不是单变量模型时,EBLUP和插件预测因子的效率增益。结论是,基于BNER模型的预测因子(4)当随机效应和随机误差的相关性具有不同的符号时,优于基于两个独立NER模型的相应估计。仿真3实证表明,引入的MSE矩阵估计量的偏差和MSE随着样本量的增加而减小。

新的小面积估算方法应用于2016年SHBS的数据。目标是估计西班牙各省的粮食和非粮食家庭年度支出的平均数以及家庭年度支出比例。估计过程考虑了两个目标变量之间的相关性。本文还将基于模型的估计与应用直接Hajéck型估计得到的相应估计进行了比较,结果表明,引入的估计比直接估计具有更低的MSE。

就西班牙各省的支出结果而言,我们可以说,家庭年度食品支出平均值最高的省份主要位于西班牙北部。此外,我们可以得出结论,一些自治区内各省的食品支出比例不同,这有助于地区当局在各省实施不同的政策。

补充材料

Suppemental Material.pdf:

资金筹措表

由经济与竞争部(MINECO)的拨款MTM2017-82724-R和PGC2018-096840-B-I00以及加利西亚咨询公司(Grupos de Referencia Competitiva ED431C-2016-015和Centro Singular de Investigación de Galicia ED431G/01)支持,所有这些都是通过ERDF提供的。

披露声明

提交人没有报告潜在的利益冲突。

工具书类

1Arima S.、Bell W.R.、Datta G.S.、Franco C.和Liseo B。,函数测量误差下小面积均值的多元Fay-Herriot Bayes估计,J.R.Stat.Soc.A公司 180(2017),第1191-1209页。doi:10.1111/rssa.12321[交叉参考][谷歌学者]
2Benavent R.和Morales D。,小面积估计的多元Fay-Herriot模型,计算。统计数据分析。 94(2016),第372-390页。doi:10.1016/j.csda.2015.07.013[交叉参考][谷歌学者]
三。Boubeta M、Lombardía M.J.和Morales D。,区域Poisson混合模型下的经验最佳预测,测试 25(2016),第548–569页。doi:10.1007/s11749-015-0469-8[交叉参考][谷歌学者]
4.Boubeta M、Lombardía M.J.和Morales D。,小区域贫困研究的泊松混合模型,计算。统计数据分析。 107(2017),第32-47页。doi:10.1016/j.csda.2016.10.014[交叉参考][谷歌学者]
5Chambers R.、Salvati N.和Tzavidis N。,二元结果的半参数小面积估计及其在英国地方当局失业估计中的应用,J.R.Stat.Soc.A公司 179(2016),第453-479页。doi:10.1111/rssa.12123[交叉参考][谷歌学者]
6Chandra H.、Salvati N.、Chambers R.和Tzavidis N。,空间非平稳条件下的小面积估计,计算。统计数据分析。 56(2012),第2875–2888页。doi:10.1016/j.csda.2012.02.006[交叉参考][谷歌学者]
7Das K.、Jiang J.和Rao J.N.K。,经验预测值的均方误差,Ann.统计。 32(2004),第818–840页。doi:10.1214/0090536040000002001[交叉参考][谷歌学者]
8Datta G.S.,第二天和Basawa I。,多元小面积估计中的经验最佳线性无偏和经验Bayes预测,J.统计。计划。推断 75(1999),第269-279页。doi:10.1016/S0378-3758(98)00147-5[交叉参考][谷歌学者]
9Datta G.S.、Fay R.E.和Ghosh M。,小面积估计中的层次和经验Bayes多元分析《人口普查局1991年年度研究会议记录》,美国人口普查局,华盛顿特区,1991年,第63-79页。
10Datta G.S.和Lahiri P。,小面积估计问题中估计的最佳线性无偏预报器不确定性的统一度量,统计师。西尼卡 10(2000),第613–627页。[谷歌学者]
11Esteban M.D.、Lombardía M.J.、López-Vizcaíno E.、Morales D.和Pérez a。,区域级成分混合模型下的比例小面积估计,测试(2020). doi:10.1007/s11749-019-00688-w[交叉参考][谷歌学者]
12Fay R.E。,多元回归在小域估计中的应用,英寸小区域统计R.Platek、J.N.K.Rao、C.E.Särndal和M.P.Singh编辑,John Wiley,纽约,1987年,第91–102页。
13.González-Manteiga W.、Lombardía M.J.、Molina I.、Morales D.和Santamaria L。,多元Fay-Herriot模型下预测误差的解析和自举近似,计算。统计数据分析。 52(2008),第5242–5252页。doi:10.1016/j.csda.2008.04.031[交叉参考][谷歌学者]
14González-Manteiga W.、Lombardía M.J.、Molina I.、Morales D.和Santamaria L。,小面积EBLUP的Bootstrap均方误差,J.统计计算。模拟。 78(2008),第443-462页。doi:10.1080/009496506011411[交叉参考][谷歌学者]
15.霍布扎·T·和莫拉莱斯·D·。,随机回归系数模型下的小面积估计,J.统计计算。模拟。 83(2013),第2160–2177页。doi:10.1080/00949655.2012.684094[交叉参考][谷歌学者]
16Hobza T.和Morales D。,单位水平logit混合模型下的经验最佳预测,J.关闭状态。 32(2016),第661-692页。doi:10.1515/jos-2016-0034[交叉参考][谷歌学者]
17Hobza T.、Morales D.和Santamaría L。,单位时间二项式混合模型下贫困比例的小面积估计,测试 27(2018),第270-294页。doi:10.1007/s11749-017-0545-3[交叉参考][谷歌学者]
18伊藤T.和久保川T。,多元嵌套误差回归模型中的经验最佳线性无偏预测因子,Commun公司。统计理论方法(2018). doi:10.1080/03610926.2019.1662048[交叉参考][谷歌学者]
19López-Vizcaíno E.、Lombardía M.J.和Morales D。,基于多项式的劳动力指标小面积估算,统计模型。 13(2013),第153-178页。doi:10.1177/1471082X13478873[交叉参考][谷歌学者]
20López-Vizcaíno E.、Lombardía M.J.和Morales D。,具有相关时间和面积效应的多项式模型下劳动力指标的小面积估计,J.R.统计协会A 178(2015),第535-565页。doi:10.1111/rssa.12085[交叉参考][谷歌学者]
21Marchetti S.和Secondi L。,使用小面积估算方法估算意大利省级家庭消费支出:使用购买力平价进行“实际”比较,社会指标。物件。 131(2017),第215-234页。doi:10.1007/s11205-016-1230-8[交叉参考][谷歌学者]
22莫利纳一世。,带对数变换的多元嵌套误差回归模型下的不确定性,J.多变量。分析。 100(2009),第963-980页。doi:10.1016/j.jmva.2008.09.007[交叉参考][谷歌学者]
23Molina I.、Saei A.和LombardíA M.J,多项式logit混合模型下劳动力参与的小面积估计,J.R.Stat.Soc.A公司 170(2007),第975-1000页。doi:10.1111/j.1467-985X.2007.00493.x[交叉参考][谷歌学者]
24莫拉莱斯·D·和桑塔马利亚·L·。,单元级时间线性混合模型下的小区域估计,J.Stat.计算。模拟。 89(2019年),第1592-1620页。doi:10.1080/00949655.2019.1590578[交叉参考][谷歌学者]
25Morales M.、Pagliarella M.C.和Salvatore R。,分区区域时间模型下贫困指标的小面积估算,统计操作。Res.事务处理。 39(2015),第19-34页。[谷歌学者]
26Ngaruye I.、Nzabanita J.、von Rosen D.和Singull M。,多变量线性模型下重复测量数据的小面积估计,Commun公司。统计理论方法 46)2017),第10835-10850页。doi:10.1080/03610926.2016.1248784[交叉参考][谷歌学者]
27.Porter A.T.、Wikle C.K.和Holan S.H。,基于潜在空间相关性的多元Fay-Herriot模型的小面积估计,澳大利亚。N.Z.J.统计。 57(2015),第15-29页。doi:10.1111/anzs.12101[交叉参考][谷歌学者]
28Prasad N.G.N.和Rao J.N.K。,小面积估计量均方误差的估计,J.Amer。统计师。协会。 85(1990年),第163-171页。doi:10.1080/01621459.1990.10475320[交叉参考][谷歌学者]
29Rao J.N.K.和Molina I。,小面积估算第二版,约翰·威利,霍博肯,纽约,2015[谷歌学者]
30Särndal C.E.、Swensson B.和Wretman J。,模型辅助调查抽样1992年,纽约施普林格。[谷歌学者]
31Tzavidis N.、Salvati N.、Pratesi M.和Chambers R。,M-分位数模型及其在贫困制图中的应用,统计方法应用。 17(2008),第393-411页。doi:10.1007/s10260-007-0070-8[交叉参考][谷歌学者]
32Ubaidillah A.、Notodiputro K.A.、Kurnia A.和Wayan I。,小面积估算的多元Fay-Herriot模型及其在印尼家庭人均消费支出中的应用,J.应用。斯达。 46(2019年),第2845-2861页。doi:10.1080/02664763.2019.1615420[交叉参考][谷歌学者]
33Valliant R.、Dorfman A.H.和Royall R.M。,有限总体抽样和推理。一种预测方法约翰·威利,纽约,2000年。[谷歌学者]

文章来自应用统计学杂志由提供泰勒和弗朗西斯