总结
巴西地理和统计研究所进行了一项年度服务调查,重点是第三产业部门。由于样本设计,巴西北部、东北部和中西部地区一些经济活动的样本估计精度较低。此外,感兴趣的主要变量之一与潜在的异常值有很大的偏差。为了克服这个问题,请扭曲法线和扭曲t吨-提出模型来生成基于模型的估计。小范围估算模型将营业收入变量与从商业登记簿中获得的潜在辅助变量(就业人数和工资)联系起来。在已知和未知抽样方差假设下,将所提出的模型与常用的Fay–Herriot模型进行了比较,并在已知方差假设下对其进行了转换。使用实际商业调查数据进行的评估研究表明,与通常使用的Fay–Herriot模型及其对数正态版本相比,所提出的模型似乎更有效地用于倾斜数据下的小区域预测。
1引言
巴西地理和统计研究所定期对经济的各个部门进行调查,包括年度服务调查(ASS),该调查收集有关第三产业某些部门的信息(巴西地理统计研究所,2012)。由于对具有更大空间细节和主题范围的信息的需求不断增长(Silva和Clarke,2008)目前,仅使用基于设计的估计值来生成本次经济调查的官方统计数据的传统过程正在被修订。根据地理区域的不同,该调查提供了不同聚合水平的行业服务部门的信息。对于南部和东南部地区,调查估计数是根据国家经济活动分类(基于国际标准工业分类)的四位数代码定义的分解水平由经济活动产生的。至于北部、东北部和中西部地区的各州,ASS以三位数代码提供了国家经济活动分类的估计数。
为了在更分类的分类水平(四位数代码)上获得全国的准确估计,需要使用小面积估计方法来改进官方统计数据,因为目前公布的所有州的估计数并不在同一经济分类水平上。然而,在这种情况下,由于经济变量的特点,使用小面积估算方法面临一些具体问题。此外,基于模型的商业调查小面积估算在官方统计方案中通常不可用。
在商业调查中,对小型领域感兴趣数量的估计面临着特殊困难。这些困难与经济的实际结构和动态有关。小企业和大公司并存于市场中,这使得市场具有非常不对称的特征。就服务的性质而言,也有很大的不同——同一项调查涵盖了电信、信息技术、运输和食品服务以及许多其他活动。此外,特定服务领域的公司可以更容易地开展新活动或改变业务,因为这不需要高初始投资(Riviere,2002).
因此,本文的主要目标是开发基于模型的估计器,以生成各州和经济活动的总营业收入估计值,这些估计值目前由于ASS抽样设计而不可用。Neves报告了之前对该调查数据应用小面积估算模型的情况等. (2013)世卫组织实施了传统的单位和地区级模型,并说明了处理偏态调查响应变量的困难,这表明需要对响应变量和辅助变量进行对数转换。反过来,对数变换会影响小面积平均值的估计及其各自的均方误差估计。
为了应对使用真实调查数据的挑战,并开发巴西地理和统计研究所可以实际采用的技术,制定了一个研究项目,以评估贝叶斯方法在商业调查小面积估算中的使用。
虽然复杂贝叶斯模型的使用需要计算密集的马尔可夫链蒙特卡罗模拟算法,但贝叶斯方法对于小面积估计有几个潜在的好处。它提供了一个连贯的框架,可以处理不同类型的目标变量(例如连续、二分或分类)和不同的随机效应结构(例如独立或空间相关),以及没有直接调查信息的区域,平滑调查样本方差估计的模型,等等,以一致的方式,使用相同的计算方法和软件,无论是什么模型。所有模型参数的不确定性都可以通过小面积估计值的后验分布和这些估计值的任何函数(例如它们的秩)自动捕获。贝叶斯方法特别适合于稀疏数据问题(例如,当每个区域的调查样本量较小时),因为贝叶斯后验推断是准确的(与估计算法相关的模蒙特卡罗模拟误差),并且不依赖于渐近参数。从贝叶斯模型获得的后验分布也提供了比相应的基于似然模型的传统点和区间估计更丰富的输出。特别是,对未知量做出直接概率陈述的能力,例如目标变量在每个区域超过某个指定阈值的概率,以及量化模型中所有不确定性来源的能力,使得贝叶斯小区域估计非常适合于通知和评估政策决策。
业务数据的一个重要特征是缺少良好的单位级辅助变量,这使得区域级更具吸引力。大多数地区级模型的灵感来源于Fay和Herriot(1979)。然而,由于Fay–Herriot模型假设其各自真实均值和真实方差的直接估计条件分布是独立的正态分布,因此它不适合拟合倾斜数据或处理离群值,特别是对于样本量非常小的区域。尽管Fay–Herriot模型及其扩展已成功应用于许多应用中,但仍有一些特定情况下不适用。正如辛哈和饶所指出的那样(2009)小面积均值或总均值的经验最佳线性无偏预测因子对异常值的存在或模型假设不成立时非常敏感。辛哈和饶(2009)提出了一种基于混合线性模型的稳健性小面积估计方法,该模型在估计模型参数时会对数据中任何有影响的观测值进行加权。通过在单元级和/或区域级误差的污染分布下进行的模拟研究,对其方法的性能进行了评估。辛哈和饶(2009)说明了采用合适的稳健方法处理异常值的重要性。
钱伯斯和扎维迪斯(2006)是第一个关于小面积估计的参考文献,它明确地解决了野值稳健性问题,使用了一种基于拟合野值稳健的方法米-分位数模型用于调查数据。然而,钱伯斯等. (2014)观察到EM分位数估计量可能存在显著的偏差,并提出了对米-分位数估计器。他们还提供了米-分位数估计器。
从贝叶斯方法的角度来看,Datta和Lahiri(1995)基于一类相当丰富的正态先验分布的比例混合,开发了一种稳健的分层方法。贝尔和黄(2006)还使用了基于t吨-分配k个>2个已知自由度,用于处理随机区域效应或采样误差效应中的异常值。法布里齐和特里维萨诺(2010)建议通过假设随机区域效应按指数幂分布或倾斜指数幂分布分布来提高Fay–Herriot模型的鲁棒性。
上面讨论的一种替代方法是将对数变换应用于响应(直接估计器)或响应和辅助区域级变量。另一种选择是使用非对称分布来建模直接估计器。沿着这条线,我们指的是费拉兹和莫拉的工作(2012)他将直接调查估计器建模为正态偏态分布,以考虑偏态数据。然而,在他们的公式中,随着面积样本量的增加,它收敛到常用的正态模型。事实上,由于中心极限定理,随着样本量的增加,任何加权平均估计量的分布都必须一致收敛于正态分布。费拉兹和莫拉(2012)成功地将斜态正态模型拟合到140个统计区域的居民平均收入。这些数据是从巴西一次实验性人口普查中提取的。由于真正的面积意味着已知,费拉兹和莫拉(2012)可以将正态和斜态模型得到的小面积预测与各自的真实模型进行比较,并在实践中验证其方法的优越性。
将不同的小区域模型结合在一起用于倾斜数据,这项工作的主要目的是应用和比较不同的方法来建模倾斜的商业调查数据。我们考虑非变换的斜法线,斜t吨-、正态模型以及正态模型的对数变换。本文介绍了基于2010年ASS数据的第一个结果,并讨论了需要考虑的增强选项。
以下部分描述了测量设计并介绍了本工作的重点估算问题三对本文所考虑的模型进行了回顾。章节4给出了一些结果,并将我们的方法与常规正态模型进行了模型比较。章节5为进一步研究提供了一些结论和建议。
2年度服务调查
ASS从主要业务是向个人和企业提供服务的公司收集财务和运营数据(如收入和支出)。估计数由各州根据国家经济活动分类(巴西地理统计研究所,2012)。统计单位是企业,抽样框架是基于巴西地理统计研究所保存的行政记录的商业登记簿。
企业按照经济活动和地理区域(州)以及每年12月31日商业登记簿上记录的员工人数进行分层。所有拥有20名或20名以上员工的企业,以及在一个以上州经营的企业,都包含在其所有服务行业地点的调查和报告数据中。其余企业(员工少于20人且仅在一个州经营的企业)按员工人数分层(0-4、5-9和10-19)。然后,最终样本由所有阶层的企业和通过简单随机抽样在各州、经济活动和企业规模(如员工人数)定义的一些阶层中随机选择的企业组成。
在这里,我们考虑了一部分州和服务业。这个想法是把重点放在公司主要在一个州经营的经济活动上。这项研究仅限于该国东北部各州,对这些州的官方估计是在更总体的行业分类水平上公布的。利息变量是总营业收入。辅助变量来自巴西劳动和就业部根据企业每年强制性提供的信息编制的行政数据:就业人数、工资和机构数量。我们的主要目标是按类别(四位数经济分类)生成巴西东北部各州2010年的基于模型的估计数。
2.1研究领域
调查人口,仅限于东北部各州和表中列出的服务1在构成调查抽样框架的商业登记册上列出的1401167家公司中,有48600家公司。相应的样本包括2986家企业。
服务. | 经济分类. |
---|
4位ISIC代码. | 2–3位ISIC代码. |
---|
. | 小型域. | (公布的估计数). |
---|
食品和饮料 | 5611-2 | 561 |
工程和建筑 | 7111-4, 7112-0, 7119-7 | 711 |
广告 | 7311-4, 7312-2, 7319-0 | 731 |
个人和 | 7722-5, 7723-3, 7729-2 | 772 |
家庭用品 | | |
旅行社和旅行社活动 | 7911-2 | 79 |
清洁和虫害控制 | 8121-4, 8122-2 | 812 |
外语教学 | 8593-7, 8599-6 | 859 |
创意、艺术和娱乐活动 | 9001-9 | 90 |
健身中心和其他健身设施 | 9313-1 | 931 |
其他个人服务 | 9601-7, 9602-5, 9603-3 | 960 |
服务. | 经济分类. |
---|
4位ISIC代码. | 2–3位ISIC代码. |
---|
. | 小型域. | (已公布的估计数). |
---|
食品和饮料 | 5611-2 | 561 |
工程和建筑 | 7111-4, 7112-0, 7119-7 | 711 |
广告 | 7311-4, 7312-2, 7319-0 | 731 |
个人和 | 7722-5, 7723-3, 7729-2 | 772 |
家庭用品 | | |
旅行社和旅行社活动 | 7911-2 | 79 |
清洁和虫害控制 | 8121-4, 8122-2 | 812 |
外语教学 | 8593-7, 8599-6 | 859 |
创意、艺术和娱乐活动 | 9001-9 | 90 |
健身中心和其他健身设施 | 9313-1 | 931 |
其他个人服务 | 9601-7, 9602-5, 9603-3 | 960 |
服务. | 经济分类. |
---|
4位ISIC代码. | 2–3位ISIC代码. |
---|
. | 小型域. | (公布的估计数). |
---|
食品和饮料 | 5611-2 | 561 |
工程和建筑 | 7111-4, 7112-0, 7119-7 | 711 |
广告 | 7311-4, 7312-2, 7319-0 | 731 |
个人和 | 7722-5, 7723-3, 7729-2 | 772 |
家庭用品 | | |
旅行社和旅行社活动 | 7911-2 | 79 |
清洁和虫害控制 | 8121-4、8122-2 | 812 |
外语教学 | 8593-7, 8599-6 | 859 |
创意、艺术和娱乐活动 | 9001-9 | 90 |
健身中心和其他健身设施 | 9313-1 | 931 |
其他个人服务 | 9601-7, 9602-5, 9603-3 | 960 |
服务. | 经济分类. |
---|
4位ISIC代码. | 2–3位ISIC代码. |
---|
. | 小型域. | (公布的估计数). |
---|
食品和饮料 | 5611-2 | 561 |
工程和建筑 | 7111-4, 7112-0, 7119-7 | 711 |
广告 | 7311-4, 7312-2, 7319-0 | 731 |
个人和 | 7722-5, 7723-3, 7729-2 | 772 |
家庭用品 | | |
旅行社和旅行社活动 | 7911-2 | 79 |
清洁和虫害控制 | 8121-4, 8122-2 | 812 |
外语教学 | 8593-7, 8599-6 | 859 |
创意、艺术和娱乐活动 | 9001-9 | 90 |
健身中心和其他健身设施 | 9313-1 | 931 |
其他个人服务 | 9601-7, 9602-5, 9603-3 | 960 |
表1显示了本研究范围内的服务活动。由于ASS的样本量限制,该国大部分地区的直接调查估计仅按组(三位数经济分类)进行。因此,本研究考虑的领域由表中列出的四位数ISIC代码定义1在巴西东北部的九个州中,每个州都有102个目标小域名。
由于ASS是通过采用分层样本设计获得的,因此重要的是要考虑框架和每个取样点和所有取样层的样本分布。而在抽样框架中,大企业和许多小企业按比例减少,而在样本中则相反,其中大多数企业属于“全面”阶层,从“部分”阶层中选择的企业更少。差距很大:抽样框架中95%的企业属于抽样阶层,而只有30%的抽样单位是从这些抽样阶层中选择的。之所以会出现这种情况,是因为使用了基于1998年第一次调查时的雇员人数的阈值,多年来影响了阶层定义和样本构成。
表2按take-all和take-some层显示了域大小在总体和样本中的累积分布。正如预期的那样,对于全盘层面,样本量几乎达到了人口领域的规模,但非响应案例除外。因此,我们决定开发小面积模型,以改进对采出地层的估计。因此,小面积估算程序的102个感兴趣的领域包括抽样框架中的44307家公司,以及最初分配给抽样层的769家公司。值得强调的是,70%的被调查阶层中最多有9家企业。
十进制. | 总计. | Take-all地层. | Take-some地层. |
---|
. | 采样框,N. | 样品,n. | 采样框,N. | 样品,n. | 采样框,N. | 样品,n. |
---|
0 | 3 | 3 | 3 | 3 | 21 | 3 |
10 | 4 | 3 | 3.9 | 3 | 45.1 | 3 |
20 | 7.2 | 3 | 4 | 4 | 66.4 | 3 |
30 | 15 | 4 | 6 | 5 | 83.3 | 4 |
40 | 28.4 | 6 | 7 | 6.6 | 110.4 | 5.4 |
50 | 56 | 7.5 | 10 | 9 | 148.5 | 6.5 |
60 | 84 | 9 | 15 | 13.4 | 189.6 | 8 |
70 | 133.7 | 11 | 18.3 | 16 | 256.7 | 10 |
80 | 221.8 | 15 | 26.4 | 24.2 | 419.2 | 11 |
90 | 459.4 | 22 | 56.9 | 53.9 | 886.7 | 14 |
100 | 8314 | 445 | 489 | 445 | 8314 | 22 |
小数. | 总计. | Take-all地层. | Take-some地层. |
---|
. | 采样框,N. | 样品,n. | 采样框,N. | 样品,n. | 采样框,N. | 样品,n. |
---|
0 | 3 | 3 | 3 | 3 | 21 | 3 |
10 | 4 | 3 | 3.9 | 3 | 45.1 | 3 |
20 | 7.2 | 3 | 4 | 4 | 66.4 | 3 |
30 | 15 | 4 | 6 | 5 | 83.3 | 4 |
40 | 28.4 | 6 | 7 | 6.6 | 110.4 | 5.4 |
50 | 56 | 7.5 | 10 | 9 | 148.5 | 6.5 |
60 | 84 | 9 | 15 | 13.4 | 189.6 | 8 |
70 | 133.7 | 11 | 18.3 | 16 | 256.7 | 10 |
80 | 221.8 | 15 | 26.4 | 24.2 | 419.2 | 11 |
90 | 459.4 | 22 | 56.9 | 53.9 | 886.7 | 14 |
100 | 8314 | 445 | 489 | 445 | 8314 | 22 |
十进制. | 总计. | Take-all地层. | Take-some地层. |
---|
. | 采样框,N. | 样品,n. | 采样帧,N. | 样本,n. | 采样框,N. | 样本,n. |
---|
0 | 3 | 3 | 3 | 3 | 21 | 3 |
10 | 4 | 3 | 3.9 | 3 | 45.1 | 3 |
20 | 7.2 | 3 | 4 | 4 | 66.4 | 3 |
30 | 15 | 4 | 6 | 5 | 83.3 | 4 |
40 | 28.4 | 6 | 7 | 6.6 | 110.4 | 5.4 |
50 | 56 | 7.5 | 10 | 9 | 148.5 | 6.5 |
60 | 84 | 9 | 15 | 13.4 | 189.6 | 8 |
70 | 133.7 | 11 | 18.3 | 16 | 256.7 | 10 |
80 | 221.8 | 15 | 26.4 | 24.2 | 419.2 | 11 |
90 | 459.4 | 22 | 56.9 | 53.9 | 886.7 | 14 |
100 | 8314 | 445 | 489 | 445 | 8314 | 22 |
十进制. | 总计. | Take-all地层. | Take-some地层. |
---|
. | 采样框,N. | 样品,n. | 采样框,N. | 样品,n. | 采样框,N. | 样品,n. |
---|
0 | 3 | 3 | 3 | 3 | 21 | 3 |
10 | 4 | 3 | 3.9 | 3 | 45.1 | 3 |
20 | 7.2 | 3 | 4 | 4 | 66.4 | 3 |
30 | 15 | 4 | 6 | 5 | 83.3 | 4 |
40 | 28.4 | 6 | 7 | 6.6 | 110.4 | 5.4 |
50 | 56 | 7.5 | 10 | 9 | 148.5 | 6.5 |
60 | 84 | 9 | 15 | 13.4 | 189.6 | 8 |
70 | 133.7 | 11 | 18.3 | 16 | 256.7 | 10 |
80 | 221.8 | 15 | 26.4 | 24.2 | 419.2 | 11 |
90 | 459.4 | 22 | 56.9 | 53.9 | 886.7 | 14 |
100 | 8314 | 445 | 489 | 445 | 8314 | 22 |
3倾斜区域级模型
阿扎利尼(1985)引入了斜态正态分布族,该族保留了一些正态分布特性,但允许通过形状参数产生偏态λ∈ ℜ, 它调节了分布的不对称性。这类分布包括作为成员的正态分布,并允许从非正态到正态的连续过渡。歪斜正态分布的特性对于歪斜的业务数据非常有吸引力。我们使用阿扎里尼符号(1985)表示斜法向密度函数:
其中Φ(·)和ϕ(·)分别表示标准正态分布的累积分布函数和密度函数。参数ξ,σ和λ分别是分布的位置、尺度和偏度(形状)参数。什么时候?λ=0,则作为特殊情况获得正态分布。斜正态分布有一些有趣的性质,其中一些与正态分布共享。斜态正态分布的均值和方差由下式给出E类(X(X)) =ξ+σδ√(2/π)和V(V)(X(X)) =σ2{1−(2/π)δ2},其中δ=λ/√(1 +λ2).
斜法向密度的样本可以使用以下随机表示分层生成:
(1)
其中HN(一,b条)表示带有位置和刻度参数的半正态分布一和b条分别是。这种随机表示对于统计包的实现很有用,例如WinBUGS(Spiegelhalter等。,2004).
据阿扎里尼和卡皮塔尼奥称(2014),偏斜正态密度具有非常短的尾部,使得偏斜正态族不适合于一系列应用领域,在这些应用领域中,已知观测数据的分布具有更重的尾部,有时明显更重。因此,当偏斜和对可能的异常值的鲁棒性都是主要问题时,可能值得拟合偏斜t吨-分发到数据。偏斜的密度t吨-位置、比例、形状和自由度参数等于0、1的分布,λ和ν可以分别写为
(2)
哪里t吨(x个,ν)和T型(λx;ν)分别表示学生的密度和分布函数t吨-分配ν自由度。族(2)的扩展包括一个位置ξ和比例参数σ通过考虑Y(Y)=ξ+σX我们应该这么说Y(Y)有歪斜t吨-分发和写入Y(Y)~ST(ξ,σ,λ,ν)。歪斜t吨-分布可以写成斜正态分布和伽马分布的混合:
(3)
其中符号Y(Y)~镓(一,b条)一般表示Y(Y)γ分布的概率密度函数为
倾斜的平均值t吨-分布由下式给出
(4)
3.1接头歪斜法向和歪斜t吨标准模型
费拉兹和莫拉(2012)为直接测量估计器提出了以下联合模型年我及其抽样方差估计:
(5)
哪里米是小域的数量,n个我是中的样本大小我人口中的th域N个我单位,我= 1, …,米、和是辅助区域级变量的线性函数z(z)我具有未知固定系数β和随机小面积效应v(v)我我们感兴趣的主要参数是,期望年我在偏斜法线模型(5)下,由
(6)
哪里,使用λ我=λ/√n个我.抽样方差估计模型(5)中提供了有关比例参数的信息ϕ我.估计器应该是一个无偏估计量ϕ我。对于我们扭曲的业务数据,我们有年我和表示总直接估计量及其样本方差我第,我=1,…,102,域。
为了从区域中获得强度,通过引入与参数相关的层次结构来完成模型v(v)我和ϕ我。对于v(v)我-参数,假设它们独立分布. Theϕ我假设s是条件独立的,并且是逆伽马分布的,,未知一ϕ和b条ϕ由于巴西ASS中采用的取样和估算程序年我非常复杂,我们选择不建模抽样方差ϕ我作为样本大小的函数n个我.
通过为模型参数分配独立和适当的先验信息,完成模型:β∼N个第页(O(运行),Ωβ),一ϕ~镓(一,b条),b条ϕ~镓(c(c),d日)和为了获得相对模糊的先验值,我们设置Ωβ= 1000我三和一=b条=c(c)=d日=一ν=b条ν=0.01,适用于巴西商业数据。
先验分布的推导λ带来了一些额外的问题。费拉兹和莫拉(2012),在Sugden中使用结果等. (2000),提出了参数的正态分布λ,中心接近零,标准偏差由σλ= 5.5一γ/2.576,其中一γ是之前对偏斜度系数的猜测或估计γ.对于我们估计的业务数据一γ= 4.7. 因此,我们之前λ设置为λ∼N个(0, 100). 歪斜t吨-模型使用与正常模型相同的分布和先验完成。对于自由度参数ν,我们对ν从5到20不等(参见第节4详细信息)。使用上一小节中定义的符号t吨正常模型可以写成
(7)
这里,我们感兴趣的参数是θ我在倾斜的情况下t吨-模型。使用表达式(4),我们得到
(8)
4结果
总营业收入和辅助变量来自企业中央登记册,该登记册是巴西地理和统计研究所保存的商业登记册,用作其经济统计方案的主要框架。登记册包含一些辅助变量,例如行业分类、员工人数、工资和机构数量。员工数量是生产的一个重要因素,尤其是服务业,服务业通常是劳动密集型活动。此外,工资信息决定了不同的职业资格和生产力水平,而机构数量则表明了规模和业务复杂性。还考虑到了与法律地位和业务特点有关的其他指标变量。建模过程中考虑了所有可用的辅助变量,但只有员工数量和工资具有统计显著性。此外,这两个辅助变量是相关的,不能同时包含在模型中(当两者都存在时,有证据表明存在多重共线性)。对每个协变量的模型进行了评估,但本文提出的所有地区级模型都将总工资作为辅助变量,因为它们在预测总营业收入方面表现出更好的性能。对总营业收入估计数的初步分析表明,该估计数存在很大的偏差。表三显示了102个域的估计值的一些汇总统计信息。值得注意的是,Fisher偏态系数约为5。这一信息表明,我们提出的方法比基于正态分布的传统方法更合适。
最小值 | 491 |
第一分位数 | 7880 |
中值的 | 15722 |
平均值 | 51087 |
第三分位数 | 40750 |
最大值 | 570006 |
最小值 | 491 |
第一分位数 | 7880 |
中值的 | 15722 |
平均值 | 51087 |
第三个分位数 | 40750 |
最大值 | 570006 |
最小值 | 491 |
第一分位数 | 7880 |
中值的 | 15722 |
平均值 | 51087 |
第三分位数 | 40750 |
最大值 | 570006 |
最小值 | 491 |
第一分位数 | 7880 |
中值的 | 15722 |
平均值 | 51087 |
第三分位数 | 40750 |
最大值 | 570006 |
为了进行比较,我们还拟合了已知方差假设下的常规Fay–Herriot正态模型(等于直接估计器的抽样方差估计),以及建模模型(5)中的抽样方差。我们将后者命名为“正常模型”。我们还考虑了Fay–Herriot模型的对数变换。我们将其称为“log-normal模型”,可以这样写
(9)
因此,每个我=1,…,102面积为,期望年我在对数正态模型下
(10)
哪里所有其他参数的先验值与分配给Fay–Herriot模型的参数相同。
我们使用马尔可夫链蒙特卡罗模拟来生成所有模型下的后验分布样本。每个链生成两条长度为100000的链,前50000条被丢弃。因此,所有拟合模型的模型参数后验分布总结均基于10000个样本。与所有超参数的各自后验均值相比,这个大样本使得蒙特卡罗标准误差较小。此外,通过绘制这两条链的轨迹,非正式地评估了收敛性。对于所有超参数和所有拟合模型感兴趣的小面积量,两条链生成的所有值在一个区域内混合并稳定。
为了进一步推动斜交模型的使用,图。1给出了Fay–Herriot模型(具有已知方差的正态模型)应用于ASS数据的残差图,图。2显示了标准化残差的图表控制。由于对正态模型残差图的分析表明了一些偏倚和可能的极值的证据,我们测试了偏倚正态和偏倚t吨区域模型。
为了评估自由度对总营业总收入领域估算的影响,我们拟合了五种偏差t吨-具有5、10、15、20和25个自由度的模型。除了歪斜t吨-模型具有5个自由度,其他4个自由度的域估计值之间没有太大差异。图。三显示根据方程式计算的变异系数(12)从图中可以看出。三所有的歪曲t吨-模型有非常相似的变异系数值,除了倾斜t吨-模型具有5个自由度,其中一个域的变异系数约为102%。我们还使用了偏差信息标准DIC值,如第节所示4.1从五个斜面中选择一个t吨-模型用于未来模型性能的分析和比较。根据DIC值t吨-具有5和20个自由度的模型最适合数据,尽管在所有倾斜方面,DIC测量值之间没有太大差异t吨-模型;参见表4了解详细信息。因为倾斜t吨-具有20个自由度的模型比斜交模型性能更好t吨-关于小面积估计的变异系数,我们只考虑了5个自由度的模型ν所有斜交均=20t吨-从现在开始进行模型比较。
倾斜t模型. | 驾驶员信息中心. | . | P(P)D类. |
---|
ν= 5 | 1961 | 1898 | 63 |
ν= 10 | 1969 | 1883 | 86 |
ν= 15 | 1965 | 1880 | 85 |
ν=20 | 1961 | 1875 | 86 |
ν= 25 | 1967 | 1880 | 86 |
倾斜t模型. | 驾驶员信息中心. | . | P(P)D类. |
---|
ν= 5 | 1961 | 1898 | 63 |
ν= 10 | 1969 | 1883 | 86 |
ν= 15 | 1965 | 1880 | 85 |
ν= 20 | 1961 | 1875 | 86 |
ν= 25 | 1967 | 1880 | 86 |
倾斜t模型. | 驾驶员信息中心. | . | P(P)D类. |
---|
ν= 5 | 1961 | 1898 | 63 |
ν= 10 | 1969 | 1883 | 86 |
ν= 15 | 1965 | 1880 | 85 |
ν= 20 | 1961 | 1875 | 86 |
ν= 25 | 1967 | 1880 | 86 |
倾斜t模型. | 驾驶员信息中心. | . | P(P)D类. |
---|
ν= 5 | 1961 | 1898 | 63 |
ν= 10 | 1969 | 1883 | 86 |
ν= 15 | 1965 | 1880 | 85 |
ν= 20 | 1961 | 1875 | 86 |
ν= 25 | 1967 | 1880 | 86 |
表5显示了斜交正态模型和斜交模型收敛后模型参数后验分布的一些汇总统计信息t吨-具有20个自由度的模型。从表中可以看出5形状参数λ对于这两种模型,都显著大于0。这一结果与我们的预期相符,即扭曲的商业数据应该具有正的扭曲度。偏斜法线和偏斜的各个点估计的比较t吨-模型表明,除了截距和随机小面积效应的方差外,两者之间没有太大差异,截距在两个模型中都是不精确估计的。即使两个模型中的截距都估算得很糟糕,我们还是决定保留它们进行预测。面积随机效应的共同方差非常高,这表明面积变化的很大一部分不是由辅助变量解释的。
统计的. | 斜法向配合. | 带ν的倾斜t= 20适合. |
---|
平均值. | 标准. | 2.5%. | 97.5%. | 平均值. | 标准. | 2.5%. | 97.5%. |
---|
. | . | 偏离. | . | . | . | 偏离. | . | . |
---|
β0(截距) | 0.30 | 31.49 | −61.34 | 61.89 | 5.6 | 31.4 | −55.6 | 67.3 |
β1(工资) | 2.84 | 0.15 | 2.55 | 3.14 | 2.76 | 0.15 | 2.55 | 3.14 |
( × 106) | 5.51 | 1.97 | 2.54 | 1.02 | 1.7 | 1 | 2.2 | 3.9 |
λ | 8.75 | 3.05 | 4.38 | 16.26 | 7.19 | 2.98 | 3.45 | 14.62 |
一ϕ | 0.09 | 0.01 | 0.07 | 0.11 | 0.11 | 0.01 | 0.09 | 0.13 |
b条ϕ | 937 | 319 | 416 | 1653 | 1387 | 388 | 730 | 2241 |
统计的. | 斜法向配合. | 带ν的倾斜t= 20适合. |
---|
平均值. | 标准. | 2.5%. | 97.5%. | 平均值. | 标准. | 2.5%. | 97.5%. |
---|
. | . | 偏离. | . | . | . | 偏离. | . | . |
---|
β0(截距) | 0.30 | 31.49 | −61.34 | 61.89 | 5.6 | 31.4 | −55.6 | 67.3 |
β1(工资) | 2.84 | 0.15 | 2.55 | 3.14 | 2.76 | 0.15 | 2.55 | 3.14 |
(×106) | 5.51 | 1.97 | 2.54 | 1.02 | 1.7 | 1 | 2.2 | 3.9 |
λ | 8.75 | 3.05 | 4.38 | 16.26 | 7.19 | 2.98 | 3.45 | 14.62 |
一ϕ | 0.09 | 0.01 | 0.07 | 0.11 | 0.11 | 0.01 | 0.09 | 0.13 |
b条ϕ | 937 | 319 | 416 | 1653 | 1387 | 388 | 730 | 2241 |
统计的. | 斜法向配合. | 带ν的倾斜t= 20适合. |
---|
平均值. | 标准. | 2.5%. | 97.5%. | 平均值. | 标准. | 2.5%. | 97.5%. |
---|
. | . | 偏离. | . | . | . | 偏离. | . | . |
---|
β0(截距) | 0.30 | 31.49 | −61.34 | 61.89 | 5.6 | 31.4 | −55.6 | 67.3 |
β1(工资) | 2.84 | 0.15 | 2.55 | 3.14 | 2.76 | 0.15 | 2.55 | 3.14 |
( × 106) | 5.51 | 1.97 | 2.54 | 1.02 | 1.7 | 1 | 2.2 | 3.9 |
λ | 8.75 | 3.05 | 4.38 | 16.26 | 7.19 | 2.98 | 3.45 | 14.62 |
一ϕ | 0.09 | 0.01 | 0.07 | 0.11 | 0.11 | 0.01 | 0.09 | 0.13 |
b条ϕ | 937 | 319 | 416 | 1653 | 1387 | 388 | 730 | 2241 |
统计的. | 斜法向配合. | 带ν的倾斜t= 20适合. |
---|
平均值. | 标准. | 2.5%. | 97.5%. | 平均值. | 标准. | 2.5%. | 97.5%. |
---|
. | . | 偏离. | . | . | . | 偏离. | . | . |
---|
β0(截距) | 0.30 | 31.49 | −61.34 | 61.89 | 5.6 | 31.4 | −55.6 | 67.3 |
β1(工资) | 2.84 | 0.15 | 2.55 | 3.14 | 2.76 | 0.15 | 2.55 | 3.14 |
( × 106) | 5.51 | 1.97 | 2.54 | 1.02 | 1.7 | 1 | 2.2 | 3.9 |
λ | 8.75 | 3.05 | 4.38 | 16.26 | 7.19 | 2.98 | 3.45 | 14.62 |
一ϕ | 0.09 | 0.01 | 0.07 | 0.11 | 0.11 | 0.01 | 0.09 | 0.13 |
b条ϕ | 937 | 319 | 416 | 1653 | 1387 | 388 | 730 | 2241 |
按照通常的方法评估小面积估算模型,图。4显示后验均值之间相对差异(百分比)的箱线图()以及在假设模型下获得的直接估计(ξ),其中符号D类表示所有102个领域的直接估计值及其方差的相应估计值所提供的数据集:
(11)
此外,图中还比较了小域估计的变异系数。5.在基于设计的方法下,获得了直接估计量的变异系数CV,并给出了每种方法的基于模型的变异系数我第个区域,我=1,…,102,乘以θ我及其在假设模型下的后验均值ξ:
(12)
图4
基于模型的估计值和直接估计值之间相对差异百分比的箱线图
我们可以从图中看到。4斜度法向和斜度t吨-模型的偏差小于通常使用的正态面积模型和对数正态模型。此外,倾斜和倾斜t吨-模型比对应的模型精确得多。此外,图。5显示了倾斜和倾斜t吨-模型比对应的模型精确得多。对数正态模型在基于模型的估计过程中表现出最差的性能。它还高估了大多数地区的实际小面积面积,而且非常不精确。由于其不可否认的糟糕表现,我们在下面的进一步分析中不考虑它。
虽然小面积估计方法正是为了解决子种群中样本数据不足的问题,但当样本量太小时,模型可能无法提供很好的结果。事实上,这是这里的普遍情况,因为研究范围仅包括分配在某些阶层的统计单位,其中80%的领域在样本中有11家或更少的企业(如表所示2)。尽管如此,所提出的小面积模型能够产生比直接估计更精确的估计。
图。6表明在偏斜模型的情况下,直接估计和基于模型的估计更好地相互跟踪。图。7此外,在倾斜模型中,变异系数随着样本量的增加而下降,符合预期趋势,与竞争正态模型相比,变异性较小。然而,偏斜法线和偏斜t吨-根据DIC值,模型具有大致相同的拟合优度。
图6
基于模型和直接估计的散点图(直接和基于模型的估计用10表示5巴西雷亚尔):(a)费伊-赫里奥特;(b) 正常;(c) 斜法向;(d) 倾斜t吨有20个自由度
图7
基于模型的估计和领域样本大小的变异系数散点图:(a)Fay–Herriot;(b) 正常;(c) 斜法向;(d) 倾斜t吨有20个自由度
4.1模型DIC比较
在上一节中,为了进行小面积预测,倾斜模型似乎比正常数据更适合倾斜收入数据。歪斜和歪斜之间的其他比较t吨-正态和对数正态模型支持这一推测。表6给出偏差信息标准DIC和偏差的后验均值,,用于年我有关这些措施含义的更多详细信息,请参阅Spiegelhalter等. (2002)。DIC最小的模型应该是最能预测以下重复数据集的模型年我正如预期的那样,倾斜模型似乎比竞争模型更适合倾斜的业务数据。
替代模型. | 驾驶员信息中心. | . | P(P)D类. |
---|
费伊-赫里奥特 | 2168 | 2139 | 29 |
方差未知的正态分布 | 2110 | 2028 | 82 |
对数正态分布 | 2187 | 2104 | 83 |
法线倾斜 | 1964 | 1879 | 85 |
倾斜t吨 | 1961 | 1875 | 86 |
替代模型. | 驾驶员信息中心. | . | P(P)D类. |
---|
费伊-赫里奥特 | 2168 | 2139 | 29 |
方差未知的正态分布 | 2110 | 2028 | 82 |
对数正态分布 | 2187 | 2104 | 83 |
倾斜法线 | 1964 | 1879 | 85 |
倾斜t吨 | 1961 | 1875 | 86 |
替代模型. | 驾驶员信息中心. | . | P(P)D类. |
---|
费伊-赫里奥特 | 2168 | 2139 | 29 |
方差未知的正态分布 | 2110 | 2028 | 82 |
对数正态分布 | 2187 | 2104 | 83 |
倾斜法线 | 1964 | 1879 | 85 |
倾斜t吨 | 1961 | 1875 | 86 |
替代模型. | 驾驶员信息中心. | . | P(P)D类. |
---|
费伊-赫里奥特 | 2168 | 2139 | 29 |
方差未知的正态分布 | 2110 | 2028 | 82 |
对数正态分布 | 2187 | 2104 | 83 |
倾斜法线 | 1964 | 1879 | 85 |
倾斜t吨 | 1961 | 1875 | 86 |
5结束语和对未来工作的建议
需要强调的是,这是第一个使用贝叶斯方法为巴西商业调查生成小范围估计值的举措。传统上,国家统计局在定期编制官方统计数据时不经常使用贝叶斯框架。然而,在“大数据”时代,编制可靠的广泛估计数面临的挑战,尤其是在社会和经济状况更加多样化、面临持续预算限制的国家,为探索各种方法提供了机会,包括本文提出的马尔可夫链蒙特卡罗方法。巴西统计局支持该项目,寻求新的解决方案来满足用户的需求。
总体而言,偏斜法线和偏斜t吨区域级模型产生的估计值具有比从正常模型及其对数变换版本获得的估计值更低的变异系数。此外,对正态标准化残差的分析表明,正态模型不能很好地拟合倾斜的巴西商业数据。一些非正式的偏差诊断表明,偏斜模型比正常模型具有更小的偏差。歪斜t吨-模型可以作为处理偏态和离群值的一种替代方法,但还需要进行进一步的理论发展和研究,以推断自由度参数。
为了进一步实施建议的模型以生成官方统计数据,有必要考虑完整的调查数据,对模型进行拟合,调整方法以分别考虑部分和全部层面的企业。
最后,应该指出,巴西地理和统计研究所自1998年以来一直在开展ASS。我们工作的主要发现鼓励将斜交区域模型扩展为动态斜交正态模型,以从重复的年度调查中获得优势。
致谢
我们感谢联合主编、副主编和裁判们提出的非常周到和建设性的意见。我们还感谢巴西地理和统计研究所对该项目的支持。本文中表达的观点是作者的观点,并不一定反映巴西地理和统计研究所的政策。
工具书类
©2017皇家统计学会