总结
在将模型拟合到对数变换的响应变量的一般情况下,从理论上研究了Fay–Herriot正态误差模型中小面积估计量的均方误差的精确估计问题。对于偏差修正的经验最佳线性无偏预测小面积点估计量,给出了均方误差公式和估计量,其偏差小于小面积数的倒数。在美国人口普查局正在进行的“小地区收入和贫困估算”项目中,一项模拟研究和一个与县一级儿童贫困率估算相关的实际数据示例说明了这些均方误差估算器的性能。
1.简介
小面积估算在调查应用中变得越来越重要,尤其是在官方统计领域,因为立法授权要求在比国家调查直接估算准确描述的范围更窄的管辖范围内进行社会经济估算。由于使用调查结果作出的决策可能会产生很大的影响,因此报告估计值及其精度非常重要,而均方误差(MSE)是衡量精度的标准,已成为小面积领域(Rao,2003).
特别是当调查测量变量时,如人口数量或监测到的零星变化的货币数量,涉及这些变量的小面积模型通常是根据对数或应用于采样数据的其他转换来指定的。在对采样响应进行变换后,将逆变换应用于变换后响应的小面积估计,可以很好地估计出偏差修正后的小面积响应。有时会选择变换,以便小面积参数的置信区间在变换尺度上近似对称,但在原始尺度上不对称。尽管如此,均方根误差和变异系数仍然是报告测量估算精度的标准方法,并且可能更容易在有意义的而非转换后的测量尺度上进行解释。
到目前为止,普拉萨德和拉奥的非常有用的理论还没有扩展(1990)还有Datta和Lahiri(2001)关于非线性变换响应情况下Fay–Herriot小面积估计的MSE的“二阶正确”估计。江等。(2002)提出了一种基于jackknife的有效MSE估计偏差校正方法,该方法可以得到最佳预测值的MSE估计值,尽管通常不是最佳线性无偏预测值。迈蒂(2004)在经验贝叶斯框架中应用了MSE估计的折刀法,使用了易于计算矩的对数正态模型。饶(2003)第133页,指出了通过泰勒线性化将Prasad–Rao和Datta–Lahiri的方法推广到转换响应情况的非私利性。基于线性化的扩展二阶MSE公式和估计量是本文的主要贡献。
论文组织如下。费伊和赫里奥特(1979)第节介绍了应用于转换数据的模型2以及偏差校正的小面积估计公式。章节三发展了小面积点估计量MSE的理论表达式,对于大数是渐近的米小面积。即使在未转换的Fay–Herriot数据的情况下,这些推导也遵循了一种新颖的方法,但它们在非线性,尤其是对数转换数据的扩展中显示出了真正的有用性。章节4提供了小面积估算(SAE)的MSE估算值,这些估算值按顺序无偏𝒪(1/米). 剖面图中的模拟研究5即使在仅有100个小区域的研究中,也强烈支持我们的MSE估计器的理论预测行为。接下来,第节给出了实际数据集中MSE估计的数据分析应用6最后,我们在第节中总结了我们的结论和建议7.
2.小面积估算的Fay–Herriot模型
本文针对小面积应用研究的混合效应线性模型均基于Fay和Herriot(1979)模型形式。对于由索引的每个区域我=1,…,米,假设样本大小n个我和对-维向量x个我的预测变量已知,且响应变量满足
1
被观察到(无论何时n个我>0),其中β∈R(右)对是未知固定效应系数的向量u个我和e(电子)我分别是区域随机效应和采样误差,在区域内和区域间相互独立。差异秒我假定为已知函数n个我可能除了常量v(v)e(电子)相称性:通常的形式是秒我≡v(v)e(电子)/n个我通常情况下,σ2是未知和估计的,而v(v)e(电子)已知。在某些应用中,如Section附录A)和v(v)e(电子)未知,但我们没有给出这种情况下的显式公式。
小型企业基于这种Fay–Herriot模型的统计数据旨在用较小的MSE估计参数
在对数转换的Fay–Herriot模型中,年我是观察到的日志响应我第个区域,可解释的小区域参数由指数定义:
2
2.1、。小面积估算公式
在Fay–Herriot模型中,我们考虑的估计量ϑj个基于数据{年我,n个我:n个我>0,1我米}以上是估计的最佳线性无偏预测估值器(Rao,2003)
三
哪里或是模型(1)中的最大似然估计量
我们遵循惯例(以便)何时n个j个=0.此外,我们定义了供将来参考和.
我们给出了通常的Fay–Herriot模型的结果,误差直接评估为和之间测量的误差
以及该变换参数的直接估计,其中小时(x个)是已知的光滑单调函数(exp(x个)对于当前论文的大部分内容)。在转换的情况下,参数由近似偏差修正公式估计
4
其中表示法是指通过代入的(β,σ2)在指定期望的渐近正确表达式中。在最有趣的情况下小时(x个)=经验(x个),公式(4)为
它忽略了参数估值器的可变性,但修正了由于面积随机效应而产生的偏差。与通用小时,类似的公式是
6
3.均方误差公式
在本节中,我们提供了模型(1)中MSE的大样本近似值,该模型与独立项和的最大似然估计(MLE)的标准表达式密切相关。本节假设响应变量年我,我=1,…,米,满足模型(1),并且
数据的对数似然由下式给出
并部分最大化(inβ,用于固定σ2)何时
与替换为β被称为轮廓对数似然,并且在σ2生成估计器.
大样本信息矩阵我(F类)的(β,σ2)根据数据很容易计算出块分解形式
以及,根据假设(c)per-observation信息米−1ℐ 存在并与块对角线和.然后得分统计向量很容易计算为
以及基于简单泰勒级数展开的局部一致极大似然估计的标准一般结果
7
使用o(o)P(P)(1) 模型(1)下具有实际参数的剩余保持概率(β,σ2). 然而,我们要求的精度略高于方程式提供的精度(7). 关于泰勒级数的更仔细展开(β,σ2)在模型(1)下,使用对数似然的形式,对似然方程(将对数似然梯度设置为MLE处的0)进行了计算,结果表明,方程中的误差(7)实际上是𝒪P(P)(米−1/2). 我们在下一个结果中证明了这一点,其证据可以在附录A.
引理1。在正态误差Fay–Herriot模型(1)中,
8
和
9
推论1。估计量的偏差和,最多可订购1/米项,由公式给出
10
11
推论1紧跟方程式(8)和(9),在检查以下余数的一致可积性之后和在引理1的证明中。下一个引理导致在扩展并在中得到证明附录A.
引理2。定义每个我=1,…,米,
然后αj个在条件上独立于鉴于,而大样本一致根似然方程(25)–(26)取决于变量通过独自一人。
根据方程式(7)–(9),我们获得了给定MLE的大样本近似条件分布(u个j个,e(电子)j个)对于每个固定j个=1,…,米.
定理1。对于固定j个∈ {1,…,米},定义
12
然后,对于每个j个,渐近表示大型米随机变量和相互独立(u个j个,e(电子)j个)有条件地给予{x个我,n个我:我=1,…,米}. 此外,对于固定j个,调用符号τj个=σ2+秒j个,
13
和等式的右边(13)等于连接方程式右侧的向量(8)等式的右边(9)乘以.
证明。我们用索引把术语分开j个在方程式中(7)并认识到方程右侧产生的误差(13)从更换和省略相同和的(倒数)我=j个在概率上比米−1除此之外,这个断言紧接着来自引理1的证明。
通过定理1,我们展开纳入涉及的条款u个j个+e(电子)j个,涉及随机效应变量的术语,其指数除j个和剩余物。我们保留了所需的所有条款,以便剩下的条款为1阶/米概率和预期(我1-规范)。
定理2。根据本节的假设和定理1的符号米变大,
14
并且在𝒪P(P)(1/米)等式项(14)所有总和我可以更改为仅运行我:我≠j个.
利用定理2,我们展开和符合订单1的条款/米,以期为对于非线性变换的小面积参数,这种扩展是新的但到目前为止,在未经转化的案件中众所周知(Rao,2003).
3.1. 使用未转换的数据进行简化
我们首先解释已知理论表达式中出现的极端简化通过与在非线性变换情况下导出的表达式进行比较。有条件的独立性αj个从鉴于,这是在引理2中获得的,允许MSE中的大多数交叉项消失。
引理3。在模型(1)和假设(a)-(c)下,
15
哪里
证明。修复和条件:通过引理2和方程(14),平均0变量αj个独立于
其中最后余项也很容易被看到𝒪P(P)(1/米). 紧接着和条款
和
有各自的秒数克2j个和克三j个和预期产品o(o)(1/米)=𝒪(米−3/2). 证据是完整的。
理论MSE中的这些简化在本文感兴趣的情况下并不存在,其中估计器(4)用于估计变换后的小面积参数.
3.2. 指数变换
在非转换(线性)情况下,不能简单地从增量法平差中获得对数转换模型中MSE的公式。我们首先计算顶级MSE表达式(类似于克1线性情况下)。与线性情况下的计算不同,这些计算特别使用对数正态矩公式:Z轴∼𝒩(0,1),k个0,
16
首先,我们计算,用“≈”表示相等到o(o)(1) 余数,
17
这个初步结果是最重要的𝒪(1) 中的术语指数尺度上的表达式,定义于公式(17):
可以在以下时间内估计o(o)P(P)(1) 由
18
作为前面讨论的推论,这个估计量在余数之前是无偏的𝒪P(P)(1/米). 其余部分用表达式进行分析(22)如下所示。
现在可以计算指数变换情况下MSE(17)的完整表达式,正如我们所做的那样𝒪P(P)(1/米)剩余物。我们记录下方程式中的简化公式供日后参考(16)对于以下几个术语.
引理4。
现在方程中的所有项(14)符合订单要求米−1被替换为在内部如中所示附录A,这导致以下简化表达式.
定理3。在与定理2中相同的假设下,
19
备注1。定理3的结果包含了许多简化,特别是那些由于引理4引起的简化,这些简化是在转换时产生的小时是指数型的。对于完全一般的平滑和单调非线性变换小时,定理3有一个不那么简单的类比。如前所述,通用公式取决于包括泰勒级数展开(β,σ2)方程中的期望项(6),以及膨胀方程(14)第页,共页在定理2中。这些公式,包括详细的证明和相关的二阶修正估计,是在Slud和Maiti中计算出来的(2005).
备注2。我们的结果在很大程度上依赖于面积随机效应的假定正态分布u个我在Fay–Herriot模型中(1)。在未经翻译的案件中,拉希里和拉奥都知道(1995)二阶修正MSE估计基于动量法经验最佳线性无偏预测SAE对非正态u个我,但基于MLE经验最佳线性无偏预测因子的SAE不存在类似结果,如Datta和Lahiri(2001).
4.均方误差估计
4.1. 线性(未转换)案例
我们从未转换的情况开始,考虑用MLE代替表达式中参数的估值器(15). 天真的经验最佳线性无偏预测估计量为,其中(根据)
20
很容易看出米,两者都是和然而,偏差为𝒪P(P)(米−1),因为根据引理1(公式(9))
根据推论1等于
这种发展的结果是在未转换情况下的二阶修正估计量,它与Datta和Lahiri的结果一致(2001)单方差分量Fay–Herriot MLE情况下的估计量。
定理4。在未转换的Fay–Herriot模型(1)中,假设(a)–(c)
然后是在余数中是无偏的𝒪(米−3/2)由提供
21
其中估计值如上文表达式(20)所定义。
这个定理没有什么可证明的了。同样,新引入的校正项是𝒪P(P)(1/米)他们清楚地估计和补偿了以上计算得出的剩余量o(o)P(P)(米−1)=O(运行)P(P)(米−3/2).
4.2. 指数变换情况
现在我们开始考虑在指数变换的情况下。通过将估计量代入定理3的展开式中,直接得到了天真的插件估计量,得到了一个展开式,其中除了第一个估计量外,其他所有估计量都有误差地估计了定理3表达式中的相应项𝒪P(P)(米−3/2). 为了估计最高阶项,我们再次获得一个表达式并校正偏差:
22
同样,很容易通过一致的插件估计器来补偿这种偏差,直到o(o)(米−1)剩余物。我们通过给出指数变换情形的二阶修正估计来记录结果。
定理5。在Fay–Herriot模型(1)和假设(a)–(c)下,其中转换的小面积参数由估计定义于公式(5),估计值在余数中是无偏的𝒪(米−3/2)由提供
23
5.仿真研究
我们进行了一项模拟研究,以检查前几节中介绍的估算方法的性能。我们的模拟设计紧密模仿了美国人口普查局正在进行的“小地区收入和贫困估算”(SAIPE)项目(Citro和Kalton,2000). 为保密起见,我们使用的协变量是从多元正态分布中模拟的伪值(仅一次),其平均值和方差与SAIPE 1993年抽样户主学龄儿童贫困对数模型中使用的所有美国县的原始协变量相同。(这是1993年收入年度实际SAIPE生产模型的一个微小变化,该模型使用了1992-1994年的当前人口调查(CPS)抽样数据。)这些协变量表示x个1,是本年度美国国税局估算的该县儿童贫困率的对数,x个2,是当年县食品券参与率的对数,x个三,本年度县国税局儿童免税额除以本年度县人口估计数的对数,以及x个4,是最近十年一次人口普查中5-17岁居民贫困率的对数。我们固定了县协变值x个ki公司,1k个4,1我1488年,一劳永逸。样本大小n个我与SAIPE项目一样,是1992年至1994年美国CPS抽样家庭的实际数量米按字母顺序排列的美国县,删除了洛杉矶县(目前为止最大的):这样做是因为,在这里没有报告的模拟中,固定值为σ2小到0.014,我们发现洛杉矶县的SAE非常不稳定,扭曲了MSE的汇总度量。
我们固定了回归系数β接近SAIPE项目中1993年数据的实际拟合值(Citro和Kalton,2000)和生成的值根据模型(1)秒我=v(v)e(电子)/n个我。我们探索了参数值的各种组合(米,σ2,v(v)e(电子))但仅显示的结果米=501002005001000和四个标签组合(σ2,v(v)e(电子)):
24
这些参数值具有σ2略大于Citro和Kalton中描述的SAIPE对数计数和对数速率模型中的固定值(2000)但接近于在以下方面联合最大化Fay–Herriot可能性时发现的值(β,σ2,v(v)e(电子)). 参见Slud(2004)比较这些不同模型的拟合和SAE。
表1显示了样本大小的平均值n个我和小面积参数模拟中的面积,作为数字的函数米包括个区域。它还显示了MLE的负偏差的方式随变化米和方差参数组合σ2=0.1,0.5和v(v)e(电子)=30,17,由A1、A2、B1和B2索引,如表达式所示(24).
米. | . | . | 标准偏差(). | 对于以下组合:. |
---|
A1类. | A2类. | 地下一层. | 地下二层. |
---|
50 | 68 | 0.200 | 0.0847 | 0.065 | 0.066 | 0.374 | 0.404 |
100 | 63 | 0.211 | 0.0863 | 0.072 | 0.078 | 0.435 | 0.446 |
200 | 78 | 0.191 | 0.0808 | 0.086 | 0.093 | 0.471 | 0.477 |
500 | 54 | 0.178 | 0.0833 | 0.092 | 0.094 | 0.485 | 0.488 |
1000 | 60 | 0.178 | 0.0875 | 0.096 | 0.097 | 0.493 | 0.494 |
米. | . | . | 标准偏差(). | 对于以下组合:. |
---|
A1类. | A2类. | 地下一层. | 地下二层. |
---|
50 | 68 | 0.200 | 0.0847 | 0.065 | 0.066 | 0.374 | 0.404 |
100 | 63 | 0.211 | 0.0863 | 0.072 | 0.078 | 0.435 | 0.446 |
200 | 78 | 0.191 | 0.0808 | 0.086 | 0.093 | 0.471 | 0.477 |
500 | 54 | 0.178 | 0.0833 | 0.092 | 0.094 | 0.485 | 0.488 |
1000 | 60 | 0.178 | 0.0875 | 0.096 | 0.097 | 0.493 | 0.494 |
米. | . | . | 标准偏差(). | 对于以下组合:. |
---|
A1类. | A2类. | 地下一层. | 地下二层. |
---|
50 | 68 | 0.200 | 0.0847 | 0.065 | 0.066 | 0.374 | 0.404 |
100 | 63 | 0.211 | 0.0863 | 0.072 | 0.078 | 0.435 | 0.446 |
200 | 78 | 0.191 | 0.0808 | 0.086 | 0.093 | 0.471 | 0.477 |
500 | 54 | 0.178 | 0.0833 | 0.092 | 0.094 | 0.485 | 0.488 |
1000 | 60 | 0.178 | 0.0875 | 0.096 | 0.097 | 0.493 | 0.494 |
米. | . | . | 标准偏差(). | 对于以下组合:. |
---|
A1类. | A2类. | 地下一层. | 地下二层. |
---|
50 | 68 | 0.200 | 0.0847 | 0.065 | 0.066 | 0.374 | 0.404 |
100 | 63 | 0.211 | 0.0863 | 0.072 | 0.078 | 0.435 | 0.446 |
200 | 78 | 0.191 | 0.0808 | 0.086 | 0.093 | 0.471 | 0.477 |
500 | 54 | 0.178 | 0.0833 | 0.092 | 0.094 | 0.485 | 0.488 |
1000 | 60 | 0.178 | 0.0875 | 0.096 | 0.097 | 0.493 | 0.494 |
这项模拟研究与之前在小范围文献中报道的研究不同,是专门为在SAIPE环境中有意义而设计的。给出的结果集中于点估计量(4)的性能、定理3中给出的理论MSE公式的有效性以及所提出的MSE估计量(23)及其理论值和经验模拟MSE之间的比较。我们还报告了两个天真的MSE估计器的性能:第一,Prasad和Rao的天真应用(1990)公式
其中mse我由方程式给出(21)其次,估计量根据方程式(18)仅包含O(运行)P(P)(1) 方程式中的项(23). 特别是R(右)=每个参数组合的10 000次模拟复制,并用索引表示第页在第页复制后,我们计算了估计器性能的以下度量:
哪里和在定理3和方程中给出(23),
和E类方程式中的(·)符号T型1,T型2,T型三和T型5表示模拟复制的平均值。在这些简要措施中,T型0是唯一一个直接总结SAE偏见的人。经验MSE估计值SMSE如表所示2用于与MSE绝对误差大小进行比较。立柱T型k个解决MSE估计的偏差:T型1和T型2关于天真的估计量和T型三我们提出的估计量(23),具有T型4评估理论MSE公式(19)和T型5显示估计器(23)跟踪其理论对应物(19)的程度。
米. | 参数. | T型0. | 中小企业. | T型1. | T型2. | T型三. | T型4. | T型5. | 标准偏差(T型三/中小企业). |
---|
50 | A1类 | 4.10 | 7.86 | 1.35 | −4.37 | 0.95 | 0.29 | 1.24 | 166.3 |
A2类 | 1.37 | 5.93 | 0.17 | −2.97 | 0.08 | 0.13 | 0.20 | 109.7 |
地下一层 | 1.76 | 38.44 | −1.14 | −7.72 | −1.96 | 1.62 | −0.34 | 84.6 |
地下二层 | 0.81 | 28.85 | −1.52 | −4.44 | −0.63 | 0.73 | 0.10 | 75.5 |
100 | A1类 | 1.15 | 6.66 | 0.20 | −2.88 | 0.11 | 0.14 | 0.26 | 73.5 |
A2类 | 0.38 | 5.54 | −0.12 | −1.88 | −0.09 | 0.08 | −0.01 | 41.1 |
地下一层 | 0.57 | 38.66 | −2.98 | −3.87 | −0.19 | 0.40 | 0.20 | 59.3 |
地下二层 | 0.14 | 30.73 | −2.94 | −2.60 | −0.14 | 0 | −0.14 | 45.5 |
200 | A1类 | 0.51 | 4.61 | −0.08 | −1.09 | −0.03 | 0.06 | 0.03 | 22.6 |
A2类 | 0.15 | 4 | −0.10 | −0.67 | −0.02 | 0.02 | −0.00 | 18.7 |
地下一层 | 0.79 | 28.98 | −3.20 | −1.11 | 0.09 | 0.03 | 0.12 | 49.9 |
地下二层 | 0.42 | 23.78 | −2.69 | −0.08 | 0.04 | 0.01 | 0.04 | 46.4 |
500 | A1类 | 0.20 | 4.01 | −0.10 | −0.57 | −0.01 | 0.01 | 0.01 | 18.4 |
A2类 | −0.02 | 3.64 | −0.13 | −0.37 | −0.02 | 0 | −0.02 | 18.5 |
地下一层 | 0.40 | 27.96 | −4.03 | −0.52 | 0.02 | 0 | 0.02 | 46.6 |
地下二层 | 0.20 | 23.92 | −3.31 | −0.40 | −0.02 | 0.02 | −0.01 | 45.4 |
1000 | A1类 | 0.16 | 3.80 | −0.12 | −0.25 | 0.01 | 0 | 0.01 | 19 |
A2类 | 0.05 | 3.50 | −0.12 | −0.16 | 0 | 0 | 0 | 19.3 |
地下一层 | 0.13 | 26.89 | −4.10 | −0.12 | 0.06 | −0.07 | −0.01 | 43 |
地下二层 | 0.02 | 22.81 | −3.21 | −0.17 | 0 | −0.09 | −0.09 | 43.2 |
米. | 参数. | T型0. | 中小企业. | T型1. | T型2. | T型三. | T型4. | T型5. | 标准偏差(T型三/中小企业). |
---|
50 | A1类 | 4.10 | 7.86 | 1.35 | −4.37 | 0.95 | 0.29 | 1.24 | 166.3 |
A2类 | 1.37 | 5.93 | 0.17 | −2.97 | 0.08 | 0.13 | 0.20 | 109.7 |
地下一层 | 1.76 | 38.44 | −1.14 | −7.72 | −1.96 | 1.62 | −0.34 | 84.6 |
地下二层 | 0.81 | 28.85 | −1.52 | −4.44 | −0.63 | 0.73 | 0.10 | 75.5 |
100 | A1类 | 1.15 | 6.66 | 0.20 | −2.88 | 0.11 | 0.14 | 0.26 | 73.5 |
A2类 | 0.38 | 5.54 | −0.12 | −1.88 | −0.09 | 0.08 | −0.01 | 41.1 |
地下一层 | 0.57 | 38.66 | −2.98 | −3.87 | −0.19 | 0.40 | 0.20 | 59.3 |
地下二层 | 0.14 | 30.73 | −2.94 | −2.60 | −0.14 | 0 | −0.14 | 45.5 |
200 | A1类 | 0.51 | 4.61 | −0.08 | −1.09 | −0.03 | 0.06 | 0.03 | 22.6 |
A2类 | 0.15 | 4 | −0.10 | −0.67 | −0.02 | 0.02 | −0.00 | 18.7 |
地下一层 | 0.79 | 28.98 | −3.20 | −1.11 | 0.09 | 0.03 | 0.12 | 49.9 |
地下二层 | 0.42 | 23.78 | −2.69 | −0.08 | 0.04 | 0.01 | 0.04 | 46.4 |
500 | A1类 | 0.20 | 4.01 | −0.10 | −0.57 | −0.01 | 0.01 | 0.01 | 18.4 |
A2类 | −0.02 | 3.64 | −0.13 | −0.37 | −0.02 | 0 | −0.02 | 18.5 |
地下一层 | 0.40 | 27.96 | −4.03 | −0.52 | 0.02 | 0 | 0.02 | 46.6 |
地下二层 | 0.20 | 23.92 | −3.31 | −0.40 | −0.02 | 0.02 | −0.01 | 45.4 |
1000 | A1类 | 0.16 | 3.80 | −0.12 | −0.25 | 0.01 | 0 | 0.01 | 19 |
A2类 | 0.05 | 3.50 | −0.12 | −0.16 | 0 | 0 | 0 | 19.3 |
地下一层 | 0.13 | 26.89 | −4.10 | −0.12 | 0.06 | −0.07 | −0.01 | 43 |
地下二层 | 0.02 | 22.81 | −3.21 | −0.17 | 0 | −0.09 | −0.09 | 43.2 |
米. | 参数. | T型0. | 中小企业. | T型1. | T型2. | T型三. | T型4. | T型5. | 标准偏差(T型三/中小企业). |
---|
50 | A1类 | 4.10 | 7.86 | 1.35 | −4.37 | 0.95 | 0.29 | 1.24 | 166.3 |
A2类 | 1.37 | 5.93 | 0.17 | −2.97 | 0.08 | 0.13 | 0.20 | 109.7 |
地下一层 | 1.76 | 38.44 | −1.14 | −7.72 | −1.96 | 1.62 | −0.34 | 84.6 |
地下二层 | 0.81 | 28.85 | −1.52 | −4.44 | −0.63 | 0.73 | 0.10 | 75.5 |
100 | A1类 | 1.15 | 6.66 | 0.20 | −2.88 | 0.11 | 0.14 | 0.26 | 73.5 |
A2类 | 0.38 | 5.54 | −0.12 | −1.88 | −0.09 | 0.08 | −0.01 | 41.1 |
地下一层 | 0.57 | 38.66 | −2.98 | −3.87 | −0.19 | 0.40 | 0.20 | 59.3 |
地下二层 | 0.14 | 30.73 | −2.94 | −2.60 | −0.14 | 0 | −0.14 | 45.5 |
200 | A1类 | 0.51 | 4.61 | −0.08 | −1.09 | −0.03 | 0.06 | 0.03 | 22.6 |
A2类 | 0.15 | 4 | −0.10 | −0.67 | −0.02 | 0.02 | −0.00 | 18.7 |
地下一层 | 0.79 | 28.98 | −3.20 | −1.11 | 0.09 | 0.03 | 0.12 | 49.9 |
地下二层 | 0.42 | 23.78 | −2.69 | −0.08 | 0.04 | 0.01 | 0.04 | 46.4 |
500 | A1类 | 0.20 | 4.01 | −0.10 | −0.57 | −0.01 | 0.01 | 0.01 | 18.4 |
A2类 | −0.02 | 3.64 | −0.13 | −0.37 | −0.02 | 0 | −0.02 | 18.5 |
地下一层 | 0.40 | 27.96 | −4.03 | −0.52 | 0.02 | 0 | 0.02 | 46.6 |
地下二层 | 0.20 | 23.92 | −3.31 | −0.40 | −0.02 | 0.02 | −0.01 | 45.4 |
1000 | A1类 | 0.16 | 3.80 | −0.12 | −0.25 | 0.01 | 0 | 0.01 | 19 |
A2类 | 0.05 | 3.50 | −0.12 | −0.16 | 0 | 0 | 0 | 19.3 |
地下一层 | 0.13 | 26.89 | −4.10 | −0.12 | 0.06 | −0.07 | −0.01 | 43 |
地下二层 | 0.02 | 22.81 | −3.21 | −0.17 | 0 | −0.09 | −0.09 | 43.2 |
米. | 参数. | T型0. | 中小企业. | T型1. | T型2. | T型三. | T型4. | T型5. | 标准偏差(T型三/中小企业). |
---|
50 | A1类 | 4.10 | 7.86 | 1.35 | −4.37 | 0.95 | 0.29 | 1.24 | 166.3 |
A2类 | 1.37 | 5.93 | 0.17 | −2.97 | 0.08 | 0.13 | 0.20 | 109.7 |
地下一层 | 1.76 | 38.44 | −1.14 | −7.72磅 | −1.96 | 1.62 | −0.34 | 84.6 |
地下二层 | 0.81 | 28.85 | −1.52 | −4.44 | −0.63 | 0.73 | 0.10 | 75.5 |
100 | A1类 | 1.15 | 6.66 | 0.20 | −2.88 | 0.11 | 0.14 | 0.26 | 73.5 |
A2类 | 0.38 | 5.54 | −0.12 | −1.88 | −0.09 | 0.08 | −0.01 | 41.1 |
地下一层 | 0.57 | 38.66 | −2.98 | −3.87 | −0.19 | 0.40 | 0.20 | 59.3 |
地下二层 | 0.14 | 30.73 | −2.94 | −2.60 | −0.14 | 0 | −0.14 | 45.5 |
200 | A1类 | 0.51 | 4.61 | −0.08 | −1.09 | −0.03 | 0.06 | 0.03 | 22.6 |
A2类 | 0.15 | 4 | −0.10 | −0.67 | −0.02 | 0.02 | −0.00 | 18.7 |
地下一层 | 0.79 | 28.98 | −3.20 | −1.11 | 0.09 | 0.03 | 0.12 | 49.9 |
地下二层 | 0.42 | 23.78 | −2.69 | −0.08 | 0.04 | 0.01 | 0.04 | 46.4 |
500 | A1类 | 0.20 | 4.01 | −0.10 | −0.57 | −0.01 | 0.01 | 0.01 | 18.4 |
A2类 | −0.02 | 3.64 | −0.13 | −0.37 | −0.02 | 0 | −0.02 | 18.5 |
地下一层 | 0.40 | 27.96 | −4.03 | −0.52 | 0.02 | 0 | 0.02 | 46.6 |
地下二层 | 0.20 | 23.92 | −3.31 | −0.40 | −0.02 | 0.02 | −0.01 | 45.4 |
1000 | A1类 | 0.16 | 3.80 | −0.12 | −0.25 | 0.01 | 0 | 0.01 | 19 |
A2类 | 0.05 | 3.50 | −0.12 | −0.16 | 0 | 0 | 0 | 19.3 |
地下一层 | 0.13 | 26.89 | −4.10 | −0.12 | 0.06 | −0.07 | −0.01 | 43 |
地下二层 | 0.02 | 22.81 | −3.21 | −0.17 | 0 | −0.09 | −0.09 | 43.2 |
表2显示这些度量值T型k个小范围内的平均值我=1,…,米。在表中2,我们可以从中看到T型0-SAE的面积平均偏差较小且系统性降低的列米. TheT型1-列显示了天真的估计一点也不准确,MSE没有随着米增加。接下来,T型2测量O(运行)(1) 全面估算条款,自估计高达𝒪(米−3/2)根据定理3。因此,我们预计T型2-第1级条款/米作为米变大,这在T型2-表的列2.措施T型三直接比较公式(23)带有。根据我们的理论发展,这种差异的衰减速度应该超过1/米,它在T型三-表的列2(决赛的量级,米=500和米=1000,术语太小,无法通过模拟有效区分。)两者之间的差异T型2和T型三表明MSE估计中的二阶校正是有用的。关于的评论T型三保持同样好T型4两者的区别是和如定理3所示。这个定理说,区别是O(运行)(米−3/2),这一预测得到了表格的证实T型4-结果。自T型5定义为以下各项的总和T型三和T型4,它的行为可以从T型三-以及T型4-列。表的最后一列2是比率区域的标准偏差例如,在A1情况下米=100,平均绝对误差T型三除以平均SMSE为0.112/6.66=0.017,而标准偏差为T型三/SMSE为0.073。
SAIPE和其他报告变换模型中小面积结果的调查通常通过置信区间报告小面积点估计量的可变性,置信区间是通过使用Prasad–Rao MSE估计量对置信区间进行反变换而形成的(21)。在我们的模拟设置中,这将是,其中z(z)α/2=Φ−1(1−α/2) 是(1−α/2) -标准正态分布的分位数。此转换间隔的半宽度除以z(z)α/2提供了另一种朴素的MSE估计量,实际上可以用泰勒级数近似,在MSE较小时具有很好的精度,但在其他情况下精度较差。但是专栏T型1与T型4比较表明,该方法不如方程式中开发的方法好(23).
我们还根据与拉希里和拉奥相似的模拟设计检查了我们的结果(1995). 特别是,我们做了一个小的模拟,选择(σ2,秒我)遵循拉希里和拉奥的模式(a)。与他们的常数平均模型不同,我们采用了η我=β0+β1 pt(磅)日志(x个我),使用x个我分布均匀(0,1),β0=0和β1=1.我们的mse的偏差*(类似于T型三)分别为0.086和0.075米=20和米=30.
6.实际数据示例
我们用2000年的数据说明了如何将本文的MSE估计值用于上一节的县级SAIPE设置。该示例的主题是,SAE的MSE(平方根)可以方便地量化模型估计值与外部来源参数值之间的差异程度。在其他示例中,可以通过MSE对估计的SAE和竞争模型的估计进行类似的比较。
在SAIPE 2000县级数据中,响应和预测变量与1994年前一节中描述的相同,但响应变量年我是1999年至2001年三年CPS数据得出的对数转换加权儿童贫困率,以及第四个预测变量x个4是1990年人口普查中1990年儿童贫困率的对数(经过调整以反映CPS抽样范围和定义)。数据仅用于1990年和2000年894个县,其中观察到的5-17岁贫困相关儿童(3年)CPS计数为非零。我们对这些数据拟合了Fay–Herriot模型(1),确定了该值σ2=0.016,如同已知和估计系数和以最大可能性。价值观σ2按照实际SAIPE实践(雪铁龙和卡尔顿,2000)在与人口普查数据相吻合的类似对数贫困率模型中发现的剩余方差;1989-2000年间的数值在0.013到0.017之间。与σ2固定和v(v)e(电子)估计,SAE公式与方程中给出的公式完全相同(5),但是MSE和估算员修改了Slud和Maiti中给出的公式(2005). 根据这些估计,我们构建了县域对数贫困率的SAE(3)ϑ我和SAE通过将这些SAE与根据CPS范围和定义调整的相应2000年人口普查儿童贫困率进行比较,可以部分评估这些SAE是否符合CPS目标估计值。(有关1990年的类似比较,见Kalton和Citro(2000),附录C;迈蒂(2004)只考虑了1990年SAIPE数据的子集;Slud(泥浆)(2003)研究了1990年和2000年人口普查率与严重不良事件之间的高度相关性。)
2000年的SAE与人口普查率有多大不同?我们可以看到差异作为方差约为的第一项之和加上一个系统术语我们无法单独观察。然而,自从第一学期除以理论上应近似于标准正常偏差z(z)我,的大小
给出了人口普查与CPS目标率之间差异的有用度量。我们在表中总结了结果三.
统计的. | 最小值. | 问题1. | 中值的. | 平均值. | 第3季度. | 最大值. | 标准偏差. |
---|
w个我 | −7.946 | −0.833 | −0.142 | −0.122 | 0.586 | 4.084 | 1.152 |
| 0.021 | 0.104 | 0.143 | 0.154 | 0.191 | 0.507 | 0.073 |
| 0.018 | 0.100 | 0.142 | 0.158 | 0.200 | 0.589 | 0.084 |
| 0.004 | 0.014 | 0.018 | 0.020 | 0.025 | 0.074 | 0.010 |
统计的. | 最小值. | 问题1. | 中值的. | 平均值. | 第3季度. | 最大值. | 标准偏差. |
---|
w个我 | −7.946 | −0.833 | −0.142 | −0.122 | 0.586 | 4.084 | 1.152 |
| 0.021 | 0.104 | 0.143 | 0.154 | 0.191 | 0.507 | 0.073 |
| 0.018 | 0.100 | 0.142 | 0.158 | 0.200 | 0.589 | 0.084 |
| 0.004 | 0.014 | 0.018 | 0.020 | 0.025 | 0.074 | 0.010 |
统计的. | 最小值. | 问题1. | 中值的. | 平均值. | 第3季度. | 最大值. | 标准偏差. |
---|
w个我 | −7.946 | −0.833 | −0.142 | −0.122 | 0.586 | 4.084 | 1.152 |
| 0.021 | 0.104 | 0.143 | 0.154 | 0.191 | 0.507 | 0.073 |
| 0.018 | 0.100 | 0.142 | 0.158 | 0.200 | 0.589 | 0.084 |
| 0.004 | 0.014 | 0.018 | 0.020 | 0.025 | 0.074 | 0.010 |
统计的. | 最小值. | 问题1. | 中值的. | 平均值. | 第3季度. | 最大值. | 标准偏差. |
---|
w个我 | −7.946 | −0.833 | −0.142 | −0.122 | 0.586 | 4.084 | 1.152 |
| 0.021 | 0.104 | 0.143 | 0.154 | 0.191 | 0.507 | 0.073 |
| 0.018 | 0.100 | 0.142 | 0.158 | 0.200 | 0.589 | 0.084 |
| 0.004 | 0.014 | 0.018 | 0.020 | 0.025 | 0.074 | 0.010 |
为了与二阶修正估计量进行比较属于在这个例子中,我们计算了最高订单条款如方程式所示(18). 正如我们在模拟中发现的那样(列的比较T型2和T型三在表中2),顶级项系统地小于二阶修正估计量事实上,相对差异的十分之一(在894个县中)根据2000年SAIPE数据
因此,修正后的估计值通常比最高阶、未修正、估计值和基于修正后的置信区间高6%至16%与未修正的估计值通常会宽3-8%。此比较与表中的比较类似2,尽管设置不同,因为差异σ2在SAIPE项目中比在模拟中小得多,因为SAIPE分析处理σ2而不是v(v)e(电子)如已知的那样。
对于大多数县来说,如果人口普查率为和真正的小面积CPS目标速率完全一样。因此,学生化直方图的中心部分(未显示)偏离w个我大致对称且呈钟形,仅略低于标准正常密度。然而,经验的尾部w个我-分布明显大于正常值:894个县中的60个(与“预期”人数为40.5)|w个我|>在一些县w个我震级在4到8之间,表明人口普查率与(Fay–Herriot-model-fitted)CPS目标率之间存在实际差异。大数值w个我通常发生在以下县1990年至2000年人口普查期间发生了重大变化。
图。1以2000年SAIPE对数模型SAE为对照,以1990年和2000年的人口普查率为研究对象,以SAE为中心,按平方根误差估计值进行缩放在1990年至2000年的人口普查中,仅针对儿童贫困率变化0.05或以上的165个县绘制了分数。图。1显示了学生价值观和人口普查变化之间的关联,并按县量化了根平方单位的变化。(换句话说,这张图使我们能够直观地比较人口普查之间的变化幅度和基于模型的SAE标准误差。)由于SAE是基于使用2000年SAIPE数据的模型,因此正如预期的那样,它们通常更接近2000年,而不是1990年的人口普查值。总之,估计在本例中,当SAE与2000年人口普查的差异比Fay–Herriot模型下偶然出现的差异要大。
图1
1990年县域儿童贫困率散点图()和2000()人口普查,从SAE(5)的差异除以MSE的意义上进行研究1/2,对于两次人口普查率相差0.05或以上的165个县:····,年-协调2000年人口普查率
7.结论
本文基于Fay和Herriot提出了一种小面积点估计的最小均方误差的“二阶修正”估计理论(1979)模型应用于非线性转换的测量数据。我们的重点是对数转换病例,但其他病例在斯拉德和迈蒂进行治疗(2005). 正如我们的数据示例所示,MSE有助于简要总结SAE与外部标准的差异。
断面模拟研究5涵盖了与美国人口普查局SAIPE计划类似的一系列数据大小和参数设置,以日志转换的调查数据为例。研究首先显示(列T型0第页,共页2)小面积估计器的自然偏差校正在消除偏差方面取得了出色的成功,并且通常支持理论MSE公式的准确性在定理3和估计量(23)中𝒪(1/米). 在模拟和数据示例中,有无二阶校正的MSE估计值的精度差异表明,这种校正在SAIPE项目等环境中可能很重要。
致谢
本文描述了作者的研究和分析,发布目的是通知相关方并鼓励讨论。结果和结论是作者的,尚未得到美国人口普查局的认可。大部分研究都是在人口普查局进行的。第二位作者的研究得到了美国统计协会人口普查奖学金的支持,也得到了国家科学基金会SES-0318184的资助。我们感谢Bill Bell就SAIPE项目中的方法问题进行了有益的对话,并感谢裁判提出了改进演示的建议。
参考文献
附录A:杂项结果证明
在本附录中,我们收集了上文中所述各种结果的证据。自始至终,我们应用模型(1),无需注释即可表示
A.1、。引理1的证明
我们的方法是围绕(β,σ2)精确似然方程
25
26
方程的第一个方程(表达式(7)紧接着从25)和(a)–(c)部分,然后通过方程的泰勒级数展开(25)直到二阶项,我们发现
方程式(8)从这个方程中直接代入方程的表达式(7)对于.
其次,通过方程的泰勒级数展开(26)大约σ2作为的函数,直到二阶,我们发现
第二个表达式(7)紧跟着这个方程,以及(a)-(c)部分中隐含的大数定律,除以系数并通过替换来检查顶级条款β对于特别是,对于k个=2,3,如米变大
接下来,再除以现在认识到和是𝒪P(P)(米−1/2)按表达式(7),我们发现相等,带余数o(o)P(P)(米−1),至
因为最后一个方程式中的第一个倒置项等于
收集订单1之前的条款/米在最后一个方程式中给出方程式(9).
A.2。引理2的证明
随机向量(αj个,u个j个+e(电子)j个)是二元正态的,因为它是独立正态分布变量的线性变换u个j个和e(电子)j个因此,要检查条件独立性,只需检查给定的条件协方差x个我是0:
自(αj个,u个j个+e(电子)j个)通过假设独立于{(u个我,e(电子)我):我≠j个},我们得出结论αj个实际上是有条件独立于剩下的断言是取决于仅通过-然后检查似然方程(25)–(26)还有一个标准事实是米在一个小的(但固定的)球周围的似然方程的唯一根(β,σ2).
答3。定理2的证明
在方程式中替换后(三),我们有
现在替换功能属于通过泰勒级数近似到二阶,只留下o(o)P(P)(1/米)剩余物,获取
27
最后,替换和来自方程式(8)–(9)导致
此公式中的所有保留项都是有序的米−1或更大。现在将条款安排在以最高阶优先获得方程(14). 将总额更改为只超过我≠j个会改变方程(14)按数量计算𝒪(米−3/2).
A.4、。引理4的证明
答5。定理3的证明
通过方程式(17)和(三)以及αj个,
和
现在替换等式(14)对于,注意到术语方括号内的指数具有变化的效果u个j个+e(电子)j个到u个j个+e(电子)j个+秒j个/第(27)行内和相应条款内公式(14),屈服最多剩余部分𝒪(米−3/2)作为
现在,我们通过首先将𝒪(1) 项,然后是顺序的交叉项𝒪(1/√米)(立即显示期望值为0),然后𝒪P(P)(米−1/2)项,然后是其他预期顺序项𝒪(1/米). 结果,使用方程式(16)带有k个=0,是
通过直接应用引理4,所有其他交叉项都有0的期望,或者有顺序的期望𝒪(米−3/2).
基于直接应用引理4的进一步简化
最后,我们在代数上进行了简化:𝒪(米−3/2)条款,
©2006皇家统计学会