基本区域级模型

基本区域级模型(费伊和赫里奥特1979年;Rao和Molina,2015年)由提供\[y_i|\theta_i\stackrel{\mathrm{iid}}{\sim}{\cal N}(\theta_ i,\psi_i)\,, \\\θ_i=β'x _i+v _i \,,\]哪里\(i)从1运行到\(米\)、区域数量,\(测试版)是回归向量给定协变量的系数\(x _ i \)、和\(v_i)\stackrel{\mathrm{iid}}{\sim}{\cal N}(0,\sigma_v^2)独立的随机区域效应。对每个区域进行观察\(y_i\)具有给定的方差\(\磅/平方英寸\).

首先,我们根据此模型生成一些数据:

<-75升#区域数量
数据流<- 数据帧(
  面积=1:米,#面积指示器
  x个=运行(米)#协变量
)
v(v)<- rnorm公司(米,标准偏差=0.5)#真面积效应
θ<- 1 + *数据流$x个+v(v)#利息数量
磅/平方英寸<- 运行(m,0.5,2)/ 样品(1:25,米,更换=真的)#给定方差
数据流$<- rnorm公司(m,θ,平方英尺(磅/平方英寸)

带有回归分量和随机截距由创建

图书馆(百万立方米)
模型<-~ 规则(~ 1 +x、,姓名=“测试版”)+ 消息(因子= ~iid公司(面积),姓名=“v”)
取样器<- 创建采样器(型号,σ固定=真的,问题0=1/磅/平方英寸,林普雷德=“已安装”,数据=df)

所用参数的含义如下:

然后使用该采样器功能进行MCMC模拟,如下所示跟随:

模拟<- MCMCsim公司(取样器,存储所有=真的,冗长的=错误的)

结果总结如下:

(总和<- 总结(模拟)
##llh_:##平均SD t值MCSE q0.05 q0.5 q0.95 n_eff R_hat##llh_-26.7 6.01-4.45 0.122-37.2-26.4-17.3 2427 1## ##林普雷德:##平均SD t值MCSE q0.05 q0.5 q0.95 n_eff R_hat## 1  1.97 0.203    9.68 0.00387 1.636 1.96  2.31  2752 1.001## 2  1.98 0.221    8.93 0.00407 1.615 1.97  2.34  2954 1.000##3 2.76 0.249 11.12 0.00465 2.361 2.76 3.18 2857 0.999## 4  2.11 0.470    4.49 0.00892 1.319 2.11  2.86  2773 1.000## 5  2.34 0.177   13.24 0.00323 2.051 2.34  2.64  3000 1.001## 6  3.84 0.238   16.14 0.00441 3.446 3.84  4.22  2910 1.000## 7  3.07 0.179   17.16 0.00327 2.771 3.08  3.36  3000 0.999## 8  1.66 0.253    6.57 0.00462 1.244 1.66  2.08  3000 0.999## 9  1.31 0.241    5.45 0.00439 0.923 1.32  1.71  3000 0.999## 10 3.62 0.295   12.30 0.00554 3.131 3.62  4.12  2825 0.999## ... 65个元素被抑制。。。## ##β:##平均SD t值MCSE q0.05 q0.5 q0.95 n_eff R_hat##(截距)1.14 0.132 8.59 0.00242 0.918 1.14 1.35 3000 1##x 2.84 0.229 12.39 0.00419 2.469 2.84 3.22 3000 1个## ##v_sigma(_西格玛):##平均SD t值MCSE q0.05 q0.5 q0.95 n_eff R_hat##v_西格玛0.501 0.0606 8.26 0.00151 0.408 0.497 0.604 1621 1## ##v:##平均SD t值MCSE q0.05 q0.5 q0.95 n_eff R_hat## 1  -0.3207 0.212 -1.5118 0.00411 -0.6678 -0.3244  0.0404  2662 1.001##2-0.4823 0.227-2.1249 0.00417-0.8574-0.4842-0.1077 2963 0.999## 3   0.3862 0.255  1.5167 0.00486 -0.0278  0.3845  0.8105  2742 0.999## 4  -0.0203 0.464 -0.0438 0.00847 -0.8037 -0.0081  0.7119  3000 1.000## 5   0.5788 0.192  3.0109 0.00351  0.2646  0.5796  0.8887  3000 1.000## 6   0.3765 0.252  1.4959 0.00470 -0.0412  0.3767  0.7879  2869 1.000## 7  -0.5813 0.205 -2.8342 0.00374 -0.9325 -0.5779 -0.2517  3000 0.999## 8  -0.1300 0.261 -0.4977 0.00477 -0.5712 -0.1281  0.3025  3000 0.999## 9  -0.3602 0.251 -1.4337 0.00459 -0.7792 -0.3642  0.0593  3000 0.999## 10 -0.0229 0.305 -0.0752 0.00584 -0.5288 -0.0213  0.4789  2719 0.999##。。。65个元素被抑制。。。

在这个例子中,我们可以将模型参数估计值与用于生成数据的“true”参数值。接下来,我们还将比较估计的随机效应和“真实”随机效应正如模型估计和“真实”估计。在后一个情节中原始的“直接”估计被添加为红色三角形。

情节(v,总和$v[,“平均值”],xlab公司=“真v”,伊拉布=“后验均值”);拟合直线(0,1)
情节(θ,总和$林普雷德[,“平均值”],xlab公司=“真θ”,伊拉布=“估计”);拟合直线(0,1)
(θ,df$是的,科尔=2,多氯联苯=2)

我们可以通过以下公式计算模型选择度量DIC和WAIC

计算机_DIC(模拟)
##驾驶员信息中心p_DIC##104.29610 50.882223
计算机_WAIC(模拟,演出.进度=错误的)
##WAIC1 p_WAIC1 WAIC2 p_WAIC 2## 74.80406 21.33525 97.34085 32.60365

可以从模拟中提取残差的后验均值使用方法输出残余沉积物.这是(后面均值)残差对协变\(x \):

情节(df$x、,残余沉积物(模拟,仅指=真的),xlab公司=“x”,伊拉布=“剩余”);拟合直线(小时=0)

线性模型中的线性预测器可以表示为加权响应变量的总和。如果我们设置计算权重=真然后计算所有参数中指定的线性预测器林普雷德。在这个这种情况意味着为每个区域计算一组权重。

取样器<- 创建采样器(型号,σ固定=真的,问题0=1/psi,
             林普雷德=“已安装”,数据=df、,计算权重=真的)
模拟<- MCMCsim公司(取样器,存储所有=真的,冗长的=错误的)

现在重量方法返回权重矩阵,单位为这个案例a 75\(\次\)75矩阵\(w{ij}\)保持直接重量估计\(i)线性预测器\(j).验证重量应用于直接估算,得出我们绘制的基于模型的估算他们互相对抗。图中还显示了对同一区域的预测值中的每个区域进行直接估计,直接估计的方差。

情节(总和$林普雷德[,“平均值”],交叉触头(重量(模拟),df$y) ,
     xlab公司=“估计”,伊拉布=“加权平均数”)
拟合直线(0,1)
情节(磅/平方英寸,诊断(重量(模拟),伊拉布=“重量”)

工具书类

费伊、R.E.和R.A.赫里奥特。1979“收入估算小地方:James-Stein程序在人口普查中的应用数据。” 美国统计协会杂志74 (366): 269–77.
Rao、J.N.K.和I.Molina。2015小面积估算.约翰威利父子公司。