基本区域级模型
基本区域级模型(费伊和赫里奥特1979年;Rao和Molina,2015年)由提供\[y_i|\theta_i\stackrel{\mathrm{iid}}{\sim}{\cal N}(\theta_ i,\psi_i)\,, \\\θ_i=β'x _i+v _i \,,\]哪里\(i)从1运行到\(米\)、区域数量,\(测试版)是回归向量给定协变量的系数\(x _ i \)、和\(v_i)\stackrel{\mathrm{iid}}{\sim}{\cal N}(0,\sigma_v^2)是独立的随机区域效应。对每个区域进行观察\(y_i\)具有给定的方差\(\磅/平方英寸\).
首先,我们根据此模型生成一些数据:
米<-75升#区域数量
数据流<- 数据帧(
面积=1:米,#面积指示器
x个=运行(米)#协变量
)
v(v)<- rnorm公司(米,标准偏差=0.5)#真面积效应
θ<- 1 + 三*数据流$x个+v(v)#利息数量
磅/平方英寸<- 运行(m,0.5,2)/ 样品(1:25,米,更换=真的)#给定方差
数据流$年<- rnorm公司(m,θ,平方英尺(磅/平方英寸)
带有回归分量和随机截距由创建
图书馆(百万立方米)
模型<-年~ 规则(~ 1 +x、,姓名=“测试版”)+ 消息(因子= ~iid公司(面积),姓名=“v”)
取样器<- 创建采样器(型号,σ固定=真的,问题0=1/磅/平方英寸,林普雷德=“已安装”,数据=df)
所用参数的含义如下:
- 第一个参数是一个指定响应变量和模型的线性预测部分
sigma.fixed=真
表示观察水平方差参数固定为1。在这种情况下,这意味着方差已知并由磅/平方英寸
.
- 该函数期望精度而不是方差,并且
Q0=1/psi
精度设置为矢量1/psi
.
linpred=“已安装”
表示我们希望获得向量后验分布的样本\(\θ\)小面积手段。
数据
是数据帧
其中的变量查找模型规范中使用的。
然后使用该采样器功能进行MCMC模拟,如下所示跟随:
模拟<- MCMCsim公司(取样器,存储所有=真的,冗长的=错误的)
结果总结如下:
##llh_:##平均SD t值MCSE q0.05 q0.5 q0.95 n_eff R_hat##llh_-26.7 6.01-4.45 0.122-37.2-26.4-17.3 2427 1## ##林普雷德:##平均SD t值MCSE q0.05 q0.5 q0.95 n_eff R_hat## 1 1.97 0.203 9.68 0.00387 1.636 1.96 2.31 2752 1.001## 2 1.98 0.221 8.93 0.00407 1.615 1.97 2.34 2954 1.000##3 2.76 0.249 11.12 0.00465 2.361 2.76 3.18 2857 0.999## 4 2.11 0.470 4.49 0.00892 1.319 2.11 2.86 2773 1.000## 5 2.34 0.177 13.24 0.00323 2.051 2.34 2.64 3000 1.001## 6 3.84 0.238 16.14 0.00441 3.446 3.84 4.22 2910 1.000## 7 3.07 0.179 17.16 0.00327 2.771 3.08 3.36 3000 0.999## 8 1.66 0.253 6.57 0.00462 1.244 1.66 2.08 3000 0.999## 9 1.31 0.241 5.45 0.00439 0.923 1.32 1.71 3000 0.999## 10 3.62 0.295 12.30 0.00554 3.131 3.62 4.12 2825 0.999## ... 65个元素被抑制。。。## ##β:##平均SD t值MCSE q0.05 q0.5 q0.95 n_eff R_hat##(截距)1.14 0.132 8.59 0.00242 0.918 1.14 1.35 3000 1##x 2.84 0.229 12.39 0.00419 2.469 2.84 3.22 3000 1个## ##v_sigma(_西格玛):##平均SD t值MCSE q0.05 q0.5 q0.95 n_eff R_hat##v_西格玛0.501 0.0606 8.26 0.00151 0.408 0.497 0.604 1621 1## ##v:##平均SD t值MCSE q0.05 q0.5 q0.95 n_eff R_hat## 1 -0.3207 0.212 -1.5118 0.00411 -0.6678 -0.3244 0.0404 2662 1.001##2-0.4823 0.227-2.1249 0.00417-0.8574-0.4842-0.1077 2963 0.999## 3 0.3862 0.255 1.5167 0.00486 -0.0278 0.3845 0.8105 2742 0.999## 4 -0.0203 0.464 -0.0438 0.00847 -0.8037 -0.0081 0.7119 3000 1.000## 5 0.5788 0.192 3.0109 0.00351 0.2646 0.5796 0.8887 3000 1.000## 6 0.3765 0.252 1.4959 0.00470 -0.0412 0.3767 0.7879 2869 1.000## 7 -0.5813 0.205 -2.8342 0.00374 -0.9325 -0.5779 -0.2517 3000 0.999## 8 -0.1300 0.261 -0.4977 0.00477 -0.5712 -0.1281 0.3025 3000 0.999## 9 -0.3602 0.251 -1.4337 0.00459 -0.7792 -0.3642 0.0593 3000 0.999## 10 -0.0229 0.305 -0.0752 0.00584 -0.5288 -0.0213 0.4789 2719 0.999##。。。65个元素被抑制。。。
在这个例子中,我们可以将模型参数估计值与用于生成数据的“true”参数值。在接下来,我们还将比较估计的随机效应和“真实”随机效应正如模型估计和“真实”估计。在后一个情节中原始的“直接”估计被添加为红色三角形。
情节(v,总和$v[,“平均值”],xlab公司=“真v”,伊拉布=“后验均值”);拟合直线(0,1)
情节(θ,总和$林普雷德[,“平均值”],xlab公司=“真θ”,伊拉布=“估计”);拟合直线(0,1)
点(θ,df$是的,科尔=2,多氯联苯=2)
我们可以通过以下公式计算模型选择度量DIC和WAIC
##驾驶员信息中心p_DIC##104.29610 50.882223
##WAIC1 p_WAIC1 WAIC2 p_WAIC 2## 74.80406 21.33525 97.34085 32.60365
可以从模拟中提取残差的后验均值使用方法输出残余沉积物
.这是(后面均值)残差对协变\(x \):
情节(df$x、,残余沉积物(模拟,仅指=真的),xlab公司=“x”,伊拉布=“剩余”);拟合直线(小时=0)
线性模型中的线性预测器可以表示为加权响应变量的总和。如果我们设置计算权重=真
然后计算所有参数中指定的线性预测器林普雷德
。在这个这种情况意味着为每个区域计算一组权重。
取样器<- 创建采样器(型号,σ固定=真的,问题0=1/psi,
林普雷德=“已安装”,数据=df、,计算权重=真的)
模拟<- MCMCsim公司(取样器,存储所有=真的,冗长的=错误的)
现在重量
方法返回权重矩阵,单位为这个案例a 75\(\次\)75矩阵\(w{ij}\)保持直接重量估计\(i)线性预测器\(j).验证重量应用于直接估算,得出我们绘制的基于模型的估算他们互相对抗。图中还显示了对同一区域的预测值中的每个区域进行直接估计,直接估计的方差。
情节(总和$林普雷德[,“平均值”],交叉触头(重量(模拟),df$y) ,
xlab公司=“估计”,伊拉布=“加权平均数”)
拟合直线(0,1)
情节(磅/平方英寸,诊断(重量(模拟),伊拉布=“重量”)
工具书类
费伊、R.E.和R.A.赫里奥特。1979“收入估算小地方:James-Stein程序在人口普查中的应用数据。” 美国统计协会杂志74 (366): 269–77.
Rao、J.N.K.和I.Molina。2015小面积估算.约翰威利父子公司。