2.1. 惩罚的多级模型
随后的描述稍微通用一些,以便对潜在的其他应用程序具有更大的通用性。让是有限的人口个人索引假设人口被划分为米面积大小这样的话具有成对不相交和.让是…的随机样本个人。假设取样程序如下哪里和.让是包含观测值的向量响应变量的年从中可以得到区域中感兴趣的区域统计我,让我们说一下平均值,已计算。让是区域内的固定效果设计矩阵我包含用于描述的单位级辅助数据.为了便于符号,表示作为矢量展开后的固定效果设计矩阵包含区域级辅助数据。请注意是允许的。让是区域中的随机效应设计矩阵我具有在大多数SAE模型中,随机效应结构仅限于特定区域的随机截距。然而,由于它们是线性混合模型的典型特例[31],我们考虑了更一般的区域特定随机效应结构。结合单元级和区域级数据的多级模型如下所示
哪里,是每个级别的固定影响系数向量用一些一般的正定协方差矩阵表示多元正态下的随机效应系数向量.是具有模型方差参数的独立同分布随机误差向量。请注意,被假定为随机独立的。模型下的响应向量是多元正态的
具有,其中随机效应协方差矩阵由矢量参数化例如,由Cholesky分解产生。我们假设.在所有领域重申模型可以获得
具有,,作为堆叠矩阵和,,作为堆叠向量。定义作为完整的参数向量。负对数似然函数(三)由提供
具有和表示行列式。在标准最大似然框架中,模型参数估计根据然而,鉴于第1节中提到的方法学问题,我们通过等级惩罚扩大了负对数似然。为此[39]使用。这可以被视为LASSO之间的妥协[36]和岭回归[19]. LASSO组件包含-固定效应系数的范数。它通过支持给定估计问题的稀疏解来进行自动变量选择。脊分量包含平方-规范。它通过支持平滑解,在协变量内存在强相关性的情况下稳定模型参数估计。弹性网是两个组件的线性凸组合,包含这两个属性。模型参数估计的优化问题如下所述
哪里是预定义的惩罚参数,用于调节惩罚对每个级别的解决方案的影响。它们通常由某种形式的交叉验证确定[34]. 除此之外
是弹性净惩罚作为预定义的超参数,控制-规范和-在一定程度上规范整体处罚。根据我们的应用,使用具有特定级别惩罚和超参数的弹性网是有吸引力的。它允许根据每个级别的数据情况单独调整惩罚。回想一下,响应变量是在单元级观察到的。关于单位层面的协变量,健康调查数据可能包含关于高血压共病的见解,但显然也包含关于无关健康问题的各种记录。因此,选择并对LASSO组件施加更高的权重,以产生更多的稀疏性。关于区域级协变量,社会经济指标可能具有更强的协方差结构,因为它们通常是从同一组变量中计算得出的。因此,选择是有意义的并对脊分量赋予更高的权重,以获得相应参数估计的平滑解。
2.2. 模型参数估计
模型参数估计采用SCGD算法。我们从[34,37]并通过随机循环顺序修改其(块)坐标梯度下降(CGD)方法。鉴于非凸性,这提高了收敛概率(5),因为不太可能出现一系列不幸的坐标[三]. CGD意味着通过更新目标参数向量的单个元素,目标函数的值逐渐最小化同时保持其他的固定。此后,其余元素会相应地更新,以便在实现了。这种方法对于所提议的多层次模型特别有用,因为它允许在估算过程中轻松实施特定级别的惩罚。
由于方差参数未知,在负对数似然中(4),最小化问题(5)是非凸的。这使得模型参数估计变得非常复杂,因为算法不能保证达到全局最小值。目标函数的非凸性支持局部极小值的存在,这意味着得到的模型参数估计可能对初始值敏感。然而,关于在固定方差参数下是凸的。以下[34],这可以在估计过程中利用。对于,让是在坐标中循环的索引在中t吨算法的第次迭代。注意,坐标的顺序在每次迭代后都会随机变化。让表示秒的第个元素,其中是中的完整参数向量t吨第th次迭代。通常,更新由
哪里是下降方向是步长。通常的选择是和但是,如果受弹性净惩罚,一阶和二阶偏导数不存在。在这种情况下,和必须以不同的方式确定。让近似于.以下[37],我们设置,其中是Fisher信息矩阵的主对角元素,对应于.如果不会被截断,我们可以根据[34]为利用相对于固定效应系数是二次的。对于弹性净惩罚,我们通过除以,根据建议[12]. 如果被截断,根据[37]和通过Armijo规则确定。我们进一步使用活动集策略[12,34]. 这意味着仅在以下情况下更新.让是…的预测不包括完整的SGCD程序如下所述。
2.3. 随机效应预测和面积统计估计
从第2.1节中,我们可以得出以下结论:鉴于是
为了预测随机效应的实现,给定响应变量实现的随机效应的条件分布必须量化。该分布模式是最佳预测(BP)这通常被称为最大后验估计.使用贝叶斯定理,我们得到[34]
具有φ作为正态概率密度。中的最小化问题(9)在模型假设下有一个闭式解,由下式给出
因为在实际中模型参数未知,我们使用经验BP
通过最小化.用于估计面积统计,必须生成来自多级模型的预测。的BP在该模型下
然而(12)要求单位级向量所有人都要遵守,这在实践中可能是不现实的。另一种选择是利用SAE设置通过由提出的小样本近似[1]. 我们用基于模型的数量替换基于人口的面积统计
哪里是特定区域的平均值使用之前获得的模型参数估计,然后通过以下公式给出经验BP
2.4. 均方误差估计
基于小样本近似(13),我们现在讨论均方误差(MSE)估计。通常,经验BP的MSE为
对(15)由于预测器的非线性,这是一项困难的任务。在SAE中,根据模型的不同,MSE分析解的二阶近似值可能可用。例如,提供了相应的捐款[9,23,32],以及[8]. 然而,由于几个原因,这些近似值不适用于受惩罚的多级模型。一方面,他们没有考虑惩罚和由此导致的回归系数收缩。另一方面,它们不适合高维设置,也不考虑多级数据。据我们所知,在这种情况下,对MSE分析估计值的推导仍需继续研究。分析MSE近似的一个常见替代方法是重采样方法。著名的技巧是引导或折刀[10,22]. 例如,为SAE提供了相应的贡献[17,24],以及[6]. 这些方法寻求近似的分布通过重采样,并已应用于SAE模型中的惩罚。说到这里,伯加德等。[4]提出了一种改进的折刀法,用于惩罚区域水平模型中的MSE估计。其基本思想是首先在给定设计矩阵的已知模型参数下,导出最佳预测器的条件MSE。然后,应用delete-1-jackknife过程来解释因惩罚模型参数估计而产生的额外不确定性。在下文中,我们扩展了这种方法,以便将其应用于第2.1节中的多级模型。条件MSE的特征可以根据[28]
自然,条件MSE的表示取决于随机效应结构。为了简单起见,我们假设后者仅限于随机截取。因此是一个随机标量和是1s的向量。请参见[32]用于表示其他随机效果结构。在我们的环境中,我们获得
定义和.让
此外,还记得和,其中和根据所有米地区。让和表示对和从除面积以外的所有面积计算得出的我算法2中绘制了折刀。在完成算法之后,经验BP的无条件MSE的折刀估计量由以下公式估计