跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
J应用统计。2021; 48(9): 1659–1674.
2020年5月14日在线发布。 数字对象标识:10.1080/02664763.2020.1765323
预防性维修识别码:PMC9042187
PMID:35706574

结合单位级和地区级数据的弹性网惩罚小区域模型用于区域高血压患病率估计

摘要

高血压是一种高度流行的心血管疾病。这对许多国家卫生系统来说是一个相当大的成本因素。尽管该病流行,但区域疾病分布往往未知,必须根据调查数据进行估计。然而,由于资源有限,卫生调查经常缺乏区域观察。获得的流行率估计值存在不可接受的大样本方差,不可靠。小面积估计通过在适当的回归模型中连接来自多个区域的辅助数据来解决这个问题。通常,为此目的考虑单位或区域水平的观测。但对于高血压,两种水平都应该使用。高血压有特征性的共病,与生活方式特征密切相关,生活方式特征是单位层面的信息。它还与通常在地区一级衡量的社会经济指标相关。但水平组合具有挑战性,因为它需要从小样本进行多级模型参数估计。我们使用了一个多层次的小区域模型,并对其进行了分级处罚,以解决这一问题。通过随机坐标梯度下降进行模型参数估计。给出了均方误差的折刀估计。该方法被应用于结合健康调查数据和行政记录来估计德国地区高血压患病率。

关键词:混合效应模型,多源估计,惩罚最大似然

1.简介

高血压是世界上最常见的心血管疾病。据估计,全球约有11.3亿18岁及以上的人患有高血压[30]. 因此,它是大多数需要密切监测的国家卫生系统的主要成本因素。然而,尽管高血压的发病率很高,但其在区域层面的分布往往是未知的。相应的数字很少记录在登记册中,必须根据适当的调查数据进行估算。为了获得区域层面的准确估计,相应的调查样本必须详尽无遗,并且需要包含相当多的地理细节。但事实上,由于大量的抽样工作和有限的资源,每个地区(地区)的国家卫生调查往往只包含少量观察结果。由于抽样方差较大,仅考虑给定区域内的观测值的直接估计器无法提供足够准确的流行率估计值。

小面积估计(SAE)通过在回归模型中组合来自多个区域的数据来解决这个问题。通过利用感兴趣的面积统计量与合适的辅助数据之间的函数关系,提高了直接估计的估计效率。区域统计估计值作为模型预测值获得[21]. 因此,估计值取决于辅助数据的聚合水平。最突出的SAE技术是通过[11]单位水平估计量由[1]. 这两种方法都在单个聚合级别上考虑辅助数据。但对于我们的应用程序,同时考虑这两个级别是有意义的。一方面,高血压有特征性的共病,如2型糖尿病[25]与生活方式变量密切相关,如饮酒[20]. 这些特征通常是卫生调查中记录的单位级信息。另一方面,高血压与社会经济指标有关[26]. 这些信息通常只能在地区一级获得,例如官方统计数据中的行政记录。SAE的单位级和区域级数据的联合使用在文献中没有得到很好的确立。

一些SAE方法使用单位级数据,同时考虑区域级固定影响的异质性,例如[29]. 这标志着对原始单元级方法中嵌套错误结构的一个重要概括[1],该模型仅通过随机截距模拟区域之间的差异。然而,它不允许单位和区域级数据集的直接组合,因为区域级异质性被认为是由于单位级固定效应的随机偏差造成的。特威格等。[38]提出了一种多层次的方法,将个体和生态成分作为二元反应来预测小范围健康相关行为。然而,该方法依赖于一个顺序过程,首先在一个数据集上校准模型,然后将其与另一个数据集中结合使用,这要求模型规范非常简单。Ghosh和Steorts[15]开发了一种两阶段的基准测试方法,将单位和地区层面结合在加权损失函数中,同时对两个层面的加权平均值进行基准测试。

联合使用单位级和地区级数据会带来一些方法学问题。首先,它需要在两个层次上进行模型参数估计。在存在小样本的情况下,由于缺乏自由度,参数数量的增加可能导致相当高的模型参数估计方差。在这种情况下,基于模型的小面积估算也存在较大差异。其次,由于不同程度的聚集,单位和地区层面的数据具有不同的分布特征和相关性结构[7]. 因此,在变量选择或模型参数估计方面,不应平等对待这些水平。第三,单位和区域级数据通常会受到不同类型的测量误差的影响。由于忽略测量误差会导致区域统计估计不太理想,研究人员应该对此进行解释[27]. 最后,单位级和区域级数据的可用性通常不同。由于隐私问题,单位级数据通常很少,而区域级数据不太敏感,更容易从注册表访问。因此,一种方法必须处理这样的情况:一个层次上有很多变量,而另一个层次只有很少的变量。

根据区域高血压患病率估计,我们开发了一个多层次的小区域模型,该模型具有特定级别的惩罚,以结合单位和区域级别的数据。级别惩罚是指对模型参数的惩罚最大似然估计,其中每个级别上的固定效应集被单独惩罚。为此,弹性网[39]包括特定级别的重量1-范数和平方2-考虑了范数。采用分级处罚解决了前面提到的方法学问题。首先,它允许高维推理。因此,即使模型参数的数量超过了观测值的数量,模型参数估计的潜在优化问题仍然存在。这在小样本的情况下尤其有吸引力。其次,针对级别的惩罚标志着一种直观的方法,可以在模型参数估计中以不同的方式处理单位和区域级别的数据。惩罚可以根据相应辅助数据的分布特征进行定义。由于1-norm,进行了一个特定级别的自动变量选择。第三,惩罚模型参数估计意味着对辅助数据中的测量误差进行鲁棒化,如下所示[2]以及[4]. 因此,针对级别的惩罚允许在每个级别上出现不同的测量误差。最后,根据可用于预测的变量数量,可以更改每个级别上的收缩量。

模型参数的惩罚最大似然估计是通过随机坐标梯度下降法(SCGD)使用来自[34,37]. 使用最大后验估计进行随机效应预测,如下所示[31,34]. 均方预测误差的估计是通过改进的折刀法进行的[4,22]. 该方法用于估计德国联邦各州高血压患病率。我们结合了德国健康调查的单位级数据德国阿克图尔的Gesundheit(GEDA)[33]使用来自microcensus记录的区域级数据[18]估计区域高血压患病率。本文的其余部分组织如下。第2节解释了该方法。第3节包含一个小型模拟研究以及在区域健康测量中的应用。第4节以对未来研究的展望结束。请注意,本文包含来自相关工作文件的见解[5].

2.方法

2.1. 惩罚的多级模型

随后的描述稍微通用一些,以便对潜在的其他应用程序具有更大的通用性。U型={1,,N个}是有限的人口|U型|=N个个人索引ι=1,,N个假设人口被划分为面积大小|U型|=N个这样的话U型==1U型具有U型,U型k个成对不相交k个=1N个=N个.让S公司U型是…的随机样本|S公司|=n个2个人。假设取样程序如下S公司==1S公司哪里S公司U型|S公司|=n个2.让R(右)n个×1是包含观测值的向量ιR(右)响应变量的从中可以得到区域中感兴趣的区域统计,让我们说一下平均值¯=N个1ιU型ι,已计算。X(X)u个R(右)n个×第页u个是区域内的固定效果设计矩阵包含用于描述的单位级辅助数据.为了便于符号,表示X(X)=(x个,,x个)R(右)n个×第页作为矢量展开后的固定效果设计矩阵x个R(右)1×第页包含区域级辅助数据。请注意(第页u个+第页):=第页>n个是允许的。Z轴R(右)n个×q个是区域中的随机效应设计矩阵具有q个第页在大多数SAE模型中,随机效应结构仅限于特定区域的随机截距。然而,由于它们是线性混合模型的典型特例[31],我们考虑了更一般的区域特定随机效应结构。结合单元级和区域级数据的多级模型如下所示

=X(X)u个βu个+X(X)β+Z轴b条+e(电子)=1,,,
(1)

哪里βu个R(右)第页u个×1,βR(右)第页×1是每个级别的固定影响系数向量b条M(M)V(V)N个(0,Ψ)用一些一般的正定协方差矩阵表示多元正态下的随机效应系数向量Ψ.e(电子)M(M)V(V)N个(0,σ2n个)是具有模型方差参数的独立同分布随机误差向量σ2。请注意b条1,,b条,e(电子)1,,e(电子)被假定为随机独立的。模型下的响应向量是多元正态的

M(M)V(V)N个(X(X)u个βu个+X(X)β,V(V)(σ2,ψ))=1,,,
(2)

具有V(V)(σ2,ψ)=σ2n个+Z轴ΨZ轴,其中随机效应协方差矩阵Ψ由矢量参数化ψR(右)q个例如,由Cholesky分解产生。我们假设q个<n个.在所有领域重申模型可以获得

=X(X)u个βu个+X(X)β+Z轴b条+e(电子),
(3)

具有X(X)u个=(X(X)u个1,,X(X)u个),X(X)=(X(X)1,,X(X)),Z轴=d日(Z轴1,,Z轴)作为堆叠矩阵和=(1,,),b条=(b条1,,b条),e(电子)=(e(电子)1,,e(电子))作为堆叠向量。定义θ:=(βu个,β,ψ,σ2)R(右)第页u个+第页+q个+1作为完整的参数向量。负对数似然函数()由提供

L(左)(θ)=12[n个日志(2π)+日志(det(探测)(V(V)))+(X(X)u个βu个X(X)β)V(V)1(X(X)u个βu个X(X)β)],
(4)

具有V(V)=d日(V(V)1,,V(V))det(探测)(V(V))表示行列式V(V)。在标准最大似然框架中,模型参数估计根据θ^=argmin(最小值)L(左)(θ)然而,鉴于第1节中提到的方法学问题,我们通过等级惩罚扩大了负对数似然。为此[39]使用。这可以被视为LASSO之间的妥协[36]和岭回归[19]. LASSO组件包含1-固定效应系数的范数。它通过支持给定估计问题的稀疏解来进行自动变量选择。脊分量包含平方2-规范。它通过支持平滑解,在协变量内存在强相关性的情况下稳定模型参数估计。弹性网是两个组件的线性凸组合,包含这两个属性。模型参数估计的优化问题如下所述

θ^=argmin(最小值)βu个,β,ψ,σ2>0{(θ,λu个,λ,αu个,α)=L(左)(θ)+λu个(αu个,βu个)+λ(α,β)},
(5)

哪里λu个,λ>0是预定义的惩罚参数,用于调节惩罚对每个级别的解决方案的影响。它们通常由某种形式的交叉验证确定[34]. 除此之外

(α,β)=(1α)β22+αβ1,{u个,}
(6)

是弹性净惩罚α(0,1)作为预定义的超参数,控制1-规范和2-在一定程度上规范整体处罚。根据我们的应用,使用具有特定级别惩罚和超参数的弹性网是有吸引力的。它允许根据每个级别的数据情况单独调整惩罚。回想一下,响应变量是在单元级观察到的。关于单位层面的协变量,健康调查数据可能包含关于高血压共病的见解,但显然也包含关于无关健康问题的各种记录。因此,选择αu个>0.5并对LASSO组件施加更高的权重,以产生更多的稀疏性。关于区域级协变量,社会经济指标可能具有更强的协方差结构,因为它们通常是从同一组变量中计算得出的。因此,选择是有意义的α<0.5并对脊分量赋予更高的权重,以获得相应参数估计的平滑解。

2.2. 模型参数估计

模型参数估计采用SCGD算法。我们从[34,37]并通过随机循环顺序修改其(块)坐标梯度下降(CGD)方法。鉴于非凸性,这提高了收敛概率(5),因为不太可能出现一系列不幸的坐标[]. CGD意味着通过更新目标参数向量的单个元素,目标函数的值逐渐最小化θ同时保持其他的固定。此后,其余元素会相应地更新,以便在θ实现了。这种方法对于所提议的多层次模型特别有用,因为它允许在估算过程中轻松实施特定级别的惩罚。

由于方差参数未知σ2,ψ在负对数似然中(4),最小化问题(5)是非凸的。这使得模型参数估计变得非常复杂,因为算法不能保证达到全局最小值。目标函数的非凸性()支持局部极小值的存在,这意味着得到的模型参数估计可能对初始值敏感。然而,关于βu个,β在固定方差参数下是凸的。以下[34],这可以在估计过程中利用。对于[t吨]=1,2,,让R(右)[t吨]是在坐标中循环的索引{1},{2},,{第页+q个+1}在中t吨算法的第次迭代。注意,坐标的顺序在每次迭代后都会随机变化。θR(右)[t吨][t吨]表示的第个元素θ[t吨],其中θ[t吨]是中的完整参数向量t吨第th次迭代。通常,更新由

θR(右)[t吨][t吨+1]=θR(右)[t吨][t吨][t吨][t吨]d日[t吨][t吨],
(7)

哪里d日[t吨][t吨]是下降方向[t吨][t吨]是步长。通常的选择是d日[t吨][t吨]:=(θ[t吨])/θR(右)[t吨][t吨][t吨]:=(2(θ[t吨])/θR(右)[t吨]2)1但是,如果θR(右)[t吨][t吨]受弹性净惩罚,一阶和二阶偏导数不存在。在这种情况下,d日[t吨][t吨][t吨][t吨]必须以不同的方式确定。小时[t吨][t吨]近似于2(θ[t吨])/θR(右)[t吨]2.以下[37],我们设置小时[t吨][t吨]:=最小值(最大值((θ[t吨])R(右)[t吨]R(右)[t吨],106),108),其中(θ[t吨])R(右)[t吨]R(右)[t吨]是Fisher信息矩阵的主对角元素,对应于θR(右)[t吨][t吨].如果(θ[t吨])R(右)[t吨]R(右)[t吨]不会被截断,我们可以根据[34]为利用L(左)(θ)相对于固定效应系数是二次的。对于弹性净惩罚,我们通过除以1+λ(1α),根据建议[12]. 如果(θ[t吨])R(右)[t吨]R(右)[t吨]被截断,d日[t吨][t吨]根据[37]和[t吨][t吨]通过Armijo规则确定。我们进一步使用活动集策略[12,34]. 这意味着θR(右)[t吨][t吨]仅在以下情况下更新θR(右)[t吨][t吨1]0.让~[t吨][t吨]是…的预测不包括θR(右)[t吨][t吨]完整的SGCD程序如下所述。

保存图片、插图等的外部文件。对象名称为CJAS_A_1765323_ILG0001.jpg

2.3. 随机效应预测和面积统计估计

从第2.1节中,我们可以得出以下结论:鉴于b条

|b条M(M)V(V)N个(X(X)u个βu个+X(X)β+Z轴b条,σ2n个)=1,,.
(8)

为了预测随机效应的实现,给定响应变量实现的随机效应的条件分布b条|必须量化。该分布模式是最佳预测(BP)b条这通常被称为最大后验估计.使用贝叶斯定理,我们得到[34]

b条^B类=argmax(最大值)b条ϕ(b条|1,,,βu个,β,ψ,σ2)=argmax(最大值)b条ϕ(b条|,βu个,β,ψ,σ2)=argmax(最大值)b条ϕ(|b条,βu个,β,ψ,σ2)ϕ(b条|ψ)ϕ(|βu个,β,ψ,σ2)=argmin(最小值)b条1σ2X(X)u个βu个X(X)βZ轴b条22+b条Ψ1b条,
(9)

具有φ作为正态概率密度。中的最小化问题(9)在模型假设下有一个闭式解,由下式给出

b条^B类=电子(b条|)=(Z轴Z轴+σ2Ψ1)1Z轴(X(X)u个βu个X(X)β).
(10)

因为在实际中模型参数θ未知,我们使用经验BP

b条^电子B类=(Z轴Z轴+σ^2Ψ^1)1Z轴(X(X)u个β^u个X(X)β^),
(11)

通过最小化().用于估计面积统计¯,必须生成来自多级模型的预测。的BP¯在该模型下

¯^B类=电子(¯|)=1N个[ιS公司ι+ιU型S公司(x个u个ιβu个+x个β+z(z)ιb条^B类)].
(12)

然而(12)要求单位级向量x个u个ι所有人都要遵守ιU型,这在实践中可能是不现实的。另一种选择是利用SAE设置n个/N个0通过由提出的小样本近似[1]. 我们用基于模型的数量替换基于人口的面积统计

¯μ=x个¯u个βu个+x个β+z(z)b条=1,,,
(13)

哪里x个¯u个是特定区域的平均值x个u个ι使用之前获得的模型参数估计,然后通过以下公式给出经验BP

μ^电子B类=x个¯u个β^u个+x个β^+z(z)b条^电子B类=1,,.
(14)

2.4. 均方误差估计

基于小样本近似(13),我们现在讨论均方误差(MSE)估计。通常,经验BP的MSE为

M(M)S公司电子(μ^电子B类)=电子[(μ^电子B类μ)2]=1,,.
(15)

对(15)由于预测器的非线性,这是一项困难的任务。在SAE中,根据模型的不同,MSE分析解的二阶近似值可能可用。例如,提供了相应的捐款[9,23,32],以及[8]. 然而,由于几个原因,这些近似值不适用于受惩罚的多级模型。一方面,他们没有考虑惩罚和由此导致的回归系数收缩。另一方面,它们不适合高维设置,也不考虑多级数据。据我们所知,在这种情况下,对MSE分析估计值的推导仍需继续研究。分析MSE近似的一个常见替代方法是重采样方法。著名的技巧是引导或折刀[10,22]. 例如,为SAE提供了相应的贡献[17,24],以及[6]. 这些方法寻求近似的分布(μ^电子B类μ)2通过重采样,并已应用于SAE模型中的惩罚。说到这里,伯加德等。[4]提出了一种改进的折刀法,用于惩罚区域水平模型中的MSE估计。其基本思想是首先在给定设计矩阵的已知模型参数下,导出最佳预测器的条件MSE。然后,应用delete-1-jackknife过程来解释因惩罚模型参数估计而产生的额外不确定性。在下文中,我们扩展了这种方法,以便将其应用于第2.1节中的多级模型。条件MSE的特征可以根据[28]

M(M)S公司电子(μ^B类|x个¯u个,x个)=电子[(μ^B类μ)2|x个¯u个,x个]=电子[(b条^B类b条)2]=电子[电子[(b条^B类b条)2|b条]]=电子[V(V)第页(b条^B类b条|b条)+电子[(b条^B类b条)|b条]2]=电子[V(V)第页(b条^B类|b条)+(电子[b条^B类|b条]b条)2].
(16)

自然,条件MSE的表示取决于随机效应结构。为了简单起见,我们假设后者仅限于随机截取。因此b条=b条是一个随机标量b条N个(0,ψ)z(z)是1s的向量。请参见[32]用于表示其他随机效果结构。在我们的环境中,我们获得

M(M)S公司电子(μ^B类|x个¯u个,x个)=电子[(ψψ+σ2/n个)2σ2n个+(ψψ+σ2/n个b条b条)2]=(ψψ+σ2/n个)2σ2n个+(ψψ+σ2/n个1)2ψ=ψσ2/n个ψ+σ2/n个.
(17)

定义β:=(βu个,β)η:=(ψ,σ2).让

γ:=γ(η^)=ψ^σ^2/n个ψ^+σ^2/n个.
(18)

此外,还记得μ^电子B类=μ^电子B类(β^,b条^)b条^=b条^(β^,η^),其中β^η^根据所有地区。β^η^表示对βη从除面积以外的所有面积计算得出的算法2中绘制了折刀。在完成算法之后,经验BP的无条件MSE的折刀估计量由以下公式估计

M(M)S公司电子^(μ^电子B类)=γ(η^)1k个=1[γ(η^k个)γ(η^)]+1k个=1[μ^电子B类(β^k个,b条^(β^k个,η^k个))μ^电子B类(β^,b条^(β^,η^))]2.
(19)

保存图片、插图等的外部文件。对象名称为CJAS_A_1765323_ILG0002.jpg

3.仿真与应用

接下来的部分分为两部分。在第一部分中,我们提供了一个小型仿真研究,以证明SAE惩罚多级模型的有效性。我们进一步测试了所提出的折刀法用于MSE估计。在第二部分中,使用第2.1节中的多层次小区域模型对德国地区高血压患病率进行点估计。

3.1. 模拟研究

3.1.1. 设置

蒙特卡罗模拟R(右) = 500次迭代(第页=1,,R(右))进行。我们创造了一个N个=30,000个人 = 100个面积N个=300。人口生成一次,并在后续模拟中保持不变。在每次迭代中,大小的分层随机样本n个 = 300,地层样品尺寸n个=从合成种群中提取。这里,每一层对应于合成种群的一个区域,这意味着采样分数为1%每个地层。对于单位级辅助数据,共有40个具有弱内部相关结构的变量从具有区域特定平均值的多元正态分布中提取。对于区域级辅助数据,从多元正态分布中提取出100个具有强内部相关结构的变量。响应变量是根据

ι=100+βu个1x个u个1ι+βu个2x个u个2ι+β1x个1+β2x个2+b条+e(电子)ι,
(20)

哪里b条N个(0,2002)是一个随机区域截距e(电子)ιN个(0,1002)是单位级错误术语。请注意,从上述单元级和区域级辅助数据集来看,每组只有2个变量与这样做是为了在模拟研究中包括变量选择方面。感兴趣的区域统计是响应变量的区域特定平均值:¯=N个1ιU型N个ι为了估计¯,考虑以下预测因素:

  • LMM公司。甲骨文公司:真正多级模型下的EBP(18)所有人口单位的已知协变量。
  • 佛罗里达州。甲骨文公司:Fay-Herriot EBP考虑了真正的辅助变量,但使用了真正的区域特定方法x个u个1ι,x个u个2ι作为单位级数据的替代。
  • LMM公司。选择:多级模型下的EBP,其中变量选择通过由[16].
  • 多种。ZH:从惩罚多级模型进行预测。

由提出的原始单位级模型下的EBP[1]不包括在内,因为它只考虑单元级变量。考虑到响应变量的生成方式,它无法提供任何合理的结果。然而,由于可以聚合单位级变量,以便在区域级使用它们,因此包含了Fay–Herriot模型下的EBP。点估计性能通过所有区域的相对均方根误差(相对RRMSE)和蒙特卡罗迭代进行评估。我们进一步研究了相对偏差和变异系数。MSE估计的性能通过相对RRMSE和相对偏差进行测量。

3.1.2. 结果

我们从点估计开始。1显示了所考虑的预测因子的性能。可以看出,与标准SAE方法相比,惩罚多级模型获得了有效的结果。除LMM外,其相对RRMSE是所有预测因子中最低的。神谕。后者是最有效的预测器,这是意料之中的,因为它在模拟中用作参考。通过了解每个区域中所有个体的真实模型和协变量值,它可以获得完美的信息。LMM公司。Select的效率略低于FH。Oracle尽管使用了来自单位和区域级别的信息。这是由于使用单级信息标准(如LMM)进行多级协变量选择所产生的额外不确定性。Select不知道真实的模型。一个有趣的方面是多重性。EN在所有预测因子中具有最高的相对偏差。这是因为惩罚最大似然会给模型参数估计带来偏差。另一方面,从变异系数可以看出,它稳定了模型预测。在包括LMM在内的所有预测因子中,惩罚多级模型的变异最小。神谕。这使得它最终比标准预测器更有效。

表1。

点估计结果。
预测器相对偏差系数。变更相对RMSE
LMM公司。甲骨文公司0.000630.019770.01667
佛罗里达州。甲骨文公司0.000940.026060.02313
LMM公司。选择0.000260.029380.02368
多种。ZH0.001280.019510.01960

我们继续使用第2.4节中的折刀法获得的MSE估算结果。它们如图所示1描述了所有区域的相对MSE估计偏差密度和蒙特卡罗迭代。它们是由(MSE公司^(μ^)[第页]MSE公司(μ^)[第页])/MSE公司(μ^)[第页]我们看到折刀平均获得了合理的估计。分布的平均值接近于零。然而,它有轻微的高估倾向。总体相对偏差为0.040,而相对RRMSE为0.217。此外,一些右倾明显。这主要是由于估计值异常。一方面,由于模型参数估计的潜在优化问题的非凸性,该方法对某些数据星座很敏感。另一方面1-范数在重采样过程中引入了不同程度的稀疏性,从而产生了不同的主动预测因子集。由于在折刀法中,将原始预测的平方偏差相加,这可能导致较大的MSE估计值。

3.2. 应用程序

目的是估计联邦各州18岁以上人群的高血压患病率。疾病简介的定义改编自[33]. 为此,我们合并了两个不同的数据源。第一个数据来源是2010年德国健康调查Gesundheit in Deutschland Aktuell(GEDA)。这是一项全国健康调查,约有20000名18岁以上的参与者通过CATI在全国代表性电话样本中接受了采访。该调查包含医疗和生活方式相关信息,这些信息在我们的研究中用作单位级数据源。有关调查及其各自抽样设计和回复率的更多信息,请参阅[33]第173页。第二个数据来源是联邦州一级的行政记录,这些记录是从2010年的德国小额信贷中获得的。微危机是一项大规模调查,涵盖1%-采用单阶段分层整群抽样设计对德国人群进行抽样。数据通过CAPI收集。微普查包含(除其他外)社会人口和经济信息,我们使用这些信息来最大限度地解释高血压患病率的估计。有关对调查及其抽样设计和数据收集程序的深入了解,请参阅[13].

关于级别惩罚,超参数αu个=0.75,α=0.25使用。该选择符合第2.1节的要求,其中我们讨论了弹性网组件的影响。根据GEDA,我们有大量的变量,涵盖健康的不同方面。为了确定与高血压相关的变量,我们选择αu个更接近于强调变量选择。从微观经济学来看,我们的社会经济指标具有很强的内在相关性。因此,我们选择α接近零以获得平滑系数估计。调谐参数λu个,λ通过k次交叉验证和二元网格搜索确定。此后,我们简要概述了用于高血压患病率估计的选定协变量。有关通过惩罚最大似然选择变量的统计特性的更多信息,请参见[14]. 我们还逐步增加确定的水平特异性调整参数值,以评估基础回归模型中所选固定效应与区域高血压患病率的相关性。由此,我们获得了所选协变量重要性的粗略度量。我们区分了三个显著性水平:强(***)、中(**)、弱(*)。根据GEDA,示例性单位级变量为

  • 人口统计学:性别***,年龄组***。
  • 共病:患有其他心血管疾病***。
  • 生活方式:吸烟或饮酒***,体育活动***。
  • 医疗保健:看病**,健康保险会员资格*。
  • 生活条件:城市化程度**。

从微型连续体中,选择了区域层面的变量。示例如下

  • 社会经济:收入分配***,教育结构***。
  • 劳动力市场:工业部门的份额**,失业**。
  • 人口结构:外国国籍*。

使用上述变量进行流行率估计可获得以下结果。

2是德国热图,其中显示了每个联邦州的估计高血压患病率。全国高血压患病率为26.8%这与[33]计算了基于调查的95%-置信区间[25.9%; 27.6%]. 通过查看联邦各州的估计,我们可以看到发病率最低的地区位于该国南部,其中包括联邦各州巴登-瓦滕贝格和巴伐利亚。发病率最高的地区是该国东部,即德意志民主共和国的前领土。估计的分布是可信的,因为在过去的研究中发现了类似的相关疾病分布,如2型糖尿病[35].

保存图片、插图等的外部文件。对象名称为CJAS_A_1765323_F0002_OC.jpg

估计高血压患病率。

4.结论与讨论

提出了一个用于区域高血压患病率估计的惩罚多级模型。它允许通过特定级别的弹性净惩罚有效地组合单位级和区域级数据。凭借这一特性,它有助于在SAE的背景下进行多级建模。这对官方统计数据,尤其是公共卫生报告尤其有吸引力,因为数字化等现象,越来越多的数据来源被考虑在内。然而,仍需要进一步的方法学研究。虽然最近建立了惩罚最大似然的基于模型的属性,例如通过[14],其基于设计的属性仍不清楚。特别是,在这种情况下,对测量权重和相应设计一致性的考虑尚未得到充分解决。只要这些问题仍然存在,研究人员就必须仔细检查获得的估计值是否对调查权重敏感。

此外,惩罚多层次模型的MSE估计仍在继续研究中。所提出的折刀程序允许平均合理的MSE估计。然而,由于该过程对异常值敏感,因此一些结果是不稳定的。由于在这种情况下,似乎无法掌握MSE估计的分析方法,因此必须进一步研究充分的重采样方法,考虑惩罚对估计程序的影响。未来研究的一个更实际的问题是如何在给定的上下文中正确确定协变量集。根据应用领域的不同,可能存在关于单位和面积级别上的特定协变量的数据。由于稀疏性导致的惩罚导致了自动变量选择,因此无法提前预测该方法在这种情况下会同时考虑这两个级别还是只考虑其中一个级别。鉴于生态谬论等已知现象,这是未来研究的一个有趣课题。

致谢

这项研究是在研究项目范围内进行的官方和调查统计研究创新(RIFOSS)这是由德国联邦统计局资助的。我们衷心感谢您的财政支持。我们进一步感谢两位匿名审稿人的建设性意见,这些意见有助于提高论文质量。

资金报表

这项工作得到了RIFOSS的支持。

披露声明

提交人没有报告任何潜在的利益冲突。

工具书类

1Battese G.E.、Harter R.M.和Fuller W.A。,利用调查和卫星数据预测县域作物面积的误差分量模型,美国统计协会。 83(1988),第28-36页。doi:10.1080/01621459.1988.10478561[交叉参考][谷歌学者]
2.Bertsimas D.和Copenhaver M.S。,线性回归和矩阵回归中鲁棒化与正则化等价性的刻画,欧洲药典。物件。 270(2018),第931-942页。doi:10.1016/j.ejor.2017.03.051[交叉参考][谷歌学者]
三。Bottou L.、Curtis F.E.和Nocedal J。,大规模机器学习的优化方法,SIAM修订版。 60(2018),第223–311页。可在https://arxiv.org/abs/1606.04838v3.doi:10.1137/16M1080173[交叉参考][谷歌学者]
4Burgard J.P.、Krause J.和Kreber D。,未知协变量测量误差下稳健小面积估计的正则化区域级建模,《经济学研究论文》04/19(2019)。特里尔大学。
5Burgard J.、Krause J.和Münnich R。,通过惩罚多级模型结合单位和区域级数据进行小面积估算,《2019年5月19日经济学研究论文》。特里尔大学。
6Chen S.和Lahiri P。,关于小面积估计问题中的均方预测误差估计,Commun公司。统计理论方法 37(2008),第1792-1798页。doi:10.1080/03610920701826427[交叉参考][谷歌学者]
7Clark W.A.V.和Avery K.L。,数据聚合在统计分析中的作用,地理位置。分析。 8(1976年),第428-438页。doi:10.1111/j.1538-4632.1976.tb00549.x[交叉参考][谷歌学者]
8Das K.、Jiang J.和Rao J.N.K。,经验预测值的均方误差,Ann.统计。 32(2004年),第818-840页。doi:10.1214/0090536040000002001[交叉参考][谷歌学者]
9Datta G.S.和Lahiri P。,小面积估计问题中估计的最佳线性无偏预报器不确定性的统一度量,统计正弦。 10(2000),第139-152页。[谷歌学者]
10埃夫隆·B。,标准误差的非参数估计:折刀法、自举法和其他方法,生物特征 68(1981),第589-599页。doi:10.1093/biomet/68.3.589[交叉参考][谷歌学者]
11Fay R.E.和Herriot R.A。,小地方收入估算:James–Stein程序在人口普查数据中的应用,美国统计协会。 74(1979年),第269-277页。doi:10.1080/01621459.1979.10482505[交叉参考][谷歌学者]
12Friedman J.、Hastie T.和Tibshirani R。,基于坐标梯度下降的广义线性模型正则化路径,J.统计软件。 33(2010),第1-22页。doi:10.18637/jss.v033.i01[PMC免费文章][公共医学] [交叉参考][谷歌学者]
13GESIS莱布尼茨社会科学研究所,官方统计数据元数据(2020). 可在https://www.gesis.org/en/missy/metadata/MZ/.
14Ghosh A.和Thoresen M。,线性混合效应模型中的非凹惩罚和固定效应的正则化选择,AStA高级统计分析。 102(2018),第179-210页。doi:10.1007/s10182-017-0298-z[交叉参考][谷歌学者]
15Ghosh M.和Steorts R.C。,适用于小面积估算的两阶段基准测试,测试 22(2013),第670-687页。doi:10.1007/s11749-013-0338-2[交叉参考][谷歌学者]
16Greven S.和Kneib T。,线性混合模型中边际和条件AIC的行为,生物特征 97(2010),第773-789页。doi:10.1093/biomet/asq042[交叉参考][谷歌学者]
17霍尔·P和麦蒂·T。,嵌套误差回归模型中均方预测误差的非参数估计,Ann.统计。 34(2006),第1733-1750页。doi:10.1214/0090536000000579[交叉参考][谷歌学者]
18Herwig A.和Schimpl Neimans B。,Mikrozensus科学使用文件2010:Dokumentation und datenaufbereitung,技术代表,GESIS–Leibnizinstitut für Sozialwissenschaften,2013年。GESIS-2013/10年技术报告。
19Hoerl A.E.和Kennard R.W。,岭回归:非正交问题的有偏估计,技术计量学 12(1970年),第55-67页。网址:10.1080/00401706.1970.10488634[交叉参考][谷歌学者]
20Husain K.、Ansari R.和Ferder L。,酒精性高血压的机制与预防,世界。《心脏病学杂志》。 6(2014),第242-252页。doi:10.4330/wjc.v6.i5.245[PMC免费文章][公共医学] [交叉参考][谷歌学者]
21姜杰。,基于广义线性混合模型的小面积推理经验最佳预测,J.统计计划。推断 111(2003),第117-127页。doi:10.1016/S0378-3758(02)00293-8[交叉参考][谷歌学者]
22Jiang J.、Lahiri P.和Wan S.M。,基于m-估计的经验最佳预测的统一折刀理论,Ann.统计。 30(2002),第1782-1810页。doi:10.1214/aos/1043351257[交叉参考][谷歌学者]
23Kackar R.N.和Harville D.A。,混合线性模型中固定效应和随机效应估计量的标准误差近似,美国统计协会。 79(1984),第853-862页。[谷歌学者]
24.Lahiri P.和Rao J.N.K。,小面积估计量均方误差的稳健估计,美国统计协会。 90(1995),第758–766页。doi:10.1080/01621459.1995.10476570[交叉参考][谷歌学者]
25Lastra G.、Syed S.、Kurukulasuriya L.、Manrique C.和Sowers J。,2型糖尿病和高血压:最新进展,内分泌。北美代谢诊所。 43(2014),第103–122页。doi:10.1016/j.ecl.2013.09.005[PMC免费文章][公共医学] [交叉参考][谷歌学者]
26冷斌、金妍、李刚、陈磊、金妮。,社会经济状况与高血压:一项荟萃分析,J.高血压。 33(2015),第221-229页。doi:10.1097/HJH0000000000000428[公共医学] [交叉参考][谷歌学者]
27Lohr S.和Ybara L。,误差测量辅助信息时的小面积估计,生物特征 95(2008),第919-931页。doi:10.1093/biomet/asn048[交叉参考][谷歌学者]
28McCulloch C.和Neuhaus J。,模型错误指定下线性和广义线性模型中随机效应的预测,生物计量学 67(2011),第270-279页。文件编号:10.1111/j.1541-0420.2010.01435.x[PMC免费文章][公共医学] [交叉参考][谷歌学者]
29Moura F.A.S.和Holt D。,使用多级模型进行小面积估计,Surv公司。Methodol公司。 25(1999),第73-80页。[谷歌学者]
30NCD风险因素协作(NCD-RisC),1975年至2015年全球血压趋势:对1479项基于人群的测量研究(1910万参与者)的汇总分析,柳叶刀 389(2017),第37-55页。doi:10.1016/S0140-6736(16)31919-5[PMC免费文章][公共医学] [交叉参考][谷歌学者]
31Pinheiro J.C.和Bates D.M。,S和S-plus中的混合效应模型2000年,纽约施普林格。[谷歌学者]
32Prasad N.G.N.和Rao J.N.K。,小面积估计量均方误差的估计,美国统计协会。 85(1990年),第163-171页。doi:10.1080/01621459.1990.10475320[交叉参考][谷歌学者]
33罗伯特·科赫研究所,Daten und Fakten:Ergebnisse der Studie‘Gesundheit in Deutschland aktuell 2010’《联邦公报》(2012年)。可在http://www.gbe-bund.de/pdf/GEDA_2010_Gesamtausgabe.pdf德国皇家科学院,柏林。
34谢尔多夫·J·、布尔曼·P·和范德格尔·S·。,高维线性混合效应模型的l1惩罚估计,斯堪的纳维亚J.Stat。 38(2011),第197-214页。doi:10.1111/j.1467-9469.2011.00740.x[交叉参考][谷歌学者]
35Schipf S.、Ittermann T.、Tamayo T.、Holle R.、Schunk M.、Maier W.、Meisinger C.、Thorand B.、Kluttig A.、Greiser K.H.、Berger K.、Müler G.、Moebus S.、Slomiany U.、Rathmann W.和Völzke H。,德国自报2型糖尿病发病率的地区差异:来自德国五项基于人群的研究的结果(DIAB-CORE联盟),《流行病学杂志》。社区。健康。 68(2014),第1088–1095页。doi:10.1136/jech-2014-203998[公共医学] [交叉参考][谷歌学者]
36Tibshirani R。,通过套索回归收缩和选择,J.R.统计社会服务。B(方法学) 58(1996),第267-288页。[谷歌学者]
37曾培云。,非光滑可分极小化问题的坐标梯度下降法,数学。程序。 117(2009),第387-402页。doi:10.1007/s10107-007-0170-0[交叉参考][谷歌学者]
38Twigg L.、Moon G.和Jones K。,预测小区域健康相关行为:吸烟和饮酒指标的比较,社会科学。医学。 50(2000),第1109–1120页。doi:10.1016/S0277-9536(99)00359-7[公共医学] [交叉参考][谷歌学者]
39邹H和哈斯蒂T。,通过弹性网进行正则化和变量选择,J.R.统计社会服务。B(方法学) 67(2005),第301-320页。数字对象标识代码:10.1111/j.1467-9868.2005.0050.x[交叉参考][谷歌学者]

文章来自应用统计学杂志由以下人员提供泰勒和弗朗西斯