跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
J应用统计。2021; 48(13-15): 2389–2405.
2020年9月24日在线发布。 数字对象标识:10.1080/02664763.2020.1823946
预防性维修识别码:PMC9042183
PMID:35707078

比例数据的Unit-Lindley混合效应模型

摘要

最近,单位林德利分布及其相关回归模型被开发出来,作为贝塔回归模型的替代品,其单位区间内的结果是连续的(0,1)比例数据通常出现在具有层次结构的临床试验、经济学和社会研究中。在本研究中,提出了单位-林德利混合效应模型,并研究了用于参数估计的适当似然分析方法。对于混合效应模型中的聚类或纵向比例数据,全似然函数不具有闭合形式。本研究使用拉普拉斯和自适应高斯求积逼近方法获得了单位-林德利混合效应模型的参数估计。我们使用单位Lindley混合效应模型分析了巴西城市供水和污水不足家庭比例的数据集,该模型包括作为巴西联邦州的随机截距。分析结果表明,所提出的单位-林德利混合效应模型比单位-林德利回归模型和贝塔混合模型具有更好的拟合效果。此外,在模拟研究中,通过蒙特卡罗模拟研究,从偏差和均方误差方面评估和比较了近似方法估计的准确性。

关键词:比例数据、混合效应模型、似然近似、质量较差的家庭、单位林德利分布

1.简介

在医学、金融、社会和教育研究以及工程等许多研究领域,结果测量可以是以单位区间为界的比例、比率、分数或百分比(0,1)最近,单位林德利分布及其回归模型被提出作为贝塔回归模型的替代方案,贝塔回归是建模单位有界数据集的最常用方法[4,6]. 众所周知的回归模型,如高斯、logistic或泊松,可能不适合于这种比例数据。比例数据可能在受试者/实验单位的方差和依赖结构中表现出异质性,或者不满足正态假设。当数据违反标准线性回归模型的正态性假设时,通常建议进行转换,但这种做法可能会扭曲结果变量的概率属性。单位林德利分布是指数族。然而,它不属于自然指数族。根据文献研究,广义线性混合模型(GLMMs)或广义线性模型(GLMs)的分布通常为自然指数族,如logistic、poisson混合模型。在GLM和GLMM的背景下,单纯形分布是在最近的文献中发展起来的,但已知单纯形分布属于离散族,但不属于自然指数族[9]. 同时,基于非自然指数族的贝塔分布,为单位区间的层次数据提供了一类具有统计推断方法的贝塔混合模型(0,1)[1]. 相关性结构通常出现在重复测量设计、纵向研究或任何其他形式的聚类抽样设计中。具有特定主题参数的模型能够处理同一主题内测量值之间的相关性,因此总可变性在主题内或主题群之间进行分解。GLMM既包括聚类/受试者的随机效应,也包括协变量对结果的固定效应,可用于对此类层次数据进行建模。因此,混合效应模型与固定效应模型的区别在于包含了特定于主题或集群的参数。在本研究中,主要重点是为响应变量开发一个混合效应模型,这些响应变量可以是集群或纵向抽样设计中有界单位区间(0,1)中的比例、分数或比率。本文旨在通过建立单位-林德利混合模型,采用基于似然的统计推断方法,并应用实际数据集,对单位区间内的响应变量进行建模。对于单位-林德利混合效应模型,通过近似边缘似然函数获得了模型参数的似然估计。GLMM的边缘似然函数通常包含难以处理的积分,而这种积分需要数值方法。为此,在积分随机效应以评估边缘似然函数时,采用拉普拉斯和自适应高斯求积(AGQ)近似方法。Mazucheli等人。[6]使用单位-林德利回归模型分析了巴西城市供水和污水不足的家庭比例与一些社会人口变量之间的关系,指出单位-林德利回归模型比贝塔回归模型更适合[6]. 作为自变量,分析中考虑了地区、预期寿命、人均收入和城市的人类发展指数[6]. 在本研究中,我们倾向于使用单位-林德利混合效应模型分析包含联邦各州随机截获的数据集。在蒙特卡罗模拟研究中,根据模型参数估计的偏差和均方误差,比较了拉普拉斯法和AGQ法近似单位-林德利混合效应模型的边际似然。

单位-林德利混合效应模型和边际似然推断的实现近似方法在第节中提供2第节演示了实际数据集的应用通过考虑单位-林德利回归模型中忽略的层次数据结构,实现单位-林德利混合效应模型。第节提供了近似方法与各种单位-林德利混合效应模型比较的蒙特卡罗模拟结果4研究的结论见第节5.

2.单位-林德利混合效应模型

假设Y(Y)U型L(左)(μ)表示单位林德利分布随机变量,其概率密度函数为平均值,

(f)(|μ)=(1μ)2μ(1)经验((1μ)μ(1))
(1)

其中0<<1,0<μ<1.让Y(Y)1,,Y(Y)n个是独立的随机变量,其中Y(Y)U型L(左)(μ),=1,,n个单位Lindley回归模型利用线性预测器,(μ)=x个β哪里β=(β1,,β第页)表示第页-回归系数的维数向量(第页<n个)x个=(x个1,,x个第页)协变量向量。任何链接函数的主要目的都是连接线性预测器和分布函数的平均值。如果分布在自然指数族中,则存在从响应变量的密度分布导出的定义明确的规范连接函数。例如,logit链接是逻辑(混合)模型的标准链接函数。然而,在某些情况下,为了将链接函数的域与分布函数的平均值范围耦合,非标准链接函数可用于算法必要性,例如单纯形模型和贝塔模型[4,9]. 贝塔回归和贝塔混合模型基于贝塔分布,而非单位林德利分布中的自然指数族。Beta模型还利用了logit链接功能,因为它们还为单位间隔响应建模[1,4]. 因此,对于平均链接函数(.):(0,1),logit链接(μ)=日志(μ1μ)用于确保预测的平均值位于单位区间内(0,1)[6]. 单位-林德利回归模型没有考虑同一组或实验单位随时间或治疗的观察结果之间的相关性。当数据集是分层收集的,包括对单位的随机影响时,林德利回归模型为分组数据集提供了简约模型。单位-林德利混合效应模型建议如下。假设Y(Y)j个表示单位Lindley响应j个第个受试者(或集群)的测量结果,=1,,N个,j个=1,,n个Y(Y)n个受试者所有测量的维向量让我们假设一下b条是随机主体效果q个-假定标注独立于N个(0,D类).Y(Y)j个通过其条件平均值与固定效应和随机效应相关ηj个属于μj个,μj个=E类(Y(Y)j个|b条),

ηj个=(μj个)=x个j个β+z(z)j个b条,
(2)

哪里x个j个第页x个1已知协变量向量和z(z)j个q个x个1随机效应的已知设计向量。β第页x个1未知固定回归系数向量和b条是一个q个-主题特定参数的维向量。在单位Lindley混合效应模型中鉴于b条由提供

(f)|b条(|b条)=j个=1n个(1μj个)2μj个(1j个)经验(j个(1μj个)μj个(1j个)),
(3)

其中条件平均值μj个=E类(Y(Y)j个|b条)通过logit链接与固定和随机效果相关ηj个=日志(μj个1μj个)注意,使用logit链接作为条件平均值,μj个=11+经验(ηj个)=11+经验[(x个j个β+z(z)j个b条)].在矩阵形式下,(2)中的模型可以表示为:,

η=X(X)β+Z轴b条,
(4)

=(1,2,,n个)是响应向量n个受试者内的测量.

3.单位-林德利混合效应模型的参数估计

知道随机效应b条作为未观测到的随机变量,边际或综合似然通过对随机效应的分布进行平均来获得固定效应估计。主体或集群的可能性贡献,=1,,N个如下所示

(f)(|β,D类)=(f)|b条(|b条)(b条|D类)d日b条=(2π)q个2|D类|12(f)|b条(|b条)经验[12b条D类1b条]d日b条.
(5)

的边际可能性βD类已提供

L(左)(β,D类;)==1N个(f)(|β,D类)==1N个j个=1n个(f)j个(j个|b条,β)(b条|D类)d日b条.
(6)

主要问题是最大化方程式中的可能性(6)在N个上的积分q个-维度随机效应,b条。由于计算了(6)由于涉及积分,文献中提出了各种数值似然逼近方法[2,7,12]. 在本研究中,拉普拉斯和AGQ方法被用作数值积分方法,用于逼近边际似然函数来估计模型参数。

3.1. 拉普拉斯近似

采用拉普拉斯方法近似积分,如(5)。积分(5)可以表述为经验[小时(b条)]哪里小时(b条)=日志(f)|b条(|b条)12b条D类1b条对于单位-林德利响应混合效应模型,

小时(b条)=j个=1n个[ηj个日志(1j个)+日志(1μj个)j个(1μj个)μj个(1j个)]12b条D类1b条.
(7)

假设b条^=b条^(β,D类,)是的值b条最大化小时(b条)。对于b条^,经验贝叶斯估计用于[小时(b条^)]功能[11]. 中的积分(5)可以作为[10]

经验[小时(b条)]d日b条=经验[小时(b条^)]经验[12(b条b条^)V(V)1(b条b条^)]经验(S公司)d日b条=(2π)q个/2|V(V)|1/2经验[小时(b条^)]E类(经验[S公司]).
(8)

哪里V(V)=[小时(b条^)]1=[2小时(b条)b条b条|b条=b条^]1, 小时(b条^)消失和S公司=k个=T型k个j个,T型k个j个=1k个![k个1(b条b条^)]小时(k个)(b条^^)(b条b条^)[10]. 在单位Lindley混合模型的Laplace近似和AGQ方法中,我们需要获得小时(b条)关于b条,

小时(b条)=d日小时(b条)d日b条=j个=1n个[(1+μj个)z(z)j个j个(1j个)[(μj个1μj个)z(z)j个]]D类1b条,
(9)

小时(b条)=j个=1n个[(μj个(1μj个)z(z)j个z(z)j个)j个(1j个)(1μj个μj个)z(z)j个z(z)j个]D类1.
(10)

小时(b条)=(Z轴W公司Z轴+D类1)哪里W公司n个x个n个带元素的对角矩阵w个j个=((1μj个μj个)(μj个2+(j个1j个)))在对角线上。在标准拉普拉斯近似中,被积函数的对数小时(b条)使用周围的二阶泰勒级数展开b条^并使用高斯分布进行计算,以完成方程中的积分(8),近似值E类(e(电子))1因此,方程中积分的拉普拉斯近似(5)是(2π)q个/2|V(V)|1/2经验(小时(b条^))边际似然近似为

L(左)|D类|N个/2=1N个|V(V)|1/2经验[小时(b条^)]
(11)

和log-likelihood一样

日志(L(左))N个2日志|D类|+12=1N个日志|V(V)|+=1N个小时(b条^).
(12)

3.2. 自适应高斯-厄米积分近似

为了根据概率密度函数计算积分,当积分在被积函数达到最大值的点附近近似时,AGQ方法提供了更好的精度,并且对于正态分布的随机效应很有用[,8]. 在AGQ方法中,根据对数似然函数的形状重新缩放求积点。假设b条^是的最大点小时(b条)和近似值小时(b条)二阶Taylor展开式小时(b条)围绕b条^如下所示:

小时(b条)小时(b条^)+12(b条b条^)小时(b条^)(b条b条^).
(13)

的二阶泰勒展开小时(b条)替换为方程式左侧的积分(8).b条可以认为是正态分布N个q个(b条^,[小时(b条^)]1).设AGQ方法的核函数为z(z)N个q个(0,)b条=μb条+b条z(z)=b条^+[小时(b条^)]1/2z(z).然后,

|b条d日z(z)|=[小时(b条^)]1/2.
(14)

据皮涅罗和贝茨介绍[7],方程式中的左侧积分(8)可以写为

+[小时(b条^)]1/2经验{小时(b条^+[小时(b条^)]1/2z(z))+z(z)z(z)2}经验[z(z)z(z)2]d日z(z)=2[小时(b条^)]1/2+经验{小时(b条^+2[小时(b条^)]1/2u个)+u个u个}×经验[u个u个]d日u个
(15)

哪里u个=z(z)/2.让

EXPH(出口)=经验{小时{b条^+2[小时(b条^)]1/2(u个1u个q个)}+(u个1,,u个q个)(u个1u个q个)}

最后一个积分通过使用G点高斯-厄米特公式进行近似,如下所示:

2[小时(b条^)]1/21=1G公司2=1G公司q个=1G公司(w个1w个2w个q个)x个E类X(X)P(P)H(H),
(16)

哪里G公司表示正交点的数量,w个k个,k个=1,,q个,k个=1,,G公司,是正交权重。最后给出了AGQ方法的对数似然近似如下:

日志(L(左)AGQ公司)N个2日志|D类|+12=1N个日志|V(V)|+=1N个日志[2[小时(b条^)]1/21=1G公司2=1G公司q个=1G公司(w个1w个2w个q个)x个EXPH(出口)]
(17)

请注意小时(b条)最大值必须为负数,并且小时(b条)在AGQ和拉普拉斯近似方法中是单峰的。在AGQ方法中,参数估计对正交点的数量很敏感。模拟中还测试了15个和21个正交点。由于在参数估计的偏差和均方误差中未观察到显著变化,因此有11个正交点的AGQ被认为足以避免减缓模拟速度。

4.应用

2010年巴西人口普查期间收集的这项研究的数据集包括3197个城市和相关的社会人口变量[6]. Mazucheli等人。利用带有logit链接函数的unit-Lindley回归模型,分析了缺水和污水比例作为响应变量在单位区间内与区域、人类发展指数、城市收入和预期寿命等社会人口变量的关系。据报道,unit-Lindley回归模型比beta回归模型更适合该数据集[6].

由于巴西的城市预计会受到联邦各州的地方政策、经济状况或政治状况的影响,我们考虑将该数据集中城市所属的巴西联邦各州纳入单位-林德利回归模型,作为各州的随机截距。该假设得到支持,即巴西联邦各州供水和污水不足(PHI)的家庭比例存在异质性,如图1.

保存图片、插图等的外部文件。对象名称为CJAS_A_1823946_F0001_OB.jpg

与联邦州相关的PHI。

图中的意大利面条图2表明巴西东南部地区的PHI值低于该国东北部地区。三种不同的PHI单位-林德利混合效应模型与联邦州的随机截距拟合到数据集。为了比较Mazucheli等人之前研究的单位-林德利回归模型中的AIC值。[6],我们用模型1中的所有预测变量拟合了单位-林德利混合模型,如下所示。

保存图片、插图等的外部文件。对象名称为CJAS_A_1823946_F0002_OC.jpg

与每个地区的日志(收入)相关的PHI意大利面图。

保存图片、插图等的外部文件。对象名称为CJAS_A_1823946_F0003_OC.jpg

与每个地区HDI相关的PHI的意大利面图。

Y(Y)j个|b条U型L(左)(μj个)b条N个(0,σb条2)

(μj个)=(β0+b条)+β1高清ij公司+β2重新+βc(c)ij公司+β4利夫e(电子)ij公司

(型号1)

(μj个)=(β0+b条)+β1高清ij公司+β2重新+β日志c(c)ij公司+β4日志利夫e(电子)ij公司

(模型2)

(μj个)=(β0+b条)+β1高清ij公司+β2重新+β日志c(c)ij公司

(模型3)

b条具有=1,,13代表巴西城市的联邦州和j个=1,,n个代表了t吨小时联邦州。对于这个模型,我们有13个一维积分(只有一个随机截距参数)要求解并近似于方程(6).

如表所示1将随机截距项引入到单位-林德利回归模型中,提高了单位-林德利混合模型的AIC和对数似然值,并在其他混合效应模型中提供了更好的拟合。在模型1中,可以观察到预期寿命协变量并不显著。由于连续预测变量在不同的尺度上,收入和预期寿命变量在以模型2和模型3的平均值为中心的对数尺度上进行转换。模型2包括所有预测变量,但观察到log(预期寿命)协变量并不显著。在模型3中,我们排除了对数(预期寿命)协变量,并包括HDI、地区和对数(收入)协变量。众所周知罗吉特(E类(Y(Y)j个|b条))=x个j个T型β+z(z)j个T型b条,罗吉特(E类(Y(Y)j个))x个j个T型β在GLMM中。由于响应变量平均值的非线性变换,固定效应参数对总体具有特定主题的解释[5].

表1。

模型比较。
 模型1模型2模型3
 Log-Lik公司AIC公司Log-Lik公司AIC公司Log-Lik公司AIC公司
单位-林德利混合5822.5 116335871 11731.165841.3 11674.59
Beta混合5745 11476 115625787.95785.51 11559
衬里混合3276.4 6538.73299.9 6585.83298.5 6585
单位-林德利注册。5740.3 11470    

我们分别为HDI和log(收入)加入了一个随机斜率项,但它们似乎并不显著。模型3是该数据集的最终模型,包括三个协变量和该模型的随机截距和参数估计值,见表2。每个模型的参数估计值都是通过AGQ方法获得的,在R中的GLMMAdaptive包中有11个正交点[11]. 本文附录中给出了使用自定义单位-林德利混合模型的R中的模型拟合代码。

表2。

模型3的参数估计。
变量估计标准错误%95置信区间
拦截0.87100.5407(0188; 1.930)
人类发展指数 6.20870.8004(7.777;4.640)
区域10.82470.1915(0.449; 1.200)
原木收入 1.05350.1116(1.272;0.834)
差异组件0.0857  

5.仿真研究

在提出单位林德利混合模型后,进行了蒙特卡罗模拟研究,以考察拉普拉斯方法和AGQ方法在偏差和均方误差(MSE)方面的有限样本性能。为了评估两种不同单位-林德利混合模型的近似方法的性能,对2000个具有特定参数和样本大小组合的数据集进行了模拟。根据固定效应估计的均方误差和偏差以及随机效应的方差参数估计,比较了两个不同正交点(五点和十一点)的拉普拉斯近似和AGQ近似。利用GLMMadaptive R软件包进行了仿真研究[11]. GLMM参数估计有许多R包。然而,只有GLMMadaptive包允许用户为响应变量的不同分布定义实现的族对象[11].

此外,使用Fisher–Scoring方法开发了一个R脚本,以获得裁判推荐的单位-林德利回归模型的参数估计。感兴趣的读者可以向作者索取拟合单位Lindley回归模型的R代码。

模拟1

Y(Y)j个|b条单位林德利(μj个)(μj个)=β0+b条1+β1x个1j个+β2x个2j个+βx个j个+β4x个4j个,,,N个,j个=1,,n个b条N个(0,σ12),x个1j个统一(1,1),x个2j个N个(0.5,1),x个j个N个(0.5,1),x个4j个Unif公司(1,1).

模拟2

为了查看下面随机斜率模型中随机效应矩阵的协方差项的影响,我们取了两个不同的协方差(σ1,2=0.2,0.5)在相同样本容量配置下,随机效应协方差矩阵。

Y(Y)j个|b条单位林德利(μj个)(μj个)=β0+b条1+β1x个1j个+β2x个1j个+b条2x个2j个,,,N个,j个=1,,n个Σb条=[σ12σ1,2σ2,1σ22],x个1j个统一(1,1),x个2j个N个(0.5,1).

为了研究两种不同的样本量概念:集群/受试者数量和集群内观察数量,在模拟案例中考虑了具有多种样本量组合的Unit-Lindley混合效应模型。

结果表明,AGQ方法对随机截距模型中所有参数的参数估计都有负偏差N个=10,n个=10.表格45结果表明,AGQ方法在偏差和MSE方面为仿真1的随机截距模型提供了更好的估计。受试者内观察次数增加n个=30如表所示5改进了近似方法的偏差和最小均方误差。

表3。

随机截获模型中估计的偏差和均方误差N个 = 10,n个=10.
参数拉普拉斯AGQ-5型AGQ-11号拉普拉斯AGQ-5型AGQ-11号
设置偏见偏见偏见MSE公司MSE公司MSE公司
β0=0.3 0.28858 0.01407 0.015040.1004690.061050.061075
β1=0.60.075681 0.00244 0.002440.0265880.0227740.022774
β2=0.7 0.0925 0.00287 0.002870.0157280.0074670.007467
β=0.1 0.01388 0.00154 0.001540.0069680.0075160.007516
β4=0.2 0.02977 0.0033 0.00330.0197720.0211430.021143
σb条12=0.50.2004 0.067 0.066790.1316120.0600110.060116

表4。

随机截获模型中估计的偏差和均方误差N个 = 10,n个=30.
参数拉普拉斯AGQ-5型AGQ-11号拉普拉斯AGQ-5型AGQ-11号
设置偏见偏见偏见MSE公司MSE公司MSE公司
β0=0.3 0.38877 0.00010.0001120.1576730.0549670.055514
β1=0.60.025882 0.00161 0.001610.0071930.006370.00637
β2=0.7 0.030550.0018290.001830.0031970.0022110.00221
β=0.1 0.003420.0020180.0020210.0020960.0021110.002111
β4=0.2 0.008270.0012630.0012650.0063290.0063610.006361
σb条12=0.50.199657 0.05091 0.050680.1301510.0519020.051948

表5。

随机截距模型中估计的偏差和均方误差N个 = 30,n个=10.
参数拉普拉斯AGQ-5型AGQ-11号拉普拉斯AGQ-5型AGQ-11号
设置偏见偏见偏见MSE公司MSE公司MSE公司
β0=0.3 0.27908 0.00616 0.007260.0832110.020790.020801
β1=0.60.082134 0.00111 0.001110.0134820.0071920.007192
β2=0.7 0.09657 0.00013 0.000130.0118290.0023910.002391
β=0.1 0.012790.001840.0018390.0023060.0023660.002366
β4=0.2 0.027590.0013060.0013040.0072030.0071070.007107
σb条12=0.50.201932 0.02136 0.021310.0737140.0215670.02158

表中其他样本大小配置也有类似的趋势6– 9模拟1中的近似方法。如表所示,当我们在主题内观察到的很少时89增加受试者规模确实会略微降低估计的平均误差。

表6。

随机截距模型中估计的偏差和均方误差N个 = 30,n个=30.
参数拉普拉斯AGQ-5型AGQ-11号拉普拉斯AGQ-5型AGQ-11号
设置偏见偏见偏见MSE公司MSE公司MSE公司
β0=0.3 0.37865 0.006611 0.007019070.1455720.0168610.016866
β1=0.60.0296390.0007210.000722560.0029660.002030.00203
β2=0.7 0.034560.00003860.00003940.0019240.0006890.000689
β=0.1 0.00532 0.000301 0.000302620.0007060.0006850.000685
β4=0.2 0.01023 0.000562 0.000566050.0021540.0020620.002061
σb条12=0.50.184148 0.017771 0.017614170.0627140.0174840.017501

表8。

随机截距模型中估计的偏差和均方误差N个 = 40,n个=5.
参数拉普拉斯AGQ-5型AGQ-11号拉普拉斯AGQ-5型AGQ-11号
设置偏见偏见偏见MSE公司MSE公司MSE公司
β0=0.3 0.16269 0.00465 0.006190.0321530.0175890.017605
β1=0.60.150465 0.00152 0.001510.0321880.0122810.01228
β2=0.7 0.17644 0.00032 0.000330.0344610.0038290.003829
β=0.1 0.023760.0019130.0019160.0032710.003710.003709
β4=0.2 0.049340.0007290.0007270.0106680.0109580.010958
σb条12=0.50.228056 0.01502 0.015020.0798860.0206160.020617

表9。

随机斜率模型中估计值和偏差的平均值N个 = 10,n个=30,σb条1,2=0.2.
参数拉普拉斯拉普拉斯AGQ-5型AGQ-5型AGQ-11型AGQ-11号
设置平均。美国东部时间。偏见平均。美国东部时间。偏见平均值。美国东部时间。偏见
β0=0.7 0.439310.260691 0.70682 0.00682 0.70779 0.00779
β1=1 0.907610.092394 1.00053 0.00053 1.00053 0.00053
β2=0.30.024766 0.275230.296028 0.003970.2958 0.0042
σb条12=0.750.6790910.1096740.679091 0.070910.679085 0.07092
σb条22=0.50.4363210.2326530.436321 0.063680.436327 0.06367
σb条1,2=0.20.180691 0.083970.180691 0.019310.18069 0.01931

具有两个求积点的AGQ方法在回归参数估计中变化不大。可以观察到,将协方差项从0.2增加到0.5会增加表中近似方法产生的估计的偏差和MSE1014对于随机斜率模型,拉普拉斯方法产生了固定效应的有偏估计,而AGQ方法产生了几乎无偏的固定效应参数估计。

表7。

随机截距模型中估计的偏差和均方误差N个 = 20,n个=5.
参数拉普拉斯AGQ-5型AGQ-11号拉普拉斯AGQ-5型AGQ-11号
设置偏见偏见偏见MSE公司MSE公司MSE公司
β0=0.3 0.17862 0.01581 0.017250.0443320.0365970.036653
β1=0.60.1464810.0014060.0014110.041110.0245460.024545
β2=0.7 0.168520.0051720.0051660.0356290.0085890.008589
β=0.1 0.021670.00190.0018980.0067220.0082270.008227
β4=0.2 0.049160.0010650.0010630.0210580.0250860.025085
σb条12=0.50.225344 0.04318 0.043170.1001640.038640.038651

表11。

随机斜率模型中估计值和偏差的平均值N个 = 100,n个=20,σb条1,2=0.2.
参数拉普拉斯拉普拉斯AGQ-5型AGQ-5型AGQ-11型AGQ-11号
设置平均。美国东部时间。偏见平均。美国东部时间。偏见平均。美国东部时间。偏见
β0=0.7 0.392690.307313 0.69570.004299 0.697930.002065
β1=1 0.850.149998 0.996420.003578 0.996420.003578
β2=0.30.036328 0.263670.3005210.0005210.29983 0.00017
σb条12=0.750.7389470.1386860.738947 0.011050.738965 0.01103
σb条22=0.50.4887450.2765390.488745 0.011260.488776 0.01122
σb条1,2=0.20.196152 0.103160.196152 0.003850.19616 0.00384

表12。

随机斜率模型中估计的MSEN个 = 100,n个=20,σb条1,2=0.2.
参数MSE公司MSE公司MSE公司
设置拉普拉斯AGQ-5型AGQ-11号
β0=0.70.0957570.0097410.009642
β1=10.0255850.0039840.003984
β2=0.30.0712660.0064540.006439
σb条12=0.750.0381740.0145350.014534
σb条22=0.50.0909690.0082770.008277
σb条1,2=0.20.0176010.0052340.005235

表13。

随机斜率模型中估计值和偏差的平均值N个 = 100,n个=20,σb条22=0.5.
参数拉普拉斯拉普拉斯AGQ-5型AGQ-5型AGQ-11号AGQ-11号
设置平均值。美国东部时间。偏见平均。美国东部时间。偏见平均。美国东部时间。偏见
β0=0.7 0.367190.332807 0.648470.051535 0.650390.049606
β1=1 0.793060.206944 0.929480.070517 0.929480.070518
β2=0.30.037792 0.262210.280334 0.019670.278995 0.021
σb条12=0.750.6921780.0833210.692178 0.057820.692196 0.0578
σb条22=0.50.4606940.2327170.460694 0.039310.460717 0.03928
σb条1,2=0.50.461759 0.17120.461759 0.038240.461774 0.03823

表10。

随机斜率模型中估计的MSEN个 = 10,n个=30,σb条1,2=0.2.
参数MSE公司MSE公司MSE公司
设置拉普拉斯AGQ-5型AGQ-11型
β0=0.70.0742360.0775210.077839
β1=10.0115340.0024980.002498
β2=0.30.0906460.0582860.058328
σb条12=0.750.1638940.1132140.113205
σb条22=0.50.1645950.063940.06394
σb条1,2=0.20.0715260.0445210.04452

表14。

随机斜率模型中估计的MSEN个 = 100,n个=20,σb条22=0.5.
参数MSE公司MSE公司MSE公司
设置拉普拉斯AGQ-5型AGQ-11号
β0=0.70.1217370.0419310.041888
β1=10.0910590.0709510.070951
β2=0.30.0704670.0121910.012169
σb条12=0.750.0750860.051640.05164
σb条22=0.50.1066190.0245090.024509
σb条1,2=0.50.0451490.0244990.0245

6.讨论

速率或比例数据可以是离散和连续的。成功次数除以试验次数,观察到的速率是二项分布中的离散分数。通过逻辑回归(混合)模型中成功率的对数,将事件概率(观察率)建模为一个或多个预测因子的函数。在本研究中,我们考虑了GLMM环境下单位林德利分布建模的单位区间内的层次连续比例数据。为了研究新提出的单位-林德利混合模型在不同样本大小和协方差结构下的逼近方法的性能,进行了仿真研究。此外,将所提出的混合模型应用于真实数据,以评估其在众所周知的混合模型中的性能,结果表明,单位Lindley混合模型在对数似然和AIC方面提供了更好的拟合。阿特拉斯分析表示,环境质量较差的家庭比例受收入、人类发展指数、地区、预期寿命的影响,与巴西联邦各州有关。如果要在州内进行改进或制定州内政策,那么如果每个州都在其内部进行评估,则更准确。这也可能适用于单位-林德利混合模型,因为GLMM在联邦各州提供了特定主题的评论。模拟研究的结果表明,拉普拉斯方法导致了有偏的固定效应估计。AGQ近似具有相当小的偏差,正如预期的那样,其性能随着正交点的数量而提高。AGQ-5和AGQ-11近似值之间几乎没有差异,这表明五个求积点为本研究提供了足够的精度。AGQ方法在模拟中假设的模型和参数规范下,以非常相似的性能对固定效应进行几乎无偏的估计。基于AGQ方法的方差分量估计获得的偏差非常小。然而,拉普拉斯方法产生了有偏的方差分量估计。未来,我们计划将所提出的混合模型的仿真研究扩展到其他估计模型参数的近似方法,以获得最佳性能。

致谢

作者想感谢Dimitris Rizopoulos博士用他的R包“GLMMAdaptive”贡献了这篇论文,并提出了宝贵的建议。作者还感谢亚历克斯·德莱昂博士和三位匿名审稿人对论文的改进,以及他们提出的宝贵意见和建议。

附录。

本文中使用的数据集可以在“https://websitem.gazi.du.tr/site/haticesenol/files网站.’

保存图片、插图等的外部文件。对象名称为CJAS_A_1823946_ILG0001.jpg

保存图片、插图等的外部文件。对象名称为CJAS_A_1823946_ILG0002.jpg

保存图片、插图等的外部文件。对象名称为CJAS_A_1823946_ILG0003.jpg

资金筹措表

在本研究期间,作者获得了土耳其科学委员会(TUBITAK)和加齐大学的博士后资助(2219),在亚历克斯·德莱昂博士的监督下,在卡尔加里大学留学。

披露声明

提交人没有报告任何潜在的利益冲突。

工具书类

1.Bonat W.H.、Ribeiro P.J.和Zeviani W.M。,一类贝塔混合模型的似然分析,J.应用。斯达。 16(2014),第252-266页。[谷歌学者]
2Breslow N.E.和Clayton D.G。,广义线性混合模型中的近似推理,美国统计协会。 88(1993),第9-25页。[谷歌学者]
三。Evans M.和Swartz T。,蒙特卡罗和确定性方法逼近积分,卷。20牛津大学出版社,纽约,2000年,第156-159页。[谷歌学者]
4法拉利S.和克里巴里-内托F。,建模速率和比例的贝塔回归,J.应用。斯达。 31(2004),第799-815页。doi:10.1080/0266476042000214501[交叉参考][谷歌学者]
5Hedeker D.、du Toit S.H.、Demirtas H.和Gibbons R.D。,关于二元结果混合模型回归参数边缘化的注记,生物识别 74(2018),第354-361页。doi:10.1111/biom.12707[PMC免费文章][公共医学] [交叉参考][谷歌学者]
6Mazucheli J.、Menezes A.F.B.和Chakraborty S。,关于比例数据的单参数单位Lindley分布及其相关回归模型,J.应用。斯达。 46(2019年),第700-714页。doi:10.1080/02664763.2018.1511774[交叉参考][谷歌学者]
7Pinheiro J.C.和Bates D.M。,非线性混合效应模型中对数似然函数的逼近,J.计算。图表。斯达。 4(1995),第12-35页。[谷歌学者]
8Pinheiro J.C.和Chao E.C。,多级广义线性混合模型的高效拉普拉斯和自适应高斯求积算法,J.计算。图表。斯达。 15(2012),第58-81页。doi:10.1198/106186006X96962[交叉参考][谷歌学者]
9邱忠、宋鹏欣、谭明。,纵向比例数据的单纯形混合效应模型,扫描。J.统计。 35(2008),第577–596页。文件编号:10.1111/j.1467-9469.2008.00603.x[交叉参考][谷歌学者]
10Raudenbush S.W.、Yang M.L.和Yosef M。,基于高阶多元拉普拉斯近似的嵌套随机效应广义线性模型的最大似然,J.计算。图表。斯达。 9(2000),第141-157页。[谷歌学者]
11Rizopoulos D。,GLM自适应:使用自适应高斯求积的广义线性混合模型,R包版本0.5-12019;软件可用位置https://CRAN.R-project.org/package=GLMMadaptive(GLM自适应).
12Wolfinger R.和O'Connell M。,广义线性混合模型:伪似然方法,J.统计计算。模拟。 48(1993),第233-243页。doi:10.1080/0949659308811554[交叉参考][谷歌学者]

文章来自应用统计学杂志由以下人员提供泰勒和弗朗西斯