J应用统计。2021; 48(13-15): 2389–2405.
比例数据的Unit-Lindley混合效应模型
Hatice Tul Kubra Akdur公司
土耳其安卡拉加西大学科学院统计系
版权©2020 Informa UK Limited,作为Taylor&Francis Group交易 摘要
最近,单位林德利分布及其相关回归模型被开发出来,作为贝塔回归模型的替代品,其单位区间内的结果是连续的比例数据通常出现在具有层次结构的临床试验、经济学和社会研究中。在本研究中,提出了单位-林德利混合效应模型,并研究了用于参数估计的适当似然分析方法。对于混合效应模型中的聚类或纵向比例数据,全似然函数不具有闭合形式。本研究使用拉普拉斯和自适应高斯求积逼近方法获得了单位-林德利混合效应模型的参数估计。我们使用单位Lindley混合效应模型分析了巴西城市供水和污水不足家庭比例的数据集,该模型包括作为巴西联邦州的随机截距。分析结果表明,所提出的单位-林德利混合效应模型比单位-林德利回归模型和贝塔混合模型具有更好的拟合效果。此外,在模拟研究中,通过蒙特卡罗模拟研究,从偏差和均方误差方面评估和比较了近似方法估计的准确性。
关键词:比例数据、混合效应模型、似然近似、质量较差的家庭、单位林德利分布
1.简介
在医学、金融、社会和教育研究以及工程等许多研究领域,结果测量可以是以单位区间为界的比例、比率、分数或百分比最近,单位林德利分布及其回归模型被提出作为贝塔回归模型的替代方案,贝塔回归是建模单位有界数据集的最常用方法[4,6]. 众所周知的回归模型,如高斯、logistic或泊松,可能不适合于这种比例数据。比例数据可能在受试者/实验单位的方差和依赖结构中表现出异质性,或者不满足正态假设。当数据违反标准线性回归模型的正态性假设时,通常建议进行转换,但这种做法可能会扭曲结果变量的概率属性。单位林德利分布是指数族。然而,它不属于自然指数族。根据文献研究,广义线性混合模型(GLMMs)或广义线性模型(GLMs)的分布通常为自然指数族,如logistic、poisson混合模型。在GLM和GLMM的背景下,单纯形分布是在最近的文献中发展起来的,但已知单纯形分布属于离散族,但不属于自然指数族[9]. 同时,基于非自然指数族的贝塔分布,为单位区间的层次数据提供了一类具有统计推断方法的贝塔混合模型[1]. 相关性结构通常出现在重复测量设计、纵向研究或任何其他形式的聚类抽样设计中。具有特定主题参数的模型能够处理同一主题内测量值之间的相关性,因此总可变性在主题内或主题群之间进行分解。GLMM既包括聚类/受试者的随机效应,也包括协变量对结果的固定效应,可用于对此类层次数据进行建模。因此,混合效应模型与固定效应模型的区别在于包含了特定于主题或集群的参数。在本研究中,主要重点是为响应变量开发一个混合效应模型,这些响应变量可以是集群或纵向抽样设计中有界单位区间(0,1)中的比例、分数或比率。本文旨在通过建立单位-林德利混合模型,采用基于似然的统计推断方法,并应用实际数据集,对单位区间内的响应变量进行建模。对于单位-林德利混合效应模型,通过近似边缘似然函数获得了模型参数的似然估计。GLMM的边缘似然函数通常包含难以处理的积分,而这种积分需要数值方法。为此,在积分随机效应以评估边缘似然函数时,采用拉普拉斯和自适应高斯求积(AGQ)近似方法。Mazucheli等人。[6]使用单位-林德利回归模型分析了巴西城市供水和污水不足的家庭比例与一些社会人口变量之间的关系,指出单位-林德利回归模型比贝塔回归模型更适合[6]. 作为自变量,分析中考虑了地区、预期寿命、人均收入和城市的人类发展指数[6]. 在本研究中,我们倾向于使用单位-林德利混合效应模型分析包含联邦各州随机截获的数据集。在蒙特卡罗模拟研究中,根据模型参数估计的偏差和均方误差,比较了拉普拉斯法和AGQ法近似单位-林德利混合效应模型的边际似然。
单位-林德利混合效应模型和边际似然推断的实现近似方法在第节中提供2第节演示了实际数据集的应用三通过考虑单位-林德利回归模型中忽略的层次数据结构,实现单位-林德利混合效应模型。第节提供了近似方法与各种单位-林德利混合效应模型比较的蒙特卡罗模拟结果4研究的结论见第节5.
2.单位-林德利混合效应模型
假设表示单位林德利分布随机变量,其概率密度函数为平均值,
其中0<年<1,.让是独立的随机变量,其中,单位Lindley回归模型利用线性预测器,哪里表示第页-回归系数的维数向量和协变量向量。任何链接函数的主要目的都是连接线性预测器和分布函数的平均值。如果分布在自然指数族中,则存在从响应变量的密度分布导出的定义明确的规范连接函数。例如,logit链接是逻辑(混合)模型的标准链接函数。然而,在某些情况下,为了将链接函数的域与分布函数的平均值范围耦合,非标准链接函数可用于算法必要性,例如单纯形模型和贝塔模型[4,9]. 贝塔回归和贝塔混合模型基于贝塔分布,而非单位林德利分布中的自然指数族。Beta模型还利用了logit链接功能,因为它们还为单位间隔响应建模[1,4]. 因此,对于平均链接函数,logit链接用于确保预测的平均值位于单位区间内[6]. 单位-林德利回归模型没有考虑同一组或实验单位随时间或治疗的观察结果之间的相关性。当数据集是分层收集的,包括对单位的随机影响时,林德利回归模型为分组数据集提供了简约模型。单位-林德利混合效应模型建议如下。假设表示单位Lindley响应受试者(或集群)的测量结果我,,和是受试者所有测量的维向量我让我们假设一下是随机主体效果q个-假定标注独立于.通过其条件平均值与固定效应和随机效应相关属于,,
哪里是已知协变量向量和是随机效应的已知设计向量。β是未知固定回归系数向量和是一个q个-主题特定参数的维向量。在单位Lindley混合效应模型中鉴于由提供
其中条件平均值通过logit链接与固定和随机效果相关注意,使用logit链接作为条件平均值,.在矩阵形式下,(2)中的模型可以表示为:,
是响应向量受试者内的测量我.
3.单位-林德利混合效应模型的参数估计
知道随机效应作为未观测到的随机变量,边际或综合似然通过对随机效应的分布进行平均来获得固定效应估计。主体或集群的可能性贡献我,如下所示
的边际可能性β和D类已提供
主要问题是最大化方程式中的可能性(6)在N个上的积分q个-维度随机效应,。由于计算了(6)由于涉及积分,文献中提出了各种数值似然逼近方法[2,7,12]. 在本研究中,拉普拉斯和AGQ方法被用作数值积分方法,用于逼近边际似然函数来估计模型参数。
3.1. 拉普拉斯近似
采用拉普拉斯方法近似积分,如(5)。积分(5)可以表述为哪里对于单位-林德利响应混合效应模型,
假设是的值最大化。对于,经验贝叶斯估计用于功能[11]. 中的积分(5)可以作为[10]
哪里
消失和[10]. 在单位Lindley混合模型的Laplace近似和AGQ方法中,我们需要获得关于,
哪里是带元素的对角矩阵在对角线上。在标准拉普拉斯近似中,被积函数的对数使用周围的二阶泰勒级数展开并使用高斯分布进行计算,以完成方程中的积分(8),近似值因此,方程中积分的拉普拉斯近似(5)是边际似然近似为
和log-likelihood一样
3.2. 自适应高斯-厄米积分近似
为了根据概率密度函数计算积分,当积分在被积函数达到最大值的点附近近似时,AGQ方法提供了更好的精度,并且对于正态分布的随机效应很有用[三,8]. 在AGQ方法中,根据对数似然函数的形状重新缩放求积点。假设是的最大点和近似值二阶Taylor展开式围绕如下所示:
的二阶泰勒展开替换为方程式左侧的积分(8).可以认为是正态分布.设AGQ方法的核函数为和.然后,
据皮涅罗和贝茨介绍[7],方程式中的左侧积分(8)可以写为
哪里.让
最后一个积分通过使用G点高斯-厄米特公式进行近似,如下所示:
哪里G公司表示正交点的数量,,,,是正交权重。最后给出了AGQ方法的对数似然近似如下:
请注意最大值必须为负数,并且在AGQ和拉普拉斯近似方法中是单峰的。在AGQ方法中,参数估计对正交点的数量很敏感。模拟中还测试了15个和21个正交点。由于在参数估计的偏差和均方误差中未观察到显著变化,因此有11个正交点的AGQ被认为足以避免减缓模拟速度。
4.应用
2010年巴西人口普查期间收集的这项研究的数据集包括3197个城市和相关的社会人口变量[6]. Mazucheli等人。利用带有logit链接函数的unit-Lindley回归模型,分析了缺水和污水比例作为响应变量在单位区间内与区域、人类发展指数、城市收入和预期寿命等社会人口变量的关系。据报道,unit-Lindley回归模型比beta回归模型更适合该数据集[6].
由于巴西的城市预计会受到联邦各州的地方政策、经济状况或政治状况的影响,我们考虑将该数据集中城市所属的巴西联邦各州纳入单位-林德利回归模型,作为各州的随机截距。该假设得到支持,即巴西联邦各州供水和污水不足(PHI)的家庭比例存在异质性,如图.
图中的意大利面条图和表明巴西东南部地区的PHI值低于该国东北部地区。三种不同的PHI单位-林德利混合效应模型与联邦州的随机截距拟合到数据集。为了比较Mazucheli等人之前研究的单位-林德利回归模型中的AIC值。[6],我们用模型1中的所有预测变量拟合了单位-林德利混合模型,如下所示。
和
(型号1)
(模型2)
(模型3)
具有代表巴西城市的联邦州和代表了联邦州。对于这个模型,我们有13个一维积分(只有一个随机截距参数)要求解并近似于方程(6).
如表所示将随机截距项引入到单位-林德利回归模型中,提高了单位-林德利混合模型的AIC和对数似然值,并在其他混合效应模型中提供了更好的拟合。在模型1中,可以观察到预期寿命协变量并不显著。由于连续预测变量在不同的尺度上,收入和预期寿命变量在以模型2和模型3的平均值为中心的对数尺度上进行转换。模型2包括所有预测变量,但观察到log(预期寿命)协变量并不显著。在模型3中,我们排除了对数(预期寿命)协变量,并包括HDI、地区和对数(收入)协变量。众所周知,在GLMM中。由于响应变量平均值的非线性变换,固定效应参数对总体具有特定主题的解释[5].
表1。
模型比较。
| 模型1 | 模型2 | 模型3 |
---|
| Log-Lik公司 | AIC公司 | Log-Lik公司 | AIC公司 | Log-Lik公司 | AIC公司 |
---|
单位-林德利混合 | 5822.5 |
11633 | 5871 |
11731.16 | 5841.3 |
11674.59 |
Beta混合 | 5745 |
11476 |
11562 | 5787.9 | 5785.51 |
11559 |
衬里混合 | 3276.4 |
6538.7 | 3299.9 |
6585.8 | 3298.5 |
6585 |
单位-林德利注册。 | 5740.3 |
11470 | | | | |
我们分别为HDI和log(收入)加入了一个随机斜率项,但它们似乎并不显著。模型3是该数据集的最终模型,包括三个协变量和该模型的随机截距和参数估计值,见表。每个模型的参数估计值都是通过AGQ方法获得的,在R中的GLMMAdaptive包中有11个正交点[11]. 本文附录中给出了使用自定义单位-林德利混合模型的R中的模型拟合代码。
表2。
模型3的参数估计。
变量 | 估计 | 标准错误 | %95置信区间 |
---|
拦截 | 0.8710 | 0.5407 | (; 1.930) |
人类发展指数 |
6.2087 | 0.8004 | (;) |
区域1 | 0.8247 | 0.1915 | (0.449; 1.200) |
原木收入 |
1.0535 | 0.1116 | (;) |
差异组件 | 0.0857 | | |
5.仿真研究
在提出单位林德利混合模型后,进行了蒙特卡罗模拟研究,以考察拉普拉斯方法和AGQ方法在偏差和均方误差(MSE)方面的有限样本性能。为了评估两种不同单位-林德利混合模型的近似方法的性能,对2000个具有特定参数和样本大小组合的数据集进行了模拟。根据固定效应估计的均方误差和偏差以及随机效应的方差参数估计,比较了两个不同正交点(五点和十一点)的拉普拉斯近似和AGQ近似。利用GLMMadaptive R软件包进行了仿真研究[11]. GLMM参数估计有许多R包。然而,只有GLMMadaptive包允许用户为响应变量的不同分布定义实现的族对象[11].
此外,使用Fisher–Scoring方法开发了一个R脚本,以获得裁判推荐的单位-林德利回归模型的参数估计。感兴趣的读者可以向作者索取拟合单位Lindley回归模型的R代码。
模拟1
模拟2
为了查看下面随机斜率模型中随机效应矩阵的协方差项的影响,我们取了两个不同的协方差()在相同样本容量配置下,随机效应协方差矩阵。
为了研究两种不同的样本量概念:集群/受试者数量和集群内观察数量,在模拟案例中考虑了具有多种样本量组合的Unit-Lindley混合效应模型。
表结果表明,AGQ方法对随机截距模型中所有参数的参数估计都有负偏差,.表格和结果表明,AGQ方法在偏差和MSE方面为仿真1的随机截距模型提供了更好的估计。受试者内观察次数增加如表所示改进了近似方法的偏差和最小均方误差。
表3。
随机截获模型中估计的偏差和均方误差N个 = 10,.
参数 | 拉普拉斯 | AGQ-5型 | AGQ-11号 | 拉普拉斯 | AGQ-5型 | AGQ-11号 |
---|
设置 | 偏见 | 偏见 | 偏见 | MSE公司 | MSE公司 | MSE公司 |
---|
|
0.28858 |
0.01407 |
0.01504 | 0.100469 | 0.06105 | 0.061075 |
| 0.075681 |
0.00244 |
0.00244 | 0.026588 | 0.022774 | 0.022774 |
|
0.0925 |
0.00287 |
0.00287 | 0.015728 | 0.007467 | 0.007467 |
|
0.01388 |
0.00154 |
0.00154 | 0.006968 | 0.007516 | 0.007516 |
|
0.02977 |
0.0033 |
0.0033 | 0.019772 | 0.021143 | 0.021143 |
| 0.2004 |
0.067 |
0.06679 | 0.131612 | 0.060011 | 0.060116 |
表4。
随机截获模型中估计的偏差和均方误差N个 = 10,.
参数 | 拉普拉斯 | AGQ-5型 | AGQ-11号 | 拉普拉斯 | AGQ-5型 | AGQ-11号 |
---|
设置 | 偏见 | 偏见 | 偏见 | MSE公司 | MSE公司 | MSE公司 |
---|
|
0.38877 |
0.0001 | 0.000112 | 0.157673 | 0.054967 | 0.055514 |
| 0.025882 |
0.00161 |
0.00161 | 0.007193 | 0.00637 | 0.00637 |
|
0.03055 | 0.001829 | 0.00183 | 0.003197 | 0.002211 | 0.00221 |
|
0.00342 | 0.002018 | 0.002021 | 0.002096 | 0.002111 | 0.002111 |
|
0.00827 | 0.001263 | 0.001265 | 0.006329 | 0.006361 | 0.006361 |
| 0.199657 |
0.05091 |
0.05068 | 0.130151 | 0.051902 | 0.051948 |
表5。
随机截距模型中估计的偏差和均方误差N个 = 30,.
参数 | 拉普拉斯 | AGQ-5型 | AGQ-11号 | 拉普拉斯 | AGQ-5型 | AGQ-11号 |
---|
设置 | 偏见 | 偏见 | 偏见 | MSE公司 | MSE公司 | MSE公司 |
---|
|
0.27908 |
0.00616 |
0.00726 | 0.083211 | 0.02079 | 0.020801 |
| 0.082134 |
0.00111 |
0.00111 | 0.013482 | 0.007192 | 0.007192 |
|
0.09657 |
0.00013 |
0.00013 | 0.011829 | 0.002391 | 0.002391 |
|
0.01279 | 0.00184 | 0.001839 | 0.002306 | 0.002366 | 0.002366 |
|
0.02759 | 0.001306 | 0.001304 | 0.007203 | 0.007107 | 0.007107 |
| 0.201932 |
0.02136 |
0.02131 | 0.073714 | 0.021567 | 0.02158 |
表中其他样本大小配置也有类似的趋势– 模拟1中的近似方法。如表所示,当我们在主题内观察到的很少时和增加受试者规模确实会略微降低估计的平均误差。
表6。
随机截距模型中估计的偏差和均方误差N个 = 30,.
参数 | 拉普拉斯 | AGQ-5型 | AGQ-11号 | 拉普拉斯 | AGQ-5型 | AGQ-11号 |
---|
设置 | 偏见 | 偏见 | 偏见 | MSE公司 | MSE公司 | MSE公司 |
---|
|
0.37865 |
0.006611 |
0.00701907 | 0.145572 | 0.016861 | 0.016866 |
| 0.029639 | 0.000721 | 0.00072256 | 0.002966 | 0.00203 | 0.00203 |
|
0.03456 | 0.0000386 | 0.0000394 | 0.001924 | 0.000689 | 0.000689 |
|
0.00532 |
0.000301 |
0.00030262 | 0.000706 | 0.000685 | 0.000685 |
|
0.01023 |
0.000562 |
0.00056605 | 0.002154 | 0.002062 | 0.002061 |
| 0.184148 |
0.017771 |
0.01761417 | 0.062714 | 0.017484 | 0.017501 |
表8。
随机截距模型中估计的偏差和均方误差N个 = 40,.
参数 | 拉普拉斯 | AGQ-5型 | AGQ-11号 | 拉普拉斯 | AGQ-5型 | AGQ-11号 |
---|
设置 | 偏见 | 偏见 | 偏见 | MSE公司 | MSE公司 | MSE公司 |
---|
|
0.16269 |
0.00465 |
0.00619 | 0.032153 | 0.017589 | 0.017605 |
| 0.150465 |
0.00152 |
0.00151 | 0.032188 | 0.012281 | 0.01228 |
|
0.17644 |
0.00032 |
0.00033 | 0.034461 | 0.003829 | 0.003829 |
|
0.02376 | 0.001913 | 0.001916 | 0.003271 | 0.00371 | 0.003709 |
|
0.04934 | 0.000729 | 0.000727 | 0.010668 | 0.010958 | 0.010958 |
| 0.228056 |
0.01502 |
0.01502 | 0.079886 | 0.020616 | 0.020617 |
表9。
随机斜率模型中估计值和偏差的平均值N个 = 10,,.
参数 | 拉普拉斯 | 拉普拉斯 | AGQ-5型 | AGQ-5型 | AGQ-11型 | AGQ-11号 |
---|
设置 | 平均。美国东部时间。 | 偏见 | 平均。美国东部时间。 | 偏见 | 平均值。美国东部时间。 | 偏见 |
---|
|
0.43931 | 0.260691 |
0.70682 |
0.00682 |
0.70779 |
0.00779 |
|
0.90761 | 0.092394 |
1.00053 |
0.00053 |
1.00053 |
0.00053 |
| 0.024766 |
0.27523 | 0.296028 |
0.00397 | 0.2958 |
0.0042 |
| 0.679091 | 0.109674 | 0.679091 |
0.07091 | 0.679085 |
0.07092 |
| 0.436321 | 0.232653 | 0.436321 |
0.06368 | 0.436327 |
0.06367 |
| 0.180691 |
0.08397 | 0.180691 |
0.01931 | 0.18069 |
0.01931 |
具有两个求积点的AGQ方法在回归参数估计中变化不大。可以观察到,将协方差项从0.2增加到0.5会增加表中近似方法产生的估计的偏差和MSE–对于随机斜率模型,拉普拉斯方法产生了固定效应的有偏估计,而AGQ方法产生了几乎无偏的固定效应参数估计。
表7。
随机截距模型中估计的偏差和均方误差N个 = 20,.
参数 | 拉普拉斯 | AGQ-5型 | AGQ-11号 | 拉普拉斯 | AGQ-5型 | AGQ-11号 |
---|
设置 | 偏见 | 偏见 | 偏见 | MSE公司 | MSE公司 | MSE公司 |
---|
|
0.17862 |
0.01581 |
0.01725 | 0.044332 | 0.036597 | 0.036653 |
| 0.146481 | 0.001406 | 0.001411 | 0.04111 | 0.024546 | 0.024545 |
|
0.16852 | 0.005172 | 0.005166 | 0.035629 | 0.008589 | 0.008589 |
|
0.02167 | 0.0019 | 0.001898 | 0.006722 | 0.008227 | 0.008227 |
|
0.04916 | 0.001065 | 0.001063 | 0.021058 | 0.025086 | 0.025085 |
| 0.225344 |
0.04318 |
0.04317 | 0.100164 | 0.03864 | 0.038651 |
表11。
随机斜率模型中估计值和偏差的平均值N个 = 100,,.
参数 | 拉普拉斯 | 拉普拉斯 | AGQ-5型 | AGQ-5型 | AGQ-11型 | AGQ-11号 |
---|
设置 | 平均。美国东部时间。 | 偏见 | 平均。美国东部时间。 | 偏见 | 平均。美国东部时间。 | 偏见 |
---|
|
0.39269 | 0.307313 |
0.6957 | 0.004299 |
0.69793 | 0.002065 |
|
0.85 | 0.149998 |
0.99642 | 0.003578 |
0.99642 | 0.003578 |
| 0.036328 |
0.26367 | 0.300521 | 0.000521 | 0.29983 |
0.00017 |
| 0.738947 | 0.138686 | 0.738947 |
0.01105 | 0.738965 |
0.01103 |
| 0.488745 | 0.276539 | 0.488745 |
0.01126 | 0.488776 |
0.01122 |
| 0.196152 |
0.10316 | 0.196152 |
0.00385 | 0.19616 |
0.00384 |
表12。
随机斜率模型中估计的MSEN个 = 100,,.
参数 | MSE公司 | MSE公司 | MSE公司 |
---|
设置 | 拉普拉斯 | AGQ-5型 | AGQ-11号 |
---|
| 0.095757 | 0.009741 | 0.009642 |
| 0.025585 | 0.003984 | 0.003984 |
| 0.071266 | 0.006454 | 0.006439 |
| 0.038174 | 0.014535 | 0.014534 |
| 0.090969 | 0.008277 | 0.008277 |
| 0.017601 | 0.005234 | 0.005235 |
表13。
随机斜率模型中估计值和偏差的平均值N个 = 100,,.
参数 | 拉普拉斯 | 拉普拉斯 | AGQ-5型 | AGQ-5型 | AGQ-11号 | AGQ-11号 |
---|
设置 | 平均值。美国东部时间。 | 偏见 | 平均。美国东部时间。 | 偏见 | 平均。美国东部时间。 | 偏见 |
---|
|
0.36719 | 0.332807 |
0.64847 | 0.051535 |
0.65039 | 0.049606 |
|
0.79306 | 0.206944 |
0.92948 | 0.070517 |
0.92948 | 0.070518 |
| 0.037792 |
0.26221 | 0.280334 |
0.01967 | 0.278995 |
0.021 |
| 0.692178 | 0.083321 | 0.692178 |
0.05782 | 0.692196 |
0.0578 |
| 0.460694 | 0.232717 | 0.460694 |
0.03931 | 0.460717 |
0.03928 |
| 0.461759 |
0.1712 | 0.461759 |
0.03824 | 0.461774 |
0.03823 |
表10。
随机斜率模型中估计的MSEN个 = 10,,.
参数 | MSE公司 | MSE公司 | MSE公司 |
---|
设置 | 拉普拉斯 | AGQ-5型 | AGQ-11型 |
---|
| 0.074236 | 0.077521 | 0.077839 |
| 0.011534 | 0.002498 | 0.002498 |
| 0.090646 | 0.058286 | 0.058328 |
| 0.163894 | 0.113214 | 0.113205 |
| 0.164595 | 0.06394 | 0.06394 |
| 0.071526 | 0.044521 | 0.04452 |
表14。
随机斜率模型中估计的MSEN个 = 100,,.
参数 | MSE公司 | MSE公司 | MSE公司 |
---|
设置 | 拉普拉斯 | AGQ-5型 | AGQ-11号 |
---|
| 0.121737 | 0.041931 | 0.041888 |
| 0.091059 | 0.070951 | 0.070951 |
| 0.070467 | 0.012191 | 0.012169 |
| 0.075086 | 0.05164 | 0.05164 |
| 0.106619 | 0.024509 | 0.024509 |
| 0.045149 | 0.024499 | 0.0245 |
6.讨论
速率或比例数据可以是离散和连续的。成功次数除以试验次数,观察到的速率是二项分布中的离散分数。通过逻辑回归(混合)模型中成功率的对数,将事件概率(观察率)建模为一个或多个预测因子的函数。在本研究中,我们考虑了GLMM环境下单位林德利分布建模的单位区间内的层次连续比例数据。为了研究新提出的单位-林德利混合模型在不同样本大小和协方差结构下的逼近方法的性能,进行了仿真研究。此外,将所提出的混合模型应用于真实数据,以评估其在众所周知的混合模型中的性能,结果表明,单位Lindley混合模型在对数似然和AIC方面提供了更好的拟合。阿特拉斯分析表示,环境质量较差的家庭比例受收入、人类发展指数、地区、预期寿命的影响,与巴西联邦各州有关。如果要在州内进行改进或制定州内政策,那么如果每个州都在其内部进行评估,则更准确。这也可能适用于单位-林德利混合模型,因为GLMM在联邦各州提供了特定主题的评论。模拟研究的结果表明,拉普拉斯方法导致了有偏的固定效应估计。AGQ近似具有相当小的偏差,正如预期的那样,其性能随着正交点的数量而提高。AGQ-5和AGQ-11近似值之间几乎没有差异,这表明五个求积点为本研究提供了足够的精度。AGQ方法在模拟中假设的模型和参数规范下,以非常相似的性能对固定效应进行几乎无偏的估计。基于AGQ方法的方差分量估计获得的偏差非常小。然而,拉普拉斯方法产生了有偏的方差分量估计。未来,我们计划将所提出的混合模型的仿真研究扩展到其他估计模型参数的近似方法,以获得最佳性能。
致谢
作者想感谢Dimitris Rizopoulos博士用他的R包“GLMMAdaptive”贡献了这篇论文,并提出了宝贵的建议。作者还感谢亚历克斯·德莱昂博士和三位匿名审稿人对论文的改进,以及他们提出的宝贵意见和建议。
资金筹措表
在本研究期间,作者获得了土耳其科学委员会(TUBITAK)和加齐大学的博士后资助(2219),在亚历克斯·德莱昂博士的监督下,在卡尔加里大学留学。
工具书类
1.Bonat W.H.、Ribeiro P.J.和Zeviani W.M。,一类贝塔混合模型的似然分析,J.应用。斯达。
16(2014),第252-266页。[谷歌学者] 2Breslow N.E.和Clayton D.G。,广义线性混合模型中的近似推理,美国统计协会。
88(1993),第9-25页。[谷歌学者] 三。Evans M.和Swartz T。,蒙特卡罗和确定性方法逼近积分,卷。20牛津大学出版社,纽约,2000年,第156-159页。[谷歌学者] 4法拉利S.和克里巴里-内托F。,建模速率和比例的贝塔回归,J.应用。斯达。
31(2004),第799-815页。doi:10.1080/0266476042000214501[交叉参考][谷歌学者] 5Hedeker D.、du Toit S.H.、Demirtas H.和Gibbons R.D。,关于二元结果混合模型回归参数边缘化的注记,生物识别
74(2018),第354-361页。doi:10.1111/biom.12707[PMC免费文章][公共医学] [交叉参考][谷歌学者] 6Mazucheli J.、Menezes A.F.B.和Chakraborty S。,关于比例数据的单参数单位Lindley分布及其相关回归模型,J.应用。斯达。
46(2019年),第700-714页。doi:10.1080/02664763.2018.1511774[交叉参考][谷歌学者] 7Pinheiro J.C.和Bates D.M。,非线性混合效应模型中对数似然函数的逼近,J.计算。图表。斯达。
4(1995),第12-35页。[谷歌学者] 8Pinheiro J.C.和Chao E.C。,多级广义线性混合模型的高效拉普拉斯和自适应高斯求积算法,J.计算。图表。斯达。
15(2012),第58-81页。doi:10.1198/106186006X96962[交叉参考][谷歌学者] 9邱忠、宋鹏欣、谭明。,纵向比例数据的单纯形混合效应模型,扫描。J.统计。
35(2008),第577–596页。文件编号:10.1111/j.1467-9469.2008.00603.x[交叉参考][谷歌学者] 10Raudenbush S.W.、Yang M.L.和Yosef M。,基于高阶多元拉普拉斯近似的嵌套随机效应广义线性模型的最大似然,J.计算。图表。斯达。
9(2000),第141-157页。[谷歌学者] 12Wolfinger R.和O'Connell M。,广义线性混合模型:伪似然方法,J.统计计算。模拟。
48(1993),第233-243页。doi:10.1080/0949659308811554[交叉参考][谷歌学者]