跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
J应用统计。2022; 49(16): 4254–4277.
2021年9月17日在线发布。 数字对象标识:10.1080/02664763.2021.1977260
PMCID公司:第9639484页
PMID:36353300

处理多项式响应模型中的分离或近分离,并应用于复杂调查中的儿童寻求健康行为数据

关联数据

补充资料

摘要

当样本量较小和/或其中一个结果类别罕见和/或存在一个或多个有影响的协变量时,在使用最大似然估计(MLE)的多项式logistic模型的拟合过程中可以观察到分离或单调似然,导致模型的至少一个回归系数的无限或有偏估计。本研究进行了实证研究,以确定定义“分离”和“近距离分离”(部分分离)的最佳数据条件,并探讨了它们在MLE中的后果,并通过应用文献中提出的惩罚似然方法提供了解决方案,通过在原始似然函数中添加基于Jeffreys先验的惩罚项,通过等效泊松回归消除多项式logit模型最大似然估计中的一阶偏差。此外,将惩罚估计方程(PMLE)扩展为加权估计方程,允许测量量用于分析复杂测量数据。仿真研究表明,PMLE通过提供较小的偏差和误差均方以及更好的覆盖率,优于MLE。这些方法被用于分析儿童疾病治疗机构选择的数据。

关键词:单调似然,泊松对数模型,惩罚函数,卫生设施的选择

1介绍

在使用最大似然估计(MLE)程序拟合多项式logistic回归模型的过程中,可能会出现分离或单调似然,从而导致模型的至少一个回归系数的无限估计。如许多研究所述[5,15,16]当响应和非响应被一个预测器,特别是二进制预测器或几个预测器的非平凡线性组合分离时,就会发生分离。当样本量较小,或反应类别数量较多,或其中一个类别罕见,或存在一个或多个强预测因子或它们的组合时,分离现象更容易发生。让我们考虑一个例子(表1)描述由二分法协变量引起的不同形式的分离(X(X))多项式响应Y(Y)在第一种情况下,响应被预测器完全分开(如果我们比较响应类别2和3,则会有多个空单元格)或准完全分开(若我们考虑响应类别1和3,那么会有一个空单元格。在第二种情况下,所有细胞都是非零细胞,但至少有一个细胞有少量观察结果,我们称之为“近距离分离”(部分分离)。对于多项式响应,我们根据经验确定了此类观察的截止值(阈值),即数据中总样本的最大15%,以将这种情况定义为“接近分离”。实证评估的细节将在第节后面讨论虽然完全或准完全分离在实践中很少见,但“近距离分离”的情况更为常见。据Mondol和Rahman报道[20]在相关的二进制数据中,这种分离形式往往会给收敛带来困难,并在估计中产生一定程度的偏差,因此不能忽略。

表1。

由于二分法预测器导致的分离(左)或近距离分离(右)示例X(X)(协变量)与结果Y(Y)。每个单元格中的数字表示观察次数。

分离 近距离
 Y(Y)  Y(Y)
  12   12
X(X)015015 X(X)02523
 115150  1225

这种分离形式也可以在复杂调查设计的多项式数据中找到,例如从2014年孟加拉国人口与健康调查(BDHS)数据库中提取的“儿童寻求健康行为”数据。BDHS采用了两阶段分层整群抽样设计,对国家七个行政区划以外的城市和农村等阶层的结果进行了特定阶层的估计,这可能有助于决策者设计基于证据的政策。因此,在寻找寻求健康行为的阶层特定估计值时(医疗设施的选择:私人/公共/地方药房,用于治疗急性呼吸道感染(ARI)),可以观察到完全或准完全分离的存在(对于部门和城市阶层)由父母拥有的家庭资产计算出的协变量“家庭经济状况”(最贫穷/较贫穷/中等/较富裕/最富有)所产生的近距离(农村阶层)(表2). 在适用于城市阶层(存在分离的地方)的“设施选择”的多项式logit模型中,回归系数的MLE与协变量“经济状况”相关,其比值比(OR)极高,基于Wald的置信区间也很宽,导致无效推理[24]. 对于农村阶层(存在近距离分离),在某些情况下,相应的比值比值也很大。分区地层也观察到类似结果(未显示结果)。这些结果表明,寻求健康行为数据的基于最大似然的多项式logit模型可能无法提供一致的估计和有效的推断。结果与许多其他研究中发现的结果相似[4,12,15,16]它描述了MLE中分离的后果,包括频繁的收敛失败,即使它收敛,它也提供了至少一个回归系数和标准误差(SE)的有偏估计或通常是无限估计,从而导致误导性推断。

表2。

从拟合的MLE(经其他协变量调整)获得的三种不同人群(城市、农村和两者)的协变量经济状况的观察数据和比值比,与儿童ARI治疗寻求健康行为的数据。

  城市的农村两者都有
 协变量本地公共私人本地公共私人本地公共私人
 经济状况         
观测数据最穷的60571310631610
 穷人54421018451522
 中部6454151647921
 更富有147918411321120
 最富有的551861911627
 总计342436164336419857100
 经济状况         
估计参数最穷的(钢筋混凝土)  (钢筋混凝土)  (钢筋混凝土)  
 穷人 24.986.42×105 0.412.57 0.422.80
 中部 16.919.54×105 0.171.51 0.211.96
 更富有 4.162.28×105 0.342.83 0.312.25
 最富有的 4.241.12×106 0.395.69 0.316.82

注:OR,比值比;RC,参考类别。

一些研究讨论了广义线性模型回归系数ML估计中的小样本偏差调整[2,,6–8,10,21,23]而其他研究则讨论了分离问题的解决方案[15,16]. 其中,Firth的[10]这项建议是基于减少一级订单(O(运行)(n个1))通过在分数函数中添加一个惩罚项(相当于Jeffrey的不变先验),MLE中存在偏差。海因策和申佩尔[16]扩展了Firth的惩罚方法,用于解决二元逻辑回归中的分离问题。Firth的方法也扩展到了条件逻辑[22],比例赔率[19],多项式logistic回归[4]和非线性GLM[17]用于减少小样本偏差。此外,Kosmidis和Firth[18]探讨了细胞计数的多项式logistic回归模型和泊松对数线性模型之间的联系,并提出了一种惩罚最大似然估计方法,以使用泊松技巧消除多项式logit模型MLE中的一阶偏差。虽然Bull提出了减少小样本偏差和解决多项式结果分离的方法等。[4]后来是科西米迪斯和费斯[18]通过等效泊松回归,他们中没有一个仔细研究分离情况下的性能方法,尤其是“近距离分离”,这在实践中更为常见。本研究通过广泛的模拟研究,调查了最大似然和惩罚最大似然方法中所有分离形式的后果,并对结果进行了比较,以提供一些实用建议。此外,本文扩展了包含抽样权重的惩罚方法,用于分析从复杂设计的调查中提取的上述健康寻求行为数据。得到的加权惩罚方法在分离和近分离两种情况下都能收敛,并获得回归的有限估计。

论文组织如下。章节2回顾了现有的基于最大似然的多项式模型,并描述了结合调查权重的惩罚方法。第节描述了模拟研究以及第节中寻求健康行为数据分析方法的应用4最后,在第节5,讨论了本文的主要发现。

2方法

2.1. 多项式logit模型

让我们考虑多项式响应Y(Y)具有k个类别及其对应的概率π1,π2,,πk个.让q个=k个1βT型=(β1T型,β2T型,,βq个T型)是的向量第页q个模型参数。假设我们已经观察到n个(,x个)具有=(1,,q个)T型观测频率向量是多项式分布随机向量的实现Y(Y)带索引、和x个,一个第页×1已知协变量值的向量。k个第th类为k个==1q个π=(π1,,πq个)T型q个×1相应类别概率的向量。根据定义k个第个类别是πk个=1=1q个π.矩阵X(X)包含行x个T型假设为全秩,并且在模型中存在截距参数时x个每设置一个=1,2,,n个.让Z轴=1q个x个T型成为q个×第页q个模型矩阵。log-odds可以表示为

日志ππk个=η=t吨=1第页q个βt吨z(z)t吨(=1,2,,n个;=1,2,,q个),
(1)

哪里z(z)t吨(,t吨)的第个元素Z轴1q个q个×q个单位矩阵。

2.2. MLE程序

根据参考文献中的注释[9],多项式log-likelihood可以写成

(β)==1q个日志ππk个+日志πk个.

系数向量的相应得分函数β具有以下形式:

U型(β)=U型(β)=q个Z轴T型(π).
(2)

回归系数的最大似然估计量(MLE)是方程的解U型(β)=0,通常采用牛顿-拉普逊近似[9].

2.3. 审查Firth的GLM惩罚方法

删除一阶(O(运行)(n个1))MLE偏差t吨GLM的第个回归参数,Firth[10]提出了以下评分函数:

U型t吨(β)U型t吨(β)+t吨(β)(t吨=1,2,,第页q个)
(3)

有罚款期限

t吨(β)=12追踪[(β)1{(β)/βt吨}]=βt吨[12日志|(β)|],

哪里U型t吨(β)(β)/βt吨=0是基于log-likelihood函数的标准得分函数(β)=日志L(左)(β)、和(β)1是对应信息矩阵的逆矩阵(β)=2(β)/β2评估时间:β.针对上述修正的分数方程,相应的惩罚对数似然函数和似然函数为(β)=(β)+1/2日志|(β)|L(左)(β)=L(左)(β)|(β)|1/2分别是。对于这个问题,惩罚函数被称为Jeffreys不变先验,其影响是渐近可忽略的。公牛等。[4]将Firth的一般思想应用于多项式logit模型,以减少回归估计中的有限样本偏差。对于多项式logit模型,观测信息矩阵F类(β)=Z轴T型W公司Z轴,使用W公司作为n个q个×n个q个块对角矩阵q个×q个W公司={w个k个},w个=π(1π)对于 = k个w个k个=ππk个否则。然后,方程中给出的惩罚分数函数()对于多项式logit模型,可以用以下形式替换:

U型t吨(β)=U型t吨(β)+12=1q个追踪{H(H)W公司1K(K)}z(z)t吨==1q个(π+12追踪{H(H)W公司1K(K)})z(z)t吨(t吨=1,,第页q个),

哪里K(K)是一个q个×q个对称矩阵(u个,v(v))th元素,的三阶累积量Y(Y)H(H)表示第个对角块n个q个×n个q个“帽子”矩阵H(H)=Z轴(Z轴T型W公司Z轴)1Z轴T型W公司包括n个2块,每个尺寸q个×q个经过一些代数运算后,上述惩罚分数函数采用以下形式:

U型t吨(β)==1q个[+12小时(+12追踪H(H))π12u个=1q个πu个小时u个]z(z)t吨,
(4)

哪里小时u个(,u个)的第个元素H(H).方程的解U型t吨(β)=0(来自方程式(4))由于帽子矩阵的结构复杂,计算繁琐。Kosmidis和Firth[18]使用等效泊松技巧,为多项式logit模型提出了一个可选的惩罚得分函数,该函数更灵活(简单且计算效率高),以便于说明。下面讨论了这种方法的细节。

2.4. 用等效泊松回归求解多项式响应中的分离问题

方程中的多项式模型(1)可以方便地嵌入到泊松对数线性模型中。使用指示器功能δk个(1,如果 = k个多项式响应的对数线性模型可以写成(使用参考文献中使用的类似符号[18]):

日志μ={ϕ+(1δk个)x个T型β},μ=经验{ϕ+(1δk个)x个T型β}(=1,2,,n个;=1,2,,k个),
(5)

哪里μ是独立泊松随机变量的期望值Y(Y),τ==1k个μϕ干扰参数。如Kosmidis和Firth所述[18]方程中给出的多项式logit模型(1)方程中的泊松对数线性模型(5)是完全指数族,因此Firth[10]偏差减少惩罚项可以直接应用于每个模型的可能性。然而,他们认为在给定的参数化下θ=(βT型,τT型)T型,第一类惩罚泊松似然不能分解为所需多项式似然的乘积(对于β)和一个不含β因此,全参数向量的偏差减少估计的标准计算θ在泊松对数线性模型中,不提供对β多项式模型。Kosmidis和Firth[18]提供了一个解决方案,用于使用通过施加约束而导出的泊松模型的限制版本=τ有关此约束的更多详细信息,请参阅参考[18]. 在这种约束下,方程中的泊松模型(5)变成了一个标准链接的广义非线性模型的形式:

日志μ=日志[τ{1+u个=1q个经验(x个T型βu个)}]1+(1δk个)x个T型β.

为了简化上述非线性模型的似然评分方程的计算算法,Kosmidis和Firth[18]应用参考文献中导出的广义非线性模型(方程(13))的惩罚似然的一般结果[17]并针对上述模型提出了以下减小偏差的调整得分函数:

U型t吨==1n个=1k个[(+12小时+12μ信托收据{(F类)1D类2(ζ;θ)}μ)]z(z)t吨(t吨=1,,n个+第页q个),

哪里F类是关于的预期信息θ,D类2(ζ;θ)表示(n个+第页q个)×(n个+第页q个)Hessian矩阵ζ关于θ、和z(z)t吨(,t吨)的第个组件k个×(n个+第页q个)矩阵

Z轴=[G公司1q个(πT型G公司)1q个(τ1e(电子)T型)πT型G公司τ1e(电子)T型](=1,..,n个),

具有π=(π1,π2,,πq个)T型π=μ/τ.注意到这一点后D类2(ζ;θ)不依赖于并取代z(z)t吨、科斯米迪斯和费尔斯[18]提出了以下调整得分函数的简单形式β:

U型t吨==1n个=1k个[+12小时{+12信托收据(H(H))}π]t吨(t吨=1,,第页q个),
(6)

哪里t吨(,t吨)的第个分量G公司.仅数量小时在上述偏差中,减少分数等式将受到约束的影响τ=Kosmidis和Firth[18]还利用定理1证明了这些调整后的得分函数与那些(方程(4))直接从方程式中模型的可能性惩罚中获得(1). 惩罚估计方程(PMLE)估计β可以使用Kosmidis和Firth提出的以下标准迭代过程进行估算[18]. 新值β(j个+1)从候选人处获得β(j个)通过求解以下迭代方程:

0==1n个=1k个[+12小时~(j个){+12信托收据(H(H)~(j个))}π(j个+1)]t吨(t吨=1,,第页q个)
(7)

具有小时~(j个)为受限参数化计算。Kosmidis和Firth建议[18],方程式(7)可以通过以下步骤实现:

  1. 设置ϕ~(j个)=日志日志{1+=1q个经验(x个T型β(j个))}.
  2. 使用θ~(j个)=(β(j个),ϕ~1(j个),,ϕ~n个(j个))计算新值H(H)~(j个).
  3. 方程中的拟合模型(5)按最大似然,但使用调整后的响应+小时~(j个)/2代替获得新的估计ϕ(j个+1)β(j个+1).

这个β-在降维估计(称为PMLE)下计算的期望信息矩阵的逆块可用于为估计量生成有效的SE。

使用上述泊松技巧的惩罚方法最初是为了减少多项式模型MLE中的有限样本(一阶)偏差而提出的。然而,这些偏差减少了等式中的分数函数(6)可用于解决前面在多项式响应中讨论的分离和近分离问题。因为方程式中给出的函数(6)保证有限估计β即使在一个或多个反应类别中有空单元格,标准得分函数(方程式(2))没有惩罚的衍生。这个想法与海因策和申佩尔提出的想法类似[16]用于解决逻辑回归中的分离问题。PMLE的SE的相应估计可以从hat矩阵的对角元素的根中获得H(H).

2.5. 复杂测量数据的加权PMLE

本文的主要动机是应用上述方法分析从具有分层聚类设计(多阶段设计)的横断面调查中提取的数据(前面提到),这是一种复杂的设计。因此,在模型估计中结合根据逆向选择概率计算的单个抽样权重,对回归参数和相关SE进行准确估计是非常必要的Y(Y)小时j个k个是多项式响应k个的类别第个主题(=1,2,,n个小时j个)来自j个第个簇(j个=1,2,,小时)和来自小时第th层(小时=1,2,,H(H)). 再一次,让我们δ小时j个如果主题为hji公司在样本中选择,否则为0P(P)(δ小时j个=1)是被选入调查的概率,该概率由研究设计确定,可能取决于协变量或附加变量,例如筛选不在泊松模型中的变量,用于多项式响应[11]. 这个概率可以通过乘以多级抽样方案中每个阶段的选择概率来计算。因此,样本中的每个受试者都有已知的体重w个小时j个=δ小时j个/第页小时j个.结合抽样权重,方程式中给出的惩罚估计函数(6)成为测量数据的以下加权估计函数:

U型t吨,w个=小时H(H)j个=1小时=1n个小时=1k个[小时j个+12小时小时j个{小时j个+12信托收据(H(H)小时j个)}π小时j个]小时j个t吨w个小时j个(t吨=1,,第页q个).
(8)

解决U型t吨,w个=0为测量数据提供加权PMLE。该方程可以使用前面描述的相同程序求解,加权PMLE的SE可以从稳健方差估计量的平方根中获得。

三。模拟研究

为了研究多项式模型MLE中分离和近分离的后果,并评估PMLE相对于MLE的性能,进行了广泛的仿真研究。我们利用简单随机抽样的研究数据进行了模拟。

3.1. 仿真设计

3.1.1. 数据生成

让我们考虑多项式数据对于第次观察和第个响应类别(=1,2,,n个;=1,2,,k个)具有第页 = 2个协变量,其中一个被视为二元,另一个被认为是连续的。实现x个b条二元协变量的X(X)b条由事件概率的伯努利分布生成γx个c连续协变量的X(X)c标准正态分布。我们考虑了一个多项式响应,其中有三个响应类别,第一个响应类别作为参考类别,然后是多项式响应=(1,2,)使用多项式分布生成,概率来自以下模型:

π1=11+经验(β02+β12b条x个b条+β22cx个c)+经验(β03+β13b条x个b条+β23cx个c),π2=经验(β02+β12b条x个b条+β22cx个c)1+经验(β02+β12b条x个b条+β22cx个c)+经验(β03+β13b条x个b条+β23cx个c),π=经验(β03+β13b条x个b条+β23cx个c)1+经验(β02+β12b条x个b条+β22cx个c)+经验(β03+β13b条x个b条+β23cx个c).

多项式响应类别对应的概率满足条件π1+π2+π=1。的值β02β03确定数据中响应类别的总体流行率,以及β12b条,β22c,β13b条β23c表示表示协变量和响应之间的关联强度的效应大小。

3.1.2. 模拟场景

使用上述设置,生成了几个模拟场景的数据,这些场景具有分离或近距离分离的证据。为了创建分离,我们处理了二元协变量X(X)b条通过考虑相对较大的β12b条β13b条(与相比β22cβ23c与关联X(X)c)从而创建之前定义的任何形式的分隔(表1). 该设置证实了完全或准完全分离(二元协变量之间列联表中至少有一个零单元X(X)b条和响应Y(Y))对于一些模拟数据集,并为大多数其他模拟集创建了近距离分离(列联表中至少有一个单元格具有一些观察值)。为了在很少观察的情况下确定细胞的最佳截止点,我们在进行最终模拟之前,首先进行了额外的模拟研究,将不同的截止点视为总样本的观察值百分比,即5%、8%、10%、12%、15%、18%和20%。其思想是确定回归系数估计中存在可忽略偏差的最佳截止点(以百分比表示)。然后,我们将此截止点视为经验法则,根据经验法则,我们可以考虑具有近距离分离证据的数据集。该模拟是针对与二元协变量相关的系数的真实值的场景进行的β12b条=1.3,β13b条=1.2和样本大小n个 = 50和100。对于每种情况,我们绘制了1000次模拟中估计回归系数的偏差。经验结果表明,当细胞频率大于总样本的15%时,MLE和PMLE的偏差接近于零(图1). 然后,如果至少有一个单元的观测值小于总样本的15%,我们在最终模拟中定义了近距离分离。

保存图片、插图等的外部文件。对象名称为CJAS_A_1977260_F0001_OB.jpg

MLE和PMLE估计值的偏差和MSEβ12b条β13b条(导致近距离分离的二元协变量系数)超过两者的细胞频率百分比N个 = 50和N个 = 100次观察。

在最后的模拟中,我们考虑了通过改变样本大小创建的几个场景n个以及反应类别患病率的不平衡程度、事件在二元协变量中的比例(γ),与二元协变量和响应相关的log-odds比率的大小(β12b条,β13b条). 我们考虑了样本量n个如15、20、30、50、100和200。在每个样本量场景下,首先用于固定γ=0.5(β02,β22c,β03,β23c)=(0.6,0.65,0.5,0.5),我们改变了β12b条作为0.3、0.9、1.1、1.6和β13b条为0.4、0.8、1.2、1.5,以查看影响大小的大小是否影响分离的可能性和估计值。第二,对于固定β=(β02,β12b条,β22c,β03,β13b条,β23c)=(0.6,1.3,0.65,0.5,1.2,0.5),我们改变了二元协变量中事件的比例X(X)b条值为γ为0.2、0.3…、0.8。第三,对于固定γ=0.5(β12b条,β22c,β13b条,β23c)=(1.3,0.65,1.2,0.5),我们改变了β02作为1,0.1,0.1,0.3,0.5,0.6,1,1.5β03作为0.5,0.2,0.2,0.1,0.4,0.8,1.25,2,查看数据中发生分离或近分离的可能性,以及MLE和PMLE的性能是否存在差异。

根据响应类别的分布,对两种情况考虑了上述模拟场景。案例1称为“响应类别的均匀分布”,其中响应类别的百分比分布大致相等(每个类别约为33%),案例2称为“反应类别的异质分布”,此处响应类别的分布不均匀。这两个案例是通过固定这样一个值来考虑的β02β03这控制了数据中反应类别的总体流行率。

3.2. 拟合模型并评估性能

对于每个模拟场景,我们创建了1000个数据集副本,并在方程式中拟合模型(1)在方程式中使用MLE和模型(5)对每个模拟数据集使用PMLE。对于MLE和PMLE估计,我们将偏差计算为偏差(β^第页)=β^第页β第页哪里β^第页==11000β^第页/1000,误差均方(MSE)作为MSE(β^第页)=第页=11000(β^第页β第页)2/1000我们还报告了分析SE,即分析估计值相对于模拟次数的平均值,以及模拟标准误差(SimSE),即估计值相对于仿真次数的标准偏差。MLE和PMLE估计量的置信区间覆盖率计算为置信区间的百分比,其中包括1000次模拟的真实值。在性能的各个方面,我们报告了收敛失败的次数,并总结了收敛实现的仿真结果。

所有计算均使用R版本3.5.2进行。对于标准MLE,使用了属于R库“nnet”的函数“multinom”,对于PMLE,使用了属于R库“brglm2”的函数“brmultinom”。

3.3. 结果

我们首先总结了在所考虑的不同场景下1000多个模拟中分离(完全或准完全)或近分离(以百分比表示)的可能性(补充表A.1)。结果表明,分离的可能性与二元协变量中事件和非事件比例的不均匀程度呈正相关(γ)以及log-odds比率的大小(β12b条,β13b条)然而,分离(完全或准完全)的机会随着样本量的增加而减少。对于近距离分离,可以观察到相反的情况。结果表明,分离可能发生在小样本甚至大样本中,结果罕见,并且事件和非事件在二元协变量中的分布极不均匀。

3.3.1. 案例1:响应类别的均匀分布

对于参数集β=(β02,β12b条,β22c,β03,β13b条,β23c)=(0.6,1.3,.65,0.5,1.2,0.5)γ=0.5,即使样本大小不同,响应类别的百分比分布也大致相等。在这种齐次条件下,结果表明,在存在分离(完全或准完全)的情况下,MLE要么无法实现收敛,要么如果实现了,就提供了回归系数的较大估计值(β12b条,β22c,β13b条,β23c)(表). 随着样本量的增加,收敛失败次数减少。MLE还报告了较大的SE,尤其是回归系数(β12b条,β13b条)与二元协变量相关(X(X)b条),这造成了分离。相比之下,PMLE在所有这些情况下都实现了收敛,并提供了回归系数的有限估计。特别是,PMLE略微高估了回归系数的真实值(β12b条,β13b条)与关联X(X)b条低估了与X(X)c对于所有其他模拟场景,可以观察到类似的结果,并有分离的证据(结果未显示)。由于MLE表现出收敛失败、估计中存在大量偏差和高SE,因此我们仅限于评估其他属性,如MSE和这些场景的置信区间覆盖率。

表3。

完全或准完全分离下MLE和PMLE的估计。估计值是1000个模拟中在样本大小下发生完全或准完全分离的模拟数的平均值N个 = 20、30和γ=0.5.

样本大小真系数方法N.西姆N.Conv.故障估计东南方模拟证券交易所
20 β12b条=1.3MLE公司215  195.6662.9126.83
  PMLE公司   02.101.721.38
  β13b条=1.2最大似然比   107.5559.305.91
  PMLE公司   02.201.731.48
  β22c=0.65MLE公司   101.131.342.02
  PMLE公司   00.610.820.81
  β23c=0.5MLE公司   50.931.321.99
  PMLE公司   00.500.820.86
30 β12b条=1.3MLE公司62  88.8874.855.80
  PMLE公司   02.771.601.33
  β13b条=1.2MLE公司   77.0661.836.75
  PMLE公司   02.291.511.57
  β22c=0.65MLE公司   00.930.810.95
  PMLE公司   00.630.680.68
  β23c=0.5MLE公司   00.740.780.97
  PMLE公司   00.540.660.70

注:γ,二元协变量中事件的比例;N.Sim,发生完全或准完全分离的模拟集数量;N.Conv.失败,无法收敛的模拟集数量;SimSE,模拟标准误差。

对于具有近距离分离证据的模拟,与二元协变量相关的系数的偏差量和MSE随着样本量的增加而减少,这对于MLE和PMLE都是如此(图2). 然而,与MLE相关的偏差和MSE相比,PMLE的偏差量和MSE均较低。随着真实回归系数的增加,MLE和PMLE的偏差量和MSE都略有增加(β12b条β13b条)与二元协变量相关(图). 与MLE相比,PMLE显示出明显较低的偏差和MSE。当事件比例约为0.5时,观察到这两种估计的偏差和MSE略低(图4). 与往常一样,PMLE显示出比MLE更小的偏差和MSE。此外,我们通过增加二进制协变量的数量来评估MLE和PMLE的性能(K(K)). 结果表明,MLE和PMLE中的偏倚量和MSE都随着二元协变量数量的增加而增加,但MLE的偏倚性和MSE大于PMLE(图5).

保存图片、插图等的外部文件。对象名称为CJAS_A_1977260_F0002_OB.jpg

MLE和PMLE估计值的偏差和MSEβ12b条β13b条(进行近距离分离的二进制协变量系数)超过样本大小,其中Max.MCE是最大蒙特卡罗误差。

保存图片、插图等的外部文件。对象名称为CJAS_A_1977260_F0003_OB.jpg

MLE和PMLE估计值的偏差和MSEβ12b条β13b条(使接近分离的二元协变量的系数)超过N个 = 50,其中Max.MCE是最大蒙特卡罗误差。

保存图片、插图等的外部文件。对象名称为CJAS_A_1977260_F0004_OB.jpg

MLE和PMLE估计值的偏差和MSEβ12b条β13b条(使二元协变量接近分离的系数)超过N个 = 50,其中Max.MCE是最大蒙特卡罗误差。

保存图片、插图等的外部文件。对象名称为CJAS_A_1977260_F0005_OB.jpg

MLE和PMLE估计值的偏差和MSEβ12b条β13b条(进行近距离分离的二进制协变量系数)超过二进制协变量数量,其中Max.MCE是最大蒙特卡罗误差。MSE值较高,接近100。

对于回归系数(β22c,β23c)在不负责产生近距离分离的连续协变量中,MLE和PMLE与产生近距离隔离的二进制协变量相比,通常提供的偏差和MSE较小(图6). 这里,当样本量较小时,MLE在一定程度上报告了偏差和MSE,并且偏差量和MSE随着样本量的增加而减少。相比之下,即使是小样本,PMLE的偏差和MSE也可以忽略不计。

保存图片、插图等的外部文件。对象名称为CJAS_A_1977260_F0006_OB.jpg

的MLE和PMLE估计的偏差和MSEβ22cβ23c(使近距离分离的连续协变量的系数)超过样本大小,其中Max.MCE是最大蒙特卡罗误差。

表中总结了来自模拟集的MLE和PMLE的一些附加结果(分析SE、SimSE、置信区间宽度和覆盖范围),并有近距离分离的证据4结果表明,在存在近距离分离的情况下,MLE和PMLE都实现了收敛,并为回归系数提供了有限的估计。然而,与PMLE相关的置信区间相比,MLE提供了较大的SE估计值(但小于模拟SE)和更宽的置信区间。

表4。

存在近距离分离时MLE和PMLE的估计。估计值是在样本大小和γ=0.5.

样本大小真系数 估计东南方模拟证券交易所SE/SimSE公司Conf.宽度Cov(%)
30 β12b条=1.3最大似然比1.471.211.980.615.0298
  PMLE公司1.181.080.941.154.4698
  β13b条=1.2MLE公司1.381.191.980.614.9098
  PMLE公司1.111.060.951.124.3799
  β22c=0.65MLE公司0.840.681.470.462.8199
  PMLE公司0.640.580.600.972.4199
  β23c=0.5MLE公司0.660.661.450.452.7497
  PMLE公司0.500.570.600.952.3599
50 β12b条=1.3MLE公司1.430.840.910.923.3996
  PMLE公司1.280.810.801.013.2897
  β13b条=1.2MLE公司1.290.820.850.963.3196
  PMLE公司1.160.800.751.073.2198
  β22c=0.65MLE公司0.750.450.510.881.8195
  PMLE公司0.660.430.440.981.7497
  β23c=0.5MLE公司0.580.430.480.891.7597
  PMLE公司0.510.420.4211.6998

注:γ,二元协变量中事件的比例;SimSE,模拟标准误差;Conf.宽度,置信宽度;Cov,覆盖范围。

3.3.2. 案例2:响应类别的异质分布

对于参数集β=(β02,β12b条,β22c,β03,β13b条,β23c)=(0.3,1.3,.65,0.1,1.2,0.5)γ=0.5,即使样本大小不同,反应类别的百分比分布也是异质的(不相等)。在这种异质条件下,在存在收敛失败的完全或准完全分离以及回归系数(尤其是与二元协变量相关的回归系数)MLE的无限大估计的情况下,可以观察到类似的结果模式(补充表A.2)。相比之下,PMLE通过实现收敛和提供有限估计而表现出更大的改进。在非均质情况下,完全分离或准完全分离的模拟次数大于均质情况。具有此类条件的模拟次数随着样本大小的增加而减少。在所有其他模拟场景中也观察到类似的结果,有证据表明完全或准完全分离(结果未显示)。

在存在近距离分离的情况下,结果表明,MLE和PMLE中的MSE量都随着样本量的增加而减少,与MLE估计值相关的MSE相比,PMLE估计值中的MSE较低(补充图A.1)。再次,与实际效应大小和二元协变量比例的任何值相比,MLE的MSE量显著高于PMLE。对于连续协变量的回归系数(β22c,β23c)与与二进制协变量系数相关的MSE相比,MLE和PMLE通常提供的MSE量较小(β12b条,β13b条)这造成了近距离的分离。这里,PMLE也提供了比MLE相对较小的MSE量(补充图A.2)。MSE也随着样本量的增加而降低,对于大样本,MLE和PMLE提供了可比较的结果。与响应类别均匀分布的结果一样,这里可以观察到类似的结果模式,SE值较大,与PMLE相比,MLE的置信区间更宽(补充表A.3)。

4用于分析健康寻求行为数据的应用程序

4.1. 数据和变量

通过美国国际人口基金会(ICF International)国家人口研究与培训研究所(NIPORT)、,Mitra and Associates是全球人口与健康调查(DHS)计划的一部分。BDHS是一项具有全国代表性的横断面调查,采用了两阶段分层整群抽样方案,在第一阶段,从七个行政区划中的每个行政区划中随机选择枚举区(75%来自农村地区,25%来自城市地区),在第二阶段,根据系统抽样方法从每个选定的EA中选择家庭[25]. 这种国家一级调查的主要目的是为决策者提供关于健康和人口指标的最新事实和数字。

在调查之前的两周内,收集了所有5岁以下儿童的儿童寻求健康行为信息(选择服务提供商/设施),以了解他们的疾病(由于腹泻、ARI、发烧)。在所有孩子中(n个 = 据报道,406人患有ARI,2768人发烧,371人腹泻。关于为患病儿童选择服务提供者的信息也从受访者(他们的父母和照顾者)那里收集。在患有任何疾病的儿童中,355名ARI儿童、1999年发烧儿童和280名腹泻儿童接受了医疗机构的治疗。寻求健康的行为被定义为他们选择服务提供者或他们最初寻求治疗的地方。结果变量“卫生设施的选择”分类为

  1. 当地设施——药店的毒贩或不合格的医生,如所谓未经培训的乡村医生,
  2. 公共设施——公立医院、地区医院、妇幼福利中心、乌帕齐拉卫生院或其他公共部门,
  3. 私人设施——私人医院、非政府组织静态诊所、私人商会或其他私营部门。

在这些设施中,最昂贵的是私人设施,其次是公共设施和当地设施。当地的医疗机构配备了所有不合格的医疗服务提供者,他们基本上都是卖药的,因此大多数时候他们收取医药费,但不收取咨询费。一般来说,来自贫困家庭的人寻求此类当地设施的治疗[1]. 此外,由于缺乏知识,一些人经常使用这些设施,即使在大多数情况下,政府设施以非常低的成本提供卫生服务。然而,政府机构往往缺乏医疗服务提供者,因此需要时间才能获得服务。

这里考虑了几个协变量,包括财富指数(最贫穷、较贫穷、中等、较富有、最富有)、居住地(城市、农村)、父母的当前工作状态(是或否)、母亲的教育程度(无、小学、中学、高年级)和受访者的年龄。其中,财富指数(父母的社会经济地位)被认为是一个有影响力的协变量,可能会对卫生设施的选择产生重大影响,因为上述三种设施的医疗费用差异很大。

4.2. 分析和结果

由于本次调查采用了两阶段分层抽样方案,其中城市和农村是两个重要的阶层,因此,除了国家估算之外,获取城市和农村阶层的单独估算是决策者为国家城乡部分制定适当政策的主要关注点。因此,除了使用完整数据集进行组合分析外,我们还对城市和农村阶层进行了单独分析。每种疾病(ARI/发烧/腹泻)的结果变量(设施选择)列联表的汇总统计表明,城市样本与ARI和腹泻相关的结果变量由财富指数分开(表2)而发热患者几乎由相同的协变量分开(接近分开)(结果未显示)。对于农村样本,ARI和腹泻的结果变量也几乎被财富指数分开。教育水平也为ARI和城市样本腹泻创造了一种近距离分离(结果未显示)。

对于每种儿童疾病(ARI、发烧、腹泻)的卫生设施选择,分别对城市和农村阶层的MLE和PMLE版本的多项式模型以及合并数据进行拟合。再次,由于本次调查的抽样设计基于多阶段设计,因此我们拟合了包含住户抽样权重的模型,并报告了回归系数及其SE的加权估计。在每个模型中,我们探索了父母疾病(ARI、发烧、腹泻)求医行为之间的关系协变量包括财富指数、居住地、当前工作状态、母亲教育程度和受访者年龄。此外,在每个模型中,我们将公共和私人设施与当地设施作为参考类别进行了比较。使用MLE和PMLE拟合的每个模型的拟合优度统计(AIC、偏差残差、似然比检验和Hosmer–Lameshow检验)显示出可比较的结果(表5). 所有模型的良好性(表中不同类型疾病和子组的模型6——8)发现至少一个适用于此处的良好性标准是令人满意的。

表5。

使用MLE和PMLE对来自不同人群(城市、农村和两者)的儿童ARI、发烧和腹泻治疗寻求健康行为数据进行拟合的模型的良好统计。

  急性呼吸道感染发烧腹泻
 标准MLE公司PMLE公司MLE公司PMLE公司MLE公司PMLE公司
城市的AIC公司157.85159.60928.80929.03191.29193.34
 剩余偏差121.85123.60888.80889.03151.28153.34
 原木类木材−60.93−61.80−444.40−444.51−75.64−76.67
 似然比检验31.41*29.67*94.32*94.09*26.5824.54
 Hosmer–Lemeshow测试22.5017.3139.84*40.85*17.6417.43
农村AIC公司554.78555.182378.892379.02430.02430.56
 剩余偏差518.78519.182338.892339.02390.02390.56
 原木类木材−259.39−259.59−1169.50−1169.51−195.01−195.28
 似然比检验41.86*41.47*149.66*149.53*72.94*72.40*
 Hosmer–Lemeshow测试16.7520.1223.5823.0231.22*32.52*
两者都有AIC公司705.39705.633312.133312.21624.74625.09
 剩余偏差665.39665.633268.133268.21580.74581.09
 对数似然−332.69−332.82−1634.10−1634.12−290.37−290.54
 似然比检验58.24*57.99*254.85*254.76*85.32*84.98*
 Hosmer–Lemeshow测试17.7521.6621.1219.6021.8420.25

注:AIC、Akaike信息准则;LR,似然比;*,显著的测试统计。

表6。

将MLE和PMLE拟合到儿童寻求健康行为数据中,以治疗ARI。

  MLE公司 PMLE公司
    公共   私人 公共私人
 协变量或(SE)P(P)-价值或(SE)P(P)-价值 或(SE)P(P)-价值或(SE)P(P)-价值
城市的财富         
 最穷的(钢筋混凝土)        
 穷人24.98 (50.71)——6.42×105(0.73×106)—— 11.24(20.68)——14.72 (32.24)——
 中部16.91(0.52×10)——9.54×105(0.73×106)—— 8.80(14.52)——21.06 (41.27)——
 更富有4.16 (5.91)——2.28×105(0.15×106)—— 2.66(3.46)——6.06 (10.97)——
 最富有的4.24 (7.04)——1.12×106(0.78×106)—— 2.76(4.14)——25.18 (46.83)——
           
 教育类         
 (钢筋混凝土)        
 主要0.03 (0.04)——0.53(0.94)—— 0.07(0.09)——0.54 (0.78)——
 次要0.12 (0.17)——1.04(1.85)—— 0.19(0.24)——1.01 (1.44)——
 更高0.39 (0.74)——2.08(4.49)—— 0.51(0.89)——1.50 (2.76)——
           
 年龄1.09 (0.07)——1.02(0.05)—— 1.07(0.06)——1.02 (0.05)——
           
农村财富         
 最穷的(钢筋混凝土)        
 穷人0.41 (0.18)0.0392.57 (1.08)0.024 0.42 (0.18)0.0462.49(1.02)0.028
 中部0.17 (0.10)0.0041.51 (0.69)0.373 0.19 (0.11)0.0051.49 (0.69)0.381
 更富有0.34 (0.22)0.0932.83 (1.42)0.037 0.38(0.24)0.1172.75 (1.38)0.041
 最富有的0.39 (0.39)0.3415.69 (3.70)0.007 0.48 (0.44)0.4225.30 (3.44)0.009
           
 教育类         
 (钢筋混凝土)        
 主要5.78 (4.10)0.0131.26 (0.60)0.635 4.90 (3.28)0.0171.22 (0.59)0.678
 次要4.34 (3.30)0.0541.41 (0.69)0.487 3.70 (2.66)0.0691.36 (0.67)0.530
 更高9.26 (11.48)0.0730.70(0.68)0.709 8.15 (9.62)0.0750.77 (0.74)0.783
           
 年龄1.06 (0.03)0.0731.05 (0.03)0.052 1.06 (0.03)0.0751.05 (0.03)0.061
           
两者都有财富         
 最穷的(钢筋混凝土)        
 穷人0.50 (0.21)0.0872.80 (1.15)0.012 0.51 (0.21)0.1012.71(1.11)0.014
 中部0.21 (0.11)0.0031.96 (0.85)0.122 0.23 (0.12)0.0041.91 (0.82)0.130
 更富有0.31 (0.16)0.0232.25(1.03)0.076 0.33 (0.17)0.0302.20 (0.99)0.081
 最富有的0.31 (0.23)0.1066.82 (3.63)0 0.35 (0.25)0.1316.35 (3.37)0
           
 住宅         
 城市的(钢筋混凝土)        
 农村0.35 (0.15)0.0160.59 (0.21)0.131 0.36 (0.15)0.0180.59 (0.21)0.139
           
 教育类         
 (钢筋混凝土)        
 主要2.06 (0.98)0.1301.38(0.62)0.475 1.96 (0.92)0.1531.34 (0.60)0.517
 次要1.79 (0.95)0.2731.66 (0.76)0.268 1.70 (0.88)0.3081.60 (0.72)0.302
 更高4.68 (4.23)0.0881.28 (0.99)0.747 4.42 (3.93)0.0941.27 (0.98)0.754
           
 年龄1.06 (0.03)0.0501.04 (0.02)0.081 1.05(0.03)0.0541.04 (0.02)0.092

注:OR,比值比;SE,标准误差;P(P),P(P)-价值;RC,参考类别。

表8。

将MLE和PMLE拟合到儿童寻求健康行为治疗腹泻的数据中。

  MLE公司 PMLE公司
    公共   私人 公共私人
 协变量或(SE)P(P)-价值或(SE)P(P)-价值 或(SE)P(P)-价值或(SE)P(P)-价值
城市的财富         
 最穷的(钢筋混凝土)        
 穷人8.53 (25.38)——12.7×10(15.7×10)—— 4.38 (0.76)0.2382.64 (0.22)0.098
 中部3.83 (8.57)——28.3×10(24.9×10)—— 2.99 (0.77)0.4564.75(0.52)0.740
 更富有1.14×101(0.23)——1.70×104(11.6×10)—— 0.19 (0.41)0.4453.14 (0.31)0.331
 最富有的6.15×101(1.24)——4.50×104(32.7×10)—— 0.76 (0.78)0.8127.71 (0.80)0.360
 工作         
 (钢筋混凝土)        
 是的3.72 (4.12)0.3701.70(1.43)0.234 2.98 (0.16)0.0211.53 (0.16)0.022
 教育类         
 (钢筋混凝土)        
 主要0.12 (0.35)0.4480.57 (0.77)0.680 0.34 (0.16)0.0230.64 (0.46)0.805
 次要8.26(19.17)0.3630.43 (0.57)0.521 3.88 (0.25)0.1900.50 (0.84)0.272
 更高5.04 (12.07)0.4990.70 (0.98)0.794 2.78 (0.61)0.8300.73 (2.00)0.079
 年龄1.03 (0.09)0.7530.91 (0.06)0.148 1.02 (0.03)0.0590.92 (0.03)0.331
农村财富         
 最穷的(钢筋混凝土)        
 穷人1.80(0.83)0.2050.40 (0.20)0.075 1.73 (0.79)0.2260.43 (0.21)0.087
 中部1.52 (0.90)0.4800.94 (0.47)0.911 1.51 (0.87)0.4770.96 (0.48)0.933
 更富有1.50 (1.11)0.5840.27 (0.19)0.062 1.53(1.09)0.5510.30 (0.21)0.083
 最富有的1.33 (1.28)0.7651.22 (0.78)0.754 1.45 (1.33)0.6851.21(0.77)0.764
 工作         
 (钢筋混凝土)        
 是的0.18 (0.11)0.0050.21 (0.11)0.004 0.21 (0.12)0.0060.23 (0.12)0.005
 教育类         
 (钢筋混凝土)        
 主要0.41 (0.20)0.0630.70 (0.46)0.586 0.42 (0.20)0.0700.69 (0.44)0.568
 次要0.39 (0.20)0.0683.42 (1.96)0.032 0.41 (0.21)0.0783.11 (1.74)0.042
 更高0.91(0.81)0.9177.56 (6.09)0.012 0.95 (0.82)0.9526.45 (5.12)0.019
 年龄1.09 (0.04)0.0330.97 (0.03)0.355 1.08 (0.04)0.0420.97 (0.03)0.386
两者都有财富         
 最穷的(钢筋混凝土)        
 穷人1.73(0.77)0.2170.45 (0.21)0.086 1.68 (0.76)0.2380.47 (0.22)0.098
 中部1.49 (0.79)0.4531.16 (0.52)0.742 1.48 (0.77)0.4561.16(0.52)0.740
 更富有0.56 (0.39)0.4040.60 (0.30)0.304 0.60 (0.41)0.4450.62 (0.31)0.331
 最富有的1.16 (0.79)0.8311.60 (0.81)0.350 1.17 (0.78)0.8121.59 (0.80)0.360
 住宅         
 城市的(钢筋混凝土)        
 农村0.43 (0.22)0.1060.38 (0.14)0.011 0.45 (0.23)0.1150.40 (0.15)0.014
 工作         
 (钢筋混凝土)        
 是的0.32 (0.15)0.0160.39 (0.15)0.016 0.34 (0.16)0.0210.41 (0.16)0.022
 教育类         
 (钢筋混凝土)        
 主要0.33 (0.16)0.0190.90 (0.48)0.841 0.35 (0.16)0.0230.88 (0.46)0.805
 次要0.54 (0.25)0.1791.80(0.90)0.239 0.55 (0.25)0.1901.71 (0.84)0.272
 更高0.83 (0.60)0.7983.38 (2.20)0.061 0.86 (0.61)0.8303.10 (2.00)0.079
 年龄1.07 (0.04)0.0480.97(0.03)0.313 1.06 (0.03)0.0590.97 (0.03)0.331

注:OR,比值比;SE,标准误差;P(P),P(P)-价值;RC,参考类别。

城市阶层的结果显示,MLE提供了与财富指数相关的比值比的无限大估计,财富指数在ARI导致的疾病的结果(卫生设施的选择)中产生了准完全分离,这是不可解释的(表6). 相反,PMLE提供了与相应协变量相关的相对较小的比值比。此外,与MLE相比,PMLE提供的其他与教育相关的OR估计值相对较小。当该模型适用于农村阶层(样本规模大于城市阶层)时,MLE和PMLE之间的估计值也存在显著差异,尤其是与财富指数相关的OR,该指数产生了近距离分离,PMLE的值相对较小。对于组合数据,观察到两种方法之间的估计值相差可以忽略不计。

发热数据相对较大,除了城市阶层中的近距离分离外,没有证据表明完全分离。然而,由于城市阶层腹泻数据中的财富指数和农村阶层中的某种接近分离,有证据表明存在分离。在发热分析中观察到类似结果(表7)和腹泻(表8)存在分离时回归系数估计值存在显著差异的数据,有近分离迹象时差异较小,没有任何分离迹象时相差可以忽略。

表7。

将MLE和PMLE拟合到儿童发热寻求健康行为数据的总结。

  MLE公司 PMLE公司
    公共   私人 公共私人
 协变量或(SE)P(P)-价值或(SE)P(P)-价值 或(SE)P(P)-价值或(SE)P(P)-价值
城市的财富         
 最穷的(钢筋混凝土)        
 穷人1.13 (0.72)0.8452.95(2.02)0.114 1.14 (0.71)0.8272.77 (1.86)0.129
 中部0.95 (0.50)0.9161.15 (0.75)0.833 0.94 (0.49)0.9061.11 (0.70)0.874
 更富有1.14 (0.53)0.7843.54 (1.94)0.021 1.11 (0.51)0.8263.24 (1.72)0.028
 最富有的0.43 (0.21)0.0894.86 (2.63)0.003 0.43 (0.21)0.0864.42 (2.33)0.004
 工作         
 (钢筋混凝土)        
 是的1.20 (0.39)0.5811.41(0.38)0.200 1.20 (0.39)0.5661.40 (0.37)0.211
 教育类         
 (钢筋混凝土)        
 主要1.67 (0.83)0.3042.07 (0.93)0.106 1.60 (0.78)0.3321.98 (0.88)0.123
 次要1.76 (0.85)0.2423.76 (1.57)0.001 1.68 (0.80)0.2733.55(1.46)0.002
 更高9.28 (5.24)011.44 (5.57)0 8.47 (4.70)010.50 (5.06)0
 年龄1.01 (0.03)0.6211.00 (0.02)0.838 1.01 (0.03)0.6051.00 (0.02)0.844
农村财富         
 最穷的(钢筋混凝土)        
 穷人0.87 (0.22)0.5861.82 (0.43)0.010 0.88 (0.22)0.6021.81 (0.42)0.011
 中部1.27 (0.30)0.3123.71 (0.80)0 1.26 (0.30)0.3093.6(0.78)0
 更富有0.88 (0.25)0.6352.28 (0.57)0.001 0.88 (0.24)0.6542.26 (0.56)0.001
 最富有的0.35 (0.17)0.0276.24 (1.72)0 0.37 (0.17)0.0326.13 (1.68)0
 工作         
 (钢筋混凝土)        
 是的0.68 (0.14)0.0500.55 (0.10)0 0.68(0.13)0.0530.56 (0.09)0.001
 教育类         
 (钢筋混凝土)        
 主要0.77 (0.20)0.3220.75 (0.17)0.213 0.77 (0.20)0.3160.75 (0.17)0.211
 次要1.12 (0.30)0.6670.87(0.19)0.521 1.11 (0.29)0.6860.87 (0.19)0.511
 更高3.51 (1.33)0.0011.53 (0.48)0.173 3.47 (1.31)0.0011.52 (0.47)0.178
 年龄1.02 (0.02)0.1630.98 (0.01)0.073 1.02 (0.02)0.1600.98 (0.01)0.077
           
两者都有财富         
 最穷的(钢筋混凝土)        
 穷人0.89 (0.21)0.6151.82 (0.40)0.007 0.89(0.21)0.6291.81 (0.40)0.007
 中部1.22 (0.26)0.3493.02 (0.61)0 1.21 (0.25)0.3472.99 (0.60)0
 更富有0.92 (0.21)0.7322.46 (0.53)0 0.93 (0.21)0.7402.44 (0.52)0
 最富有的0.37 (0.11)0.0014.99(1.12)0 0.38 (0.12)0.0024.93 (1.11)0
 住宅         
 城市的(钢筋混凝土)        
 农村0.49 (0.09)00.72 (0.10)0.019 0.49 (0.09)00.72(0.10)0.019
 工作         
 (钢筋混凝土)        
 是的0.77 (0.13)0.1240.72 (0.10)0.015 0.78 (0.13)0.1290.72 (0.10)0.016
 教育类         
 (钢筋混凝土)        
 主要0.91 (0.21)0.6740.90 (0.18)0.603 0.91 (0.21)0.6650.89 (0.20)0.595
 次要1.19 (0.27)0.4551.22 (0.23)0.297 1.18 (0.27)0.4711.21 (0.23)0.308
 更高4.40 (1.33)02.78 (0.69)0 4.33(1.31)02.75 (0.68)0
 年龄1.02 (0.01)0.1580.99 (0.01)0.240 1.01 (0.01)0.1550.99 (0.01)0.245

注:OR,比值比;SE,标准误差;P(P),P(P)-价值;RC,参考类别。

5讨论

完全分离或近距离分离(部分分离)是模型拟合过程中的一个严重问题。虽然具有完全或准完全分离的数据很少,但几乎分离的数据(近距离分离)在实践中非常常见。然而,有必要探索数据条件(经验法则)来定义近距离。这项研究确定了一个阈值(<15%)二元协变量列联表中至少一个单元格中观察到的计数和结果。此外,本研究研究了基于最大似然的标准多项式模型中分离和近分离的后果,并通过对多项式响应应用惩罚似然泊松回归来解决这些问题。仿真结果表明,在存在完全或准完全分离的情况下,MLE往往无法实现收敛和/或对回归系数和Wald-置信区间提供了较大或无限的估计,这是不可解释的。相比之下,PMLE通过实现收敛并提供具有极小偏差的有限估计以及相应回归系数的MSE,显示出了很大的改进。在存在近距离分离的情况下,标准MLE在估计与创建近距离分离协变量相关的回归系数时提供了大量偏差和MSE。对于小样本、大真实回归系数、二元协变量事件和非事件的不均匀分布,偏倚量和平均有效误差相对较高。因为对于每一种情况,这种近距离分离的可能性都很高。对于所有这些情况,PMLE通过在一定程度上减少偏差和MSE,并提供更窄的置信区间和准确的覆盖范围,显示出对MLE的改进。即使是大样本的罕见结果类别,MLE仍然提供了大量的偏差和MSE,而PMLE在一定程度上提供了改善。

相反,与不负责产生任何分离的连续协变量相关联的回归系数的MLE和PMLE的偏差量和MSE相对低于与二元协变量相关的回归系数。同样,当样本量较小时,PMLE报告的偏差和MSE数量小于MLE。

本研究还扩展了惩罚估计方法,通过合并个人调查权重(逆概率加权)来分析复杂调查的数据,并提供了分析求医行为(儿童疾病医疗设施的选择)的方法应用有分离或近分离迹象的数据。结果支持模拟结果。本文的所有发现与参考文献[4]研究了Firth类型惩罚估计和多项式logistic回归MLE中的有限样本偏差。然而,他们忽略了与多项式结果中的近距离分离相关的问题,即使是结果类别罕见的中到大样本也可能经常出现这种情况。

最后,在协变量产生的分离或近分离存在的情况下,通过泊松回归框架对多项式logit模型进行的PMLE显示出相对于基于MLE的标准多项式logit模式的显著改进。据报道,当样本量较小甚至较大,但一个或多个结果类别的流行率较低,或者存在许多有影响力的协变量或它们的组合时,分离或近分离的可能性较高,并且这种分离导致的问题对于多项式响应来说是不可忽略的。根据研究结果,如果样本量较小,我们建议使用PMLE(n个50)再次,如果样本量较大,我们建议探索数据以确定任何分离或近分离的证据,如果存在,建议使用PMLE。

本研究探讨了使用惩罚方法来分析复杂调查中的稀疏多项式数据,然而,还需要进一步研究,以开发与惩罚最大似然法相一致的适当的优缺点方法。最近的一些研究中讨论了基于残差的完好性评估[13,14]除了Akaike信息标准、Hosmer–Lameshow检验和似然比检验等传统方法外,这可能是一种替代方法。

补充材料

补充_附录:

致谢

作者承认DHS项目为本研究提供数据的权威性。作者还感谢副主编的贡献,两位匿名审稿人在整个审稿过程中提出了建设性意见和反馈。

披露声明

提交人没有报告任何潜在的利益冲突。

工具书类

1Andaleeb S.S.公司。,孟加拉国公立和私立医院:服务质量和医院选择预测因素,J.卫生政策计划。 15(2000),第95-102页。[公共医学][谷歌学者]
2Anderson J.A.和Richardson S.C。,最大似然估计中的Logistic判别和偏差修正,技术计量学 21(1979年),第71-78页。[谷歌学者]
三。Bull S.B.、Hauck W.W.和Greenwood C.M.T。,逻辑回归最大似然估计的两步折刀偏差减少,Commun公司。统计模拟。计算。 23(1994年),第59-88页。[谷歌学者]
4Bull S.B.、Mak C.和Greenwood C.M.T。,小样本多项式logistic回归的一种改进的得分函数估计,计算。统计数据分析。 39(2002),第57-74页。[谷歌学者]
5Cook S.J.、Niehaus J.和Zuhlke S。,多项式logistic模型中的分离警告,Res.政治。 5(2018),第1-5页。[谷歌学者]
6科帕斯J.B。,污染数据的二元回归模型,J.R.Stat.Soc.:序列号。B(方法学) 50(1988),第225-253页。[谷歌学者]
7Cordeiro G.M.和McCullagh P。,广义线性模型中的偏差校正,J.R.Stat.Soc.:序列号。B(方法学) 53(1991),第629-643页。[谷歌学者]
8Cox D.R.和Snell E.J。,残差的一般定义,J.R.统计社会服务。B(方法学) 43(1968年),第248-275页。[谷歌学者]
9Dobson A.J.和Barnett A.G。,广义线性模型简介,CRC出版社(查普曼和霍尔图书),伦敦,纽约,2018年。[谷歌学者]
10Firth D。,最大似然估计的偏差减少,生物特征 80(1993),第27-38页。[谷歌学者]
11Fitzmaurice G.M.、Harrington D.P.、Parzen M.、Sinha D.、Rader K.A.和Lipsitz S.R。,复杂调查logistic回归模型的偏差校正估计及其在美国全国住院患者样本中的应用,统计方法医学研究。 26(2017年),第2257–2269页。[PMC免费文章][公共医学][谷歌学者]
12Frischknecht B.D.、Eckert C.、Geweke J.和Louviere J.J.,纳入先验信息以克服离散选择模型估计中的完全分离问题。技术报告,悉尼科技大学,2013年。
13Goeman J.J.和le Cessie S。,多项式logistic回归的良好性检验,生物识别 62(2006),第980-985页。[公共医学][谷歌学者]
14Goeman J.J.和le Cessie S。,长数据集情况下logistic回归模型中拟完全分离现象和拟合优度检验的处理,Stat.Biosci公司。 11(2019年),第567-596页。[谷歌学者]
15海因策·G·。,分离或近似分离数据的logistic回归方法的比较研究,统计医学。 25(2006),第4216–4226页。[公共医学][谷歌学者]
16Heinze G.和Schemper M。,逻辑回归中分离问题的一种解法,统计医学。 21(2002),第2409-2419页。[公共医学][谷歌学者]
17Kosmidis I和Firth D。,指数族非线性模型中的偏差减少,生物特征 96(2009),第793-804页。[谷歌学者]
18Kosmidis I和Firth D。,基于泊松对数线性模型的多项式logit偏差抑制,生物特征 98(2011),第755-759页。[谷歌学者]
19Lipsitz S.R.、Fitzmaurice G.M.、Regenbogen S.E.、Sinha D.、Ibrahim J.G.和Gawande A.A。,比例优势logistic回归模型的偏差校正及其在外科并发症研究中的应用,J.R.Stat.Soc.:序列号。C(应用统计) 62(2013),第233-250页。[PMC免费文章][公共医学][谷歌学者]
20蒙多尔M.H.和拉赫曼M.S。,具有较小或稀疏纵向二进制数据的减小偏差和防分离GEE,统计医学。38(2019年),第2544–2560页。[公共医学][谷歌学者]
21Noh M.和Lee Y。,GLMM中二进制数据的REML估计,J.多变量。分析。 98(2007),第896–915页。[谷歌学者]
22Puhr R.和Heinze G。,具有小数据集或稀疏数据集的偏差减少和防分离条件logistic回归,统计医学。 29(2010),第770-777页。[公共医学][谷歌学者]
23谢弗·R.L。,最大似然logistic回归中的偏差校正,统计医学。 2(1983年),第71-78页。[公共医学][谷歌学者]
24Siino M.、Fasola S.和Muggeo V.M.R。,小数据和稀疏数据惩罚logistic回归中的推理工具:一项比较研究,统计方法医学研究。 27(2018),第1365-1375页。[公共医学][谷歌学者]
25NIPORT:国际金融公司和Mitra Associate,孟加拉国人口与健康调查达卡国家人口研究与培训研究所(NIPORT),2014年。

文章来自应用统计学杂志由以下人员提供泰勒和弗朗西斯