跳到主要内容

这是2024年10月PMC网站的改进预览。了解更多信息

返回当前站点
应用统计学杂志徽标 Link to view articles on publisher site
2021年9月17日;49(16):4254–4277. 数字对象标识:2010年10月80日/02664763.2021.1977260

处理多项式响应模型中的分离或近分离,并应用于复杂调查中的儿童寻求健康行为数据

诺文·努斯拉特 1,M S Rahman女士 1,联系人
PMCID:PMC9639484 PMID:36353300

摘要

当样本量较小和/或其中一个结果类别罕见和/或存在一个或多个有影响的协变量时,在使用最大似然估计(MLE)的多项式logistic模型的拟合过程中可以观察到分离或单调似然,导致模型的至少一个回归系数的无限或有偏估计。本研究进行了实证研究,以确定定义“分离”和“近距离分离”(部分分离)的最佳数据条件,并探讨了它们在MLE中的后果,并通过应用文献中提出的惩罚似然方法提供了解决方案,通过在原始似然函数中添加基于Jeffreys先验的惩罚项,通过等效泊松回归消除多项式logit模型最大似然估计中的一阶偏差。此外,将惩罚估计方程(PMLE)扩展为加权估计方程,允许测量量用于分析复杂测量数据。模拟研究表明,PMLE通过提供较小的偏差和误差均方以及更好的覆盖率而优于MLE。这些方法被用于分析儿童疾病治疗机构选择的数据。

关键词:单调似然,泊松对数模型,惩罚函数,卫生设施的选择

1.简介

在使用最大似然估计(MLE)程序拟合多项式logistic回归模型的过程中,可能会出现分离或单调似然,从而导致模型的至少一个回归系数的无限估计。如许多研究所述[5,15,16]当响应和非响应被一个预测器,特别是二进制预测器或几个预测器的非平凡线性组合分离时,就会发生分离。当样本量较小,或反应类别数量较多,或其中一个类别罕见,或存在一个或多个强预测因子或它们的组合时,分离现象更容易发生。让我们考虑一个例子(表1)描述由二分法协变量引起的不同形式的分离(X(X))多项式响应Y(Y)在第一种情况下,响应被预测器完全分开(如果我们比较响应类别2和3,则会有多个空单元格)或准完全分开(若我们考虑响应类别1和3,那么会有一个空单元格。在第二种情况下,所有细胞都是非零细胞,但至少有一个细胞有少量观察结果,我们称之为“近距离分离”(部分分离)。对于多项式响应,我们根据经验确定了此类观察的截止值(阈值),即数据中总样本的最大15%,以将这种情况定义为“接近分离”。实证评估的细节将在第节后面讨论虽然完全或准完全分离在实践中很少见,但“近距离分离”的情况更为常见。据Mondol和Rahman报道[20]在相关的二进制数据中,这种分离形式往往会给收敛带来困难,并在估计中产生一定程度的偏差,因此不能忽略。

表1。

由于二分法预测器导致的分离(左)或近距离分离(右)示例X(X)(协变量)与结果Y(Y)。每个单元格中的数字表示观察次数。

分离   近距离
  Y(Y)     Y(Y)
    1 2       1 2
X(X) 0 15 0 15   X(X) 0 2 5 23
  1 15 15 0     1 2 25

这种分离形式也可以在复杂调查设计的多项式数据中找到,例如从2014年孟加拉国人口与健康调查(BDHS)数据库中提取的“儿童寻求健康行为”数据。BDHS采用了两阶段分层整群抽样设计,对国家七个行政区划以外的城市和农村等阶层的结果进行了特定阶层的估计,这可能有助于决策者设计基于证据的政策。因此,在寻找寻求健康行为的阶层特定估计值时(医疗设施的选择:私人/公共/地方药房,用于治疗急性呼吸道感染(ARI)),可以观察到完全或准完全分离的存在(对于部门和城市阶层)由父母拥有的家庭资产计算出的协变量“家庭经济状况”(最贫穷/较贫穷/中等/较富裕/最富有)所产生的近距离(农村阶层)(表2). 在适用于城市阶层(存在分离的地方)的“设施选择”的多项式logit模型中,回归系数的MLE与协变量“经济状况”相关,其比值比(OR)极高,基于Wald的置信区间也很宽,导致无效推理[24]. 对于农村阶层(接近分离的地方),据报道,在某些情况下,相应的比值比值也很大。分区地层也观察到类似结果(未显示结果)。这些结果表明,寻求健康行为数据的基于最大似然的多项式logit模型可能无法提供一致的估计和有效的推断。结果与许多其他研究中发现的结果相似[4,12,15,16]它描述了MLE中分离的后果,包括频繁的收敛失败,即使它收敛,它也提供了至少一个回归系数和标准误差(SE)的有偏估计或通常是无限估计,从而导致误导性推断。

表2。

三种不同人群的观察数据和比值比:城市、农村和两者,从拟合的MLE(经其他协变量调整)获得的协变量经济状况到治疗ARI的儿童寻求健康行为数据。

    城市的 农村 两者
  协变量 本地 公共 私人 本地 公共 私人 本地 公共 私人
  经济状况                  
观测数据 最穷的 6 0 57 13 10 63 16 10
  穷人 5 4 42 10 18 45 15 22
  中部 6 4 5 41 5 16 47 9 21
  更富有 14 7 9 18 4 11 32 11 20
  最富有的 5 5 18 6 1 9 11 6 27
  总计 34 24 36 164 33 64 198 57 100
  经济状况                  
估计参数 最穷的 (钢筋混凝土)     (钢筋混凝土)     (钢筋混凝土)    
  穷人   24.98 6.42 ×105   0.41 2.57   0.42 2.80
  中部   16.91 9.54 ×105   0.17 1.51   0.21 1.96
  更富有   4.16 2.28 ×105   0.34 2.83   0.31 2.25
  最富有的   4.24 1.12 ×106   0.39 5.69   0.31 6.82

注:OR,比值比;RC,参考类别。

一些研究讨论了广义线性模型回归系数ML估计中的小样本偏差调整[2,,6–8,10,21,23]而其他研究则讨论了分离问题的解决方案[15,16]. 其中,Firth的[10]这项建议是基于减少一级订单 (O(运行)(n个1))通过在分数函数中添加一个惩罚项(相当于Jeffrey的不变先验),MLE中存在偏差。海因策和申佩尔[16]扩展了Firth的惩罚方法,用于解决二元逻辑回归中的分离问题。Firth的方法也扩展到了条件逻辑[22],比例赔率[19],多项式logistic回归[4]和非线性GLM[17]用于减少小样本偏差。此外,Kosmidis和Firth[18]探讨了细胞计数的多项式logistic回归模型和泊松对数线性模型之间的联系,并提出了一种惩罚最大似然估计方法,以使用泊松技巧消除多项式logit模型MLE中的一阶偏差。尽管Bull已经针对多项结果提出了小样本偏差减少和分离解决方案等。[4]后来由科斯米迪斯和弗斯[18]通过等效泊松回归,他们中没有一个仔细研究分离情况下的性能方法,尤其是“近距离分离”,这在实践中更为常见。本研究通过广泛的模拟研究,调查了最大似然和惩罚最大似然方法中所有分离形式的后果,并对结果进行了比较,以提供一些实用建议。此外,本文扩展了包含抽样权重的惩罚方法,用于分析从复杂设计的调查中提取的上述健康寻求行为数据。得到的加权惩罚方法在分离和近分离两种情况下都能收敛,并获得回归的有限估计。

论文组织如下。章节2回顾了现有的基于最大似然的多项式模型,并描述了结合调查权重的惩罚方法。第节描述了模拟研究以及第节中分析健康寻求行为数据的方法的应用4最后,在第节5,讨论了本文的主要发现。

2.方法

2.1、。多项式logit模型

让我们考虑多项式响应Y(Y)具有 k类别及其对应的概率 π1,π2,,πk.让 q个=k1 βT型= (β1T型,β2T型,,βq个T型)是的向量 第页q个模型参数。假设我们已经观察到n个 (,x个)具有 = (1,,q个)T型观测频率向量是多项式分布随机向量的实现 Y(Y)带索引 、和 x个,一个 第页×1已知协变量值的向量。k第个类别是 k==1q个 π=(π1,,πq个)T型 q个×1相应类别概率的向量。根据定义k第个类别是 πk=1=1q个π.矩阵X(X)包含行 x个T型假设为全秩,并且在模型中存在截距参数时 x个每设置一个 =1,2,,n个.让 Z轴=1q个x个T型成为 q个×第页q个模型矩阵。log-odds可以表示为

日志ππk=η=t吨=1第页q个βt吨z(z)t吨(=1,2,,n个;=1,2,,q个), (1)

哪里 z(z)t吨 (,t吨)的第个元素 Z轴 1q个 q个×q个单位矩阵。

2.2. MLE程序

根据参考文献中的注释[9],多项式log-likelihood可以写成

(β)==1q个日志ππk+日志πk.

系数向量的相应分数函数 β具有以下形式:

U型(β)=U型(β)=q个Z轴T型(π). (2)

回归系数的最大似然估计量(MLE)是方程的解 U型(β)=0,通常采用牛顿-拉普逊近似[9].

2.3. 审查Firth的GLM惩罚方法

删除第一个订单 (O(运行)(n个1))MLE偏差t吨GLM的第th个回归参数,Firth[10]提出了以下评分函数:

U型t吨(β)U型t吨(β)+t吨(β)(t吨=1,2,,第页q个) (3)

有罚款期限

t吨(β)=12追踪[(β)1{(β)/βt吨}]=βt吨[12日志|(β)|],

哪里 U型t吨(β)(β)/βt吨=0是基于对数似然函数的标准分数函数 (β)=日志L(左)(β)、和 (β)1是对应信息矩阵的逆矩阵 (β)=2(β)/β2评估时间: β.针对上述修正的分数方程,相应的惩罚对数似然函数和似然函数为 (β)=(β)+1/2日志|(β)| L(左)(β)=L(左)(β)|(β)|1/2分别是。对于这个问题,惩罚函数被称为Jeffreys不变先验,其影响是渐近可忽略的。公牛等。[4]将Firth的一般思想应用于多项式logit模型,以减少回归估计中的有限样本偏差。对于多项式logit模型,观测信息矩阵 F类(β)=Z轴T型W公司Z轴,使用 W公司成为 n个q个×n个q个块对角矩阵 q个×q个阻碍 W公司={w个k}, w个=π(1π)对于 = k w个k=ππk否则。然后,等式中给出的惩罚得分函数()对于多项式logit模型,可以用以下形式替换:

U型t吨(β)=U型t吨(β)+12=1q个追踪{H(H)W公司1K(K)}z(z)t吨==1q个(π+12追踪{H(H)W公司1K(K)})z(z)t吨(t吨=1,,第页q个),

哪里 K(K)是一个 q个×q个对称矩阵 (u个,v(v))th元素,的三阶累积量 Y(Y) H(H)表示第个对角块 n个q个×n个q个“帽子”矩阵 H(H)=Z轴(Z轴T型W公司Z轴)1Z轴T型W公司包括 n个2块,每个尺寸 q个×q个经过一些代数运算后,上述惩罚分数函数采用以下形式:

U型t吨(β)==1q个[+12小时(+12追踪H(H))π12u个=1q个πu个小时u个]z(z)t吨, (4)

哪里 小时u个 (,u个)的第个元素 H(H).方程的解 U型t吨(β)=0(来自方程式(4))由于帽子矩阵的结构复杂,计算繁琐。Kosmidis和Firth[18]使用等效泊松技巧,为多项式logit模型提出了一个可选的惩罚得分函数,该函数更灵活(简单且计算效率高),以便于说明。下面讨论了这种方法的细节。

2.4. 用等效泊松回归求解多项式响应中的分离问题

方程中的多项式模型(1)可以方便地嵌入到泊松对数线性模型中。使用指示器功能 δk(1,如果 = k多项式响应的对数线性模型可以写成(使用参考文献中使用的类似符号[18]):

日志μ={直径+(1δk)x个T型β},μ=经验{直径+(1δk)x个T型β}(=1,2,,n个;=1,2,,k), (5)

哪里 μ是独立泊松随机变量的期望值 Y(Y), τ==1kμ 直径干扰参数。如Kosmidis和Firth所述[18]方程中给出的多项式logit模型(1)方程中的泊松对数线性模型(5)是完全指数族,因此Firth[10]偏差减少惩罚项可以直接应用于每个模型的可能性。然而,他们认为在给定的参数化下 θ=(βT型,τT型)T型,第一类惩罚泊松似然不能分解为所需多项式似然的乘积(对于 β)和一个不含 β因此,偏差的标准计算减少了全参数向量的估计 θ在泊松对数线性模型中,不提供对 β多项式模型。Kosmidis和Firth[18]提供了一个解决方案,用于使用通过施加约束而导出的泊松模型的限制版本 =τ有关此约束的更多详细信息,请参阅参考[18]. 在这种约束下,方程中的泊松模型(5)变成了一个标准链接的广义非线性模型的形式:

日志μ=日志[τ{1+u个=1q个经验(x个T型βu个)}]1+(1δk)x个T型β.

为了简化上述非线性模型的似然评分方程的计算算法,Kosmidis和Firth[18]应用参考文献[17]并针对上述模型提出了以下减小偏差的调整得分函数:

U型t吨==1n个=1k[(+12小时+12μ信托收据{(F类)12(ζ;θ)}μ)]z(z)t吨(t吨=1,,n个+第页q个),

哪里 F类是关于的预期信息 θ, 2(ζ;θ)表示 (n个+第页q个)×(n个+第页q个)Hessian矩阵 ζ关于 θ、和 z(z)t吨 (,t吨)的第个组件 k×(n个+第页q个)矩阵

Z轴=[G公司1q个(πT型G公司)1q个(τ1e(电子)T型)πT型G公司τ1e(电子)T型](=1,..,n个),

具有 π=(π1,π2,,πq个)T型 π=μ/τ.注意到这一点后 2(ζ;θ)不依赖于并取代 z(z)t吨Kosmidis和Firth[18]提出了以下调整得分函数的简单形式 β:

U型t吨==1n个=1k[+12小时{+12信托收据(H(H))}π]t吨(t吨=1,,第页q个), (6)

哪里 t吨 (,t吨)的第个分量 G公司.仅数量 小时在上述偏差中,减少分数等式将受到约束的影响 τ=Kosmidis和Firth[18]还利用定理1证明了这些调整后的得分函数与那些(方程(4))直接从方程式中模型的可能性惩罚中获得(1). 惩罚估计方程(PMLE)估计 β可以使用Kosmidis和Firth提出的以下标准迭代过程进行估算[18]. 新值 β(j个+1)从候选人处获得 β(j个)通过求解以下迭代方程:

0==1n个=1k[+12小时~(j个){+12信托收据(H(H)~(j个))}π(j个+1)]t吨(t吨=1,,第页q个) (7)

具有 小时~(j个)为受限参数化计算。正如Kosmidis和Firth所建议的那样[18],方程式(7)可以通过以下步骤实现:

  1. 设置 直径~(j个)=日志日志{1+=1q个经验(x个T型β(j个))}.

  2. 使用 θ~(j个)=(β(j个),直径~1(j个),,直径~n个(j个))计算新值 H(H)~(j个).

  3. 方程中的拟合模型(5)按最大似然,但使用调整后的响应 +小时~(j个)/2代替 以获得新的估计 直径(j个+1) β(j个+1).

这个 β-在降维估计(称为PMLE)下计算的期望信息矩阵的逆块可用于为估计量生成有效的SE。

使用上述泊松技巧的惩罚方法最初是为了减少多项式模型MLE中的有限样本(一阶)偏差而提出的。然而,这些偏差减少了等式中的分数函数(6)可用于解决前面在多项式响应中讨论的分离和近分离问题。因为方程式中给出的函数(6)保证有限估计 β即使在一个或多个反应类别中有空单元格,标准得分函数(方程式(2))没有惩罚的衍生。这个想法与海因策和申佩尔提出的想法类似[16]用于解决logistic回归中的分离问题。PMLE的SE的相应估计可以从hat矩阵的对角元素的根中获得 H(H).

2.5. 复杂测量数据的加权PMLE

本文的主要动机是应用上述方法分析从分层聚类设计(多阶段设计)的横断面调查中提取的数据(前面提到过),这是一种复杂的设计。因此,在模型估计中结合根据逆向选择概率计算的单个抽样权重,对回归参数和相关SE进行准确估计是非常必要的 Y(Y)小时j个k是多项式响应k的类别第个主题( =1,2,,n个小时j个)来自j个第个簇( j个=1,2,,小时)以及来自小时第th层( 小时=1,2,,H(H)). 再一次,让我们 δ小时j个如果主题为hji公司在样本中选择,否则为0 P(P)(δ小时j个=1)是被选入调查的概率,该概率由研究设计确定,可能取决于协变量或附加变量,例如筛选不在泊松模型中的变量,用于多项式响应[11]. 这个概率可以通过乘以多级抽样方案中每个阶段的选择概率来计算。因此,样本中的每个受试者都有已知的体重 w个小时j个=δ小时j个/第页小时j个.结合采样权重,方程中给出的惩罚估计函数(6)成为测量数据的以下加权估计函数:

U型t吨,w个=小时H(H)j个=1小时=1n个小时=1k[小时j个+12小时小时j个{小时j个+12信托收据(H(H)小时j个)}π小时j个]小时j个t吨w个小时j个(t吨=1,,第页q个). (8)

解决 U型t吨,w个=0为测量数据提供加权PMLE。该方程可以使用前面描述的相同程序求解,加权PMLE的SE可以从稳健方差估计量的平方根中获得。

3.仿真研究

为了研究多项式模型MLE中分离和近分离的后果,并评估PMLE相对于MLE的性能,进行了广泛的仿真研究。我们利用简单随机抽样的研究数据进行了模拟。

3.1. 仿真设计

3.1.1. 数据生成

让我们考虑多项式数据 对于第次观察和第个响应类别 (=1,2,,n个;=1,2,,k)具有第页 = 2个协变量,其中一个被视为二元,另一个被认为是连续的。实现 x个b条二元协变量的 X(X)b条由事件概率的伯努利分布生成γ x个c(c)连续协变量的 X(X)c(c)标准正态分布。我们考虑了一个多项式响应,其中有三个响应类别,第一个响应类别作为参考类别,然后是多项式响应 =(1,2,)使用多项式分布生成,概率来自以下模型:

π1=11+经验(β02+β12b条x个b条+β22c(c)x个c(c))+经验(β03+β13b条x个b条+β23c(c)x个c(c)),π2=经验(β02+β12b条x个b条+β22c(c)x个c(c))1+经验(β02+β12b条x个b条+β22c(c)x个c(c))+经验(β03+β13b条x个b条+β23c(c)x个c(c)),π=经验(β03+β13b条x个b条+β23c(c)x个c(c))1+经验(β02+β12b条x个b条+β22c(c)x个c(c))+经验(β03+β13b条x个b条+β23c(c)x个c(c)).

多项式响应类别对应的概率满足条件 π1+π2+π=1。的值 β02 β03确定数据中响应类别的总体流行率,以及 β12b条, β22c(c), β13b条 β23c(c)表示表示协变量和响应之间关联强度的效应大小。

3.1.2. 模拟场景

使用上述设置,生成了几个模拟场景的数据,这些场景具有分离或近距离分离的证据。为了创建分离,我们处理了二元协变量 X(X)b条通过考虑相对较大的 β12b条 β13b条(与相比 β22c(c) β23c(c)与关联 X(X)c(c))从而创建之前定义的任何形式的分隔(表1). 该设置证实了完全或准完全分离(二元协变量之间列联表中至少有一个零单元 X(X)b条和响应Y(Y))对于一些模拟数据集,并为大多数其他模拟集创建了近距离分离(列联表中至少有一个单元格具有一些观察值)。为了在很少观察的情况下确定细胞的最佳截止点,我们在进行最终模拟之前,首先进行了额外的模拟研究,将不同的截止点视为总样本的观察值百分比,即5%、8%、10%、12%、15%、18%和20%。其思想是确定回归系数估计中存在可忽略偏差的最佳截止点(以百分比表示)。然后,我们将此截止点视为经验法则,根据经验法则,我们可以考虑具有近距离分离证据的数据集。该模拟是针对与二元协变量相关的系数的真实值的场景进行的 β12b条=1.3, β13b条=1.2和样本大小n个 = 50和100。对于每个场景,我们绘制了1000个模拟的估计回归系数的偏差。经验结果表明,当细胞频率大于总样本的15%时,MLE和PMLE的偏差都接近于零(图1). 然后,如果至少有一个单元的观测值小于总样本的15%,我们在最终模拟中定义了近距离分离。

图1。

图1。

MLE和PMLE估计值的偏差和MSE β12b条 β13b条(导致近距离分离的二元协变量系数)超过两者的细胞频率百分比N个 = 50和N个 = 100次观察。

在最后的模拟中,我们考虑了通过改变样本大小创建的几个场景n个以及反应类别患病率的不平衡程度、事件在二元协变量中的比例(γ),与二元协变量和响应相关的log-odds比率的大小( β12b条,β13b条). 我们考虑了样本量n个如15、20、30、50、100和200。在每个样本量场景下,首先用于固定 γ=0.5 (β02,β22c(c),β03,β23c(c))=(0.6,0.65,0.5,0.5),我们改变了 β12b条作为0.3、0.9、1.1、1.6和 β13b条为0.4、0.8、1.2、1.5,以查看影响大小的大小是否影响分离的可能性和估计值。第二,对于固定 β=(β02,β12b条,β22c(c),β03,β13b条,β23c(c))=(0.6,1.3,0.65,0.5,1.2,0.5),我们改变了二元协变量中事件的比例 X(X)b条值为γ为0.2、0.3…、0.8。第三,对于固定 γ=0.5 (β12b条,β22c(c),β13b条,β23c(c))=(1.3,0.65,1.2,0.5),我们改变了 β02作为 1,0.1,0.1,0.3,0.5,0.6,1,1.5 β03作为 0.5,0.2,0.2,0.1,0.4,0.8,1.25,2,查看数据中发生分离或近分离的可能性,以及MLE和PMLE的性能是否存在差异。

根据响应类别的分布,对两种情况考虑了上述模拟场景。情况1被称为“响应类别的均匀分布”,其中响应类别的百分比分布大致相等(每个类别约33%),情况2被称为“响应类别的异质分布”,其中响应类别的这种分布不相等。这两种情况是通过确定以下值来考虑的 β02 β03这控制了数据中反应类别的总体流行率。

3.2. 拟合模型并评估性能

对于每个模拟场景,我们创建了1000个数据集副本,并在方程式中拟合模型(1)在方程式中使用MLE和模型(5)对每个模拟数据集使用PMLE。对于MLE和PMLE估计,我们将偏差计算为偏差 (β^第页)=β^第页β第页哪里 β^第页==11000β^第页/1000,误差的均方(MSE)作为MSE( β^第页)=第页=11000(β^第页β第页)2/1000我们还报告了分析SE,即分析估计值相对于模拟次数的平均值,以及模拟标准误差(SimSE),即估计值相对于仿真次数的标准偏差。MLE和PMLE估计量的置信区间覆盖率计算为置信区间的百分比,其中包括1000次模拟的真实值。在性能的各个方面,我们报告了收敛失败的次数,并总结了收敛实现的仿真结果。

所有计算均使用R版本3.5.2进行。对于标准MLE,使用了属于R库“nnet”的函数“multinom”,对于PMLE,使用了隶属于R库的函数“brglm2”。

3.3、。结果

我们首先总结了在所考虑的不同场景下1000多个模拟中分离(完全或准完全)或近分离(以百分比表示)的可能性(补充表A.1)。结果表明,分离的可能性与二元协变量中事件和非事件比例的不均匀程度呈正相关 (γ)以及log-odds比率的大小 (β12b条,β13b条)然而,分离(完全或准完全)的机会随着样本量的增加而减少。对于近距离分离,可以观察到相反的情况。结果表明,分离可能发生在小样本甚至大样本中,结果罕见,并且事件和非事件在二元协变量中的分布极不均匀。

3.3.1. 案例1:响应类别的均匀分布

对于参数集 β=(β02,β12b条,β22c(c),β03,β13b条,β23c(c))=(0.6,1.3,.65,0.5,1.2,0.5)和用于 γ=0.5,即使样本量不同,响应类别的百分比分布也大致相等。在这种齐次条件下,结果表明,在存在分离(完全或准完全)的情况下,MLE要么无法实现收敛,要么如果实现了,就提供了回归系数的较大估计值 (β12b条,β22c(c),β13b条,β23c(c))(表). 收敛失败的次数随着样本量的增加而减少。MLE还报告了较大的SE,尤其是回归系数 (β12b条,β13b条)与二元协变量相关( X(X)b条),这造成了分离。相反,PMLE在所有这些情况下都实现了收敛,并提供了回归系数的有限估计。特别是,PMLE略微高估了回归系数的真实值 (β12b条,β13b条)与关联 X(X)b条低估了与 X(X)c(c)对于所有其他模拟场景,可以观察到类似的结果,并有分离的证据(结果未显示)。由于MLE表现出收敛失败、估计中存在大量偏差和高SE,因此我们仅限于评估其他属性,如MSE和这些场景的置信区间覆盖率。

表3。

完全或准完全分离下MLE和PMLE的估计。估计值是1000个模拟中在样本大小下发生完全或准完全分离的模拟数的平均值N个 = 20、30和 γ=0.5.

样本大小 真系数 方法 N.Sim公司 N.Conv.故障 估算 东南方 模拟证券交易所
20 β12b条=1.3 MLE公司 215   19 5.66 62.91 26.83
    PMLE公司     0 2.10 1.72 1.38
  β13b条=1.2 MLE公司     10 7.55 59.30 5.91
    PMLE公司     0 2.20 1.73 1.48
  β22c(c)=0.65 MLE公司     10 1.13 1.34 2.02
    PMLE公司     0 0.61 0.82 0.81
  β23c(c)=0.5 MLE公司     5 0.93 1.32 1.99
    PMLE公司     0 0.50 0.82 0.86
30 β12b条=1.3 MLE公司 62   8 8.88 74.85 5.80
    PMLE公司     0 2.77 1.60 1.33
  β13b条=1.2 MLE公司     7 7.06 61.83 6.75
    PMLE公司     0 2.29 1.51 1.57
  β22c(c)=0.65 MLE公司     0 0.93 0.81 0.95
    PMLE公司     0 0.63 0.68 0.68
  β23c(c)=0.5 MLE公司     0 0.74 0.78 0.97
    PMLE公司     0 0.54 0.66 0.70

注:γ,二元协变量中事件的比例;N.Sim,发生完全或准完全分离的模拟集数量;N.Conv.失败,无法收敛的模拟集数量;SimSE,模拟标准误差。

对于具有近距离分离证据的模拟,与二元协变量相关的系数的偏差量和MSE随着样本量的增加而减少,这对于MLE和PMLE都是如此(图2). 然而,与MLE相关的偏差和MSE相比,PMLE的偏差量和MSE均较低。随着真实回归系数的增加,MLE和PMLE的偏差量和MSE都略有增加( β12b条 β13b条)与二元协变量相关(图). 与MLE相比,PMLE显示出明显较低的偏差和MSE。当事件比例约为0.5时,观察到这两种估计的偏差和MSE略低(图4). 和往常一样,PMLE显示出比MLE更小的偏移量和MSE。此外,我们通过增加二进制协变量的数量来评估MLE和PMLE的性能(K(K)). 结果表明,MLE和PMLE中的偏倚量和MSE都随着二元协变量数量的增加而增加,但MLE的偏倚性和MSE大于PMLE(图5).

图2。

图2。

MLE和PMLE估计值的偏差和MSE β12b条 β13b条(进行近距离分离的二进制协变量系数)超过样本大小,其中Max.MCE是最大蒙特卡罗误差。

图3。

图3。

MLE和PMLE估计值的偏差和MSE β12b条 β13b条(使接近分离的二元协变量的系数)超过N个 = 50,其中Max.MCE是最大蒙特卡罗误差。

图4。

图4。

MLE和PMLE估计值的偏差和MSE β12b条 β13b条(使二元协变量接近分离的系数)超过N个 = 50,其中Max.MCE是最大蒙特卡罗误差。

图5。

图5。

的MLE和PMLE估计的偏差和MSE β12b条 β13b条(进行近距离分离的二进制协变量系数)超过二进制协变量数量,其中Max.MCE是最大蒙特卡罗误差。 MSE值较高,接近100。

对于回归系数 (β22c(c),β23c(c))在不负责产生近距离分离的连续协变量中,MLE和PMLE与产生近距离隔离的二进制协变量相比,通常提供的偏差和MSE较小(图6). 这里,当样本量较小时,MLE在一定程度上报告了偏差和MSE,并且偏差量和MSE随着样本量的增加而减少。相比之下,即使是小样本,PMLE的偏差和MSE也可以忽略不计。

图6。

图6。

MLE和PMLE估计值的偏差和MSE β22c(c) β23c(c)(使近距离分离的连续协变量的系数)超过样本大小,其中Max.MCE是最大蒙特卡罗误差。

表中总结了模拟集的MLE和PMLE的一些附加结果(分析SE、SimSE、置信区间宽度和覆盖范围),这些结果具有接近分离的证据4结果表明,在存在近距离分离的情况下,MLE和PMLE都实现了收敛,并为回归系数提供了有限的估计。然而,与PMLE相关的置信区间相比,MLE提供了较大的SE估计值(但小于模拟SE)和更宽的置信区间。

表4。

存在近距离分离时MLE和PMLE的估计。估计值是在样本大小和 γ=0.5.

样本大小 真系数   估算 东南方 模拟证券交易所 SE/SimSE公司 Conf.宽度 Cov(%)
30 β12b条=1.3 MLE公司 1.47 1.21 1.98 0.61 5.02 98
    PMLE公司 1.18 1.08 0.94 1.15 4.46 98
  β13b条=1.2 MLE公司 1.38 1.19 1.98 0.61 4.90 98
    PMLE公司 1.11 1.06 0.95 1.12 4.37 99
  β22c(c)=0.65 MLE公司 0.84 0.68 1.47 0.46 2.81 99
    PMLE公司 0.64 0.58 0.60 0.97 2.41 99
  β23c(c)=0.5 MLE公司 0.66 0.66 1.45 0.45 2.74 97
    PMLE公司 0.50 0.57 0.60 0.95 2.35 99
50 β12b条=1.3 MLE公司 1.43 0.84 0.91 0.92 3.39 96
    PMLE公司 1.28 0.81 0.80 1.01 3.28 97
  β13b条=1.2 MLE公司 1.29 0.82 0.85 0.96 3.31 96
    PMLE公司 1.16 0.80 0.75 1.07 3.21 98
  β22c(c)=0.65 MLE公司 0.75 0.45 0.51 0.88 1.81 95
    PMLE公司 0.66 0.43 0.44 0.98 1.74 97
  β23c(c)=0.5 MLE公司 0.58 0.43 0.48 0.89 1.75 97
    PMLE公司 0.51 0.42 0.42 1 1.69 98

注:γ,二元协变量中事件的比例;SimSE,模拟标准误差;Conf.宽度,置信宽度;Cov,覆盖范围。

3.3.2. 案例2:反应类别的异质分布

对于参数集 β=(β02,β12b条,β22c(c),β03,β13b条,β23c(c))=(0.3,1.3,.65,0.1,1.2,0.5)和用于 γ=0.5,即使样本大小不同,反应类别的百分比分布也是异质的(不相等)。在这种异质条件下,在存在收敛失败的完全或准完全分离以及回归系数(尤其是与二元协变量相关的回归系数)MLE的无限大估计的情况下,可以观察到类似的结果模式(补充表A.2)。相比之下,PMLE通过实现收敛和提供有限估计而表现出更大的改进。在非均质情况下,完全分离或准完全分离的模拟次数大于均质情况。具有此类条件的模拟次数随着样本大小的增加而减少。在所有其他模拟场景中也观察到类似的结果,有证据表明完全或准完全分离(结果未显示)。

在存在近距离分离的情况下,结果表明,MLE和PMLE中的MSE量都随着样本量的增加而减少,与MLE估计值相关的MSE相比,PMLE估计值中的MSE较低(补充图A.1)。再次,与实际效应大小和二元协变量比例的任何值相比,MLE的MSE量显著高于PMLE。对于连续协变量的回归系数 (β22c(c),β23c(c))与与二进制协变量系数相关的MSE相比,MLE和PMLE通常提供的MSE量较小 (β12b条,β13b条)这造成了近距离的分离。在此,PMLE提供的MSE数量也相对小于MLE(补充图A.2)。MSE也随着样本量的增加而降低,对于大样本,MLE和PMLE提供了可比较的结果。与响应类别均匀分布的结果一样,这里可以观察到类似的结果模式,SE值较大,与PMLE相比,MLE的置信区间更宽(补充表A.3)。

4.应用于分析健康寻求行为数据

4.1. 数据和变量

通过美国国际人口基金会(ICF International)国家人口研究与培训研究所(NIPORT)、,Mitra and Associates是全球人口与健康调查(DHS)计划的一部分。BDHS是一项具有全国代表性的横断面调查,采用了两阶段分层整群抽样方案,在第一阶段,从七个行政区划中的每个行政区划中随机选择枚举区(75%来自农村地区,25%来自城市地区),在第二阶段,根据系统抽样方法从每个选定的EA中选择家庭[25]. 这种国家一级调查的主要目的是为决策者提供关于健康和人口指标的最新事实和数字。

在调查之前的两周内,收集了所有5岁以下儿童的儿童寻求健康行为信息(选择服务提供商/设施),以了解他们的疾病(由于腹泻、ARI、发烧)。在所有孩子中(n个 = 据报道,406人患有ARI,2768人发烧,371人腹泻。有关为患病儿童选择服务提供者的信息也从受访者(他们的父母和照料者)那里收集。在患有任何疾病的儿童中,355名ARI儿童、1999年发烧儿童和280名腹泻儿童接受了医疗机构的治疗。寻求健康的行为被定义为他们选择服务提供者或他们最初寻求治疗的地方。结果变量“卫生设施的选择”分类为

  1. 当地设施——药店的毒贩或不合格的医生,如所谓未经培训的乡村医生,

  2. 公共设施——公立医院、地区医院、妇幼福利中心、乌帕齐拉卫生院或其他公共部门,

  3. 私人设施——私人医院、非政府组织静态诊所、私人商会或其他私营部门。

在这些设施中,最昂贵的是私人设施,其次是公共设施和当地设施。当地的医疗机构配备了所有不合格的医疗服务提供者,他们基本上是销售药品的,因此大多数时候他们只收取药品费用,而不收取咨询费用。一般来说,来自贫困家庭的人寻求此类当地设施的治疗[1]. 此外,由于缺乏知识,一些人经常使用这些设施,即使在大多数情况下,政府设施以非常低的成本提供卫生服务。然而,政府机构往往缺乏医疗服务提供者,因此需要时间才能获得服务。

这里考虑了几个协变量,包括财富指数(最贫穷、较贫穷、中等、较富有、最富有)、居住地(城市、农村)、父母的当前工作状态(是或否)、母亲的教育程度(无、小学、中学、高年级)和受访者的年龄。其中,财富指数(父母的社会经济地位)被认为是一个有影响力的协变量,可能会极大地影响卫生设施的选择,因为上述三个设施的医疗费用显著不同。

4.2. 分析和结果

由于本次调查采用了两阶段分层抽样方案,其中城市和农村是两个重要的阶层,因此,除了国家估算之外,获取城市和农村阶层的单独估算是决策者为国家城乡部分制定适当政策的主要关注点。因此,除了使用完整数据集进行组合分析外,我们还对城市和农村阶层进行了单独分析。每种疾病(ARI/发烧/腹泻)的结果变量(设施选择)列联表的汇总统计表明,城市样本与ARI和腹泻相关的结果变量由财富指数分开(表2)而发热患者几乎由相同的协变量分开(接近分开)(结果未显示)。对于农村样本,ARI和腹泻的结果变量也几乎被财富指数分开。教育水平也为ARI和城市样本腹泻创造了一种近距离分离(结果未显示)。

对于每种儿童疾病(ARI、发烧、腹泻)的卫生设施选择,分别对城市和农村阶层的MLE和PMLE版本的多项式模型以及合并数据进行拟合。再次,由于本次调查的抽样设计基于多阶段设计,因此我们拟合了包含住户抽样权重的模型,并报告了回归系数及其SE的加权估计。在每个模型中,我们探索了父母疾病(ARI、发烧、腹泻)求医行为之间的关系协变量包括财富指数、居住地、当前工作状态、母亲教育程度和受访者年龄。此外,在每个模型中,我们将公共和私人设施与当地设施作为参考类别进行了比较。使用MLE和PMLE拟合的每个模型的有效性统计(AIC、偏差残差、似然比检验和Hosmer–Lameshow检验)显示出可比较的结果(表5). 所有模型的拟合优度(表中不同类型疾病和子组的模型68)发现至少一个适用于此处的良好性标准是令人满意的。

表5。

使用MLE和PMLE对来自不同人群(城市、农村和两者)的儿童ARI、发烧和腹泻治疗寻求健康行为数据进行拟合的模型的良好统计。

    急性呼吸道感染 发烧 腹泻
  标准 MLE公司 PMLE公司 MLE公司 PMLE公司 MLE公司 PMLE公司
城市的 AIC公司 157.85 159.60 928.80 929.03 191.29 193.34
  剩余偏差 121.85 123.60 888.80 889.03 151.28 153.34
  原木类木材 −60.93 −61.80 −444.40磅 −444.51 −75.64 −76.67
  似然比检验 31.41* 29.67* 94.32* 94.09* 26.58 24.54
  Hosmer–Lemeshow测试 22.50 17.31 39.84* 40.85美元* 17.64 17.43
农村 AIC公司 554.78 555.18 2378.89 2379.02 430.02 430.56
  剩余偏差 518.78 519.18 2338.89 2339.02 390.02 390.56
  原木类木材 −259.39 −259.59 −1169.50 −1169.51 −195.01 −195.28
  似然比检验 41.86* 41.47* 149.66* 149.53* 72.94* 72.40*
  Hosmer–Lemeshow测试 16.75 20.12 23.58 23.02 31.22* 32.52*
两者 AIC公司 705.39 705.63 3312.13 3312.21 624.74 625.09
  剩余偏差 665.39 665.63 3268.13 3268.21 580.74 581.09
  原木类木材 −332.69 −332.82 −1634.10 −1634.12 −290.37 −290.54磅
  似然比检验 58.24* 57.99* 254.85* 254.76* 85.32* 84.98*
  Hosmer–Lemeshow测试 17.75 21.66 21.12 19.60 21.84 20.25

注:AIC、Akaike信息准则;LR,似然比;*,显著的测试统计。

表6。

将MLE和PMLE拟合到儿童寻求健康行为数据中,以治疗ARI。

    MLE公司   PMLE公司
      公共    私人   公共 私人
  协变量 或(SE) P(P)-价值 或(SE) P(P)-价值   或(SE) P(P)-价值 或(SE) P(P)-价值
城市的 财富                  
  最穷的 (钢筋混凝土)                
  穷人 24.98 (50.71) 6.42 ×105(0.73 ×106)   11.24(20.68) 14.72 (32.24)
  中部 16.91 (0.52 ×10) 9.54 ×105(0.73 ×106)   8.80(14.52) 21.06 (41.27)
  更富有 4.16(5.91) 2.28 ×105(0.15 ×106)   2.66(3.46) 6.06(10.97)
  最富有的 4.24 (7.04) 1.12 ×106(0.78 ×106)   2.76(4.14) 25.18 (46.83)
                     
  教育类                  
  (钢筋混凝土)                
  主要 0.03 (0.04) 0.53(0.94)   0.07(0.09) 0.54 (0.78)
  次要 0.12 (0.17) 1.04(1.85)   0.19(0.24) 1.01 (1.44)
  较高的 0.39 (0.74) 2.08(4.49)   0.51(0.89) 1.50 (2.76)
                     
  年龄 1.09 (0.07) 1.02(0.05)   1.07(0.06) 1.02 (0.05)
                     
农村 财富                  
  最穷的 (钢筋混凝土)                
  穷人 0.41 (0.18) 0.039 2.57(1.08) 0.024   0.42 (0.18) 0.046 2.49 (1.02) 0.028
  中部 0.17 (0.10) 0.004 1.51 (0.69) 0.373   0.19 (0.11) 0.005 1.49 (0.69) 0.381
  更富有 0.34 (0.22) 0.093 2.83 (1.42) 0.037   0.38 (0.24) 0.117 2.75 (1.38) 0.041
  最富有的 0.39(0.39) 0.341 5.69 (3.70) 0.007   0.48 (0.44) 0.422 5.30 (3.44) 0.009
                     
  教育类                  
  (钢筋混凝土)                
  主要 5.78 (4.10) 0.013 1.26(0.60) 0.635   4.90 (3.28) 0.017 1.22 (0.59) 0.678
  次要 4.34(3.30) 0.054 1.41 (0.69) 0.487   3.70 (2.66) 0.069 1.36 (0.67) 0.530
  较高的 9.26 (11.48) 0.073 0.70 (0.68) 0.709   8.15 (9.62) 0.075 0.77 (0.74) 0.783
                     
  年龄 1.06 (0.03) 0.073 1.05(0.03) 0.052   1.06 (0.03) 0.075 1.05 (0.03) 0.061
                     
两者 财富                  
  最穷的 (钢筋混凝土)                
  穷人 0.50 (0.21) 0.087 2.80 (1.15) 0.012   0.51 (0.21) 0.101 2.71 (1.11) 0.014
  中部 0.21 (0.11) 0.003 1.96 (0.85) 0.122   0.23 (0.12) 0.004 1.91 (0.82) 0.130
  更富有 0.31(0.16) 0.023 2.25 (1.03) 0.076   0.33 (0.17) 0.030 2.20 (0.99) 0.081
  最富有的 0.31 (0.23) 0.106 6.82 (3.63) 0   0.35 (0.25) 0.131 6.35 (3.37) 0
                     
  住宅                  
  城市的 (钢筋混凝土)                
  农村 0.35 (0.15) 0.016 0.59 (0.21) 0.131   0.36 (0.15) 0.018 0.59 (0.21) 0.139
                     
  教育类                  
  (钢筋混凝土)                
  主要 2.06 (0.98) 0.130 1.38 (0.62) 0.475   1.96 (0.92) 0.153 1.34 (0.60) 0.517
  次要 1.79 (0.95) 0.273 1.66 (0.76) 0.268   1.70 (0.88) 0.308 1.60 (0.72) 0.302
  较高的 4.68 (4.23) 0.088 1.28 (0.99) 0.747   4.42 (3.93) 0.094 1.27 (0.98) 0.754
                     
  年龄 1.06 (0.03) 0.050 1.04 (0.02) 0.081   1.05 (0.03) 0.054 1.04 (0.02) 0.092

注:OR,比值比;SE,标准误差;P(P),P(P)-价值;RC,参考类别。

表8。

将MLE和PMLE拟合到儿童寻求健康行为治疗腹泻的数据中。

    MLE公司   PMLE公司
      公共    私人   公共 私人
  协变量 或(SE) P(P)-价值 或(SE) P(P)-价值   或(SE) P(P)-价值 或(SE) P(P)-价值
城市的 财富                  
  最穷的 (钢筋混凝土)                
  穷人 8.53 (25.38) 12.7 ×10(15.7 ×10)   4.38 (0.76) 0.238 2.64 (0.22) 0.098
  中部 3.83 (8.57) 28.3 ×10(24.9 ×10)   2.99 (0.77) 0.456 4.75 (0.52) 0.740
  更富有 1.14 ×101(0.23) 1.70 ×104(11.6 ×10)   0.19 (0.41) 0.445 3.14 (0.31) 0.331
  最富有的 6.15 ×101(1.24) 4.50 ×104(32.7 ×10)   0.76 (0.78) 0.812 7.71 (0.80) 0.360
  工作                  
  (钢筋混凝土)                
  是的 3.72 (4.12) 0.370 1.70(1.43) 0.234   2.98 (0.16) 0.021 1.53 (0.16) 0.022
  教育类                  
  (钢筋混凝土)                
  主要 0.12 (0.35) 0.448 0.57(0.77) 0.680   0.34 (0.16) 0.023 0.64 (0.46) 0.805
  次要 8.26 (19.17) 0.363 0.43 (0.57) 0.521   3.88 (0.25) 0.190 0.50 (0.84) 0.272
  较高的 5.04 (12.07) 0.499 0.70 (0.98) 0.794   2.78 (0.61) 0.830 0.73 (2.00) 0.079
  年龄 1.03 (0.09) 0.753 0.91 (0.06) 0.148   1.02 (0.03) 0.059 0.92(0.03) 0.331
农村 财富                  
  最穷的 (钢筋混凝土)                
  穷人 1.80 (0.83) 0.205 0.40 (0.20) 0.075   1.73 (0.79) 0.226 0.43 (0.21) 0.087
  中部 1.52 (0.90) 0.480 0.94 (0.47) 0.911   1.51 (0.87) 0.477 0.96 (0.48) 0.933
  更富有 1.50 (1.11) 0.584 0.27 (0.19) 0.062   1.53 (1.09) 0.551 0.30 (0.21) 0.083
  最富有的 1.33 (1.28) 0.765 1.22 (0.78) 0.754   1.45(1.33) 0.685 1.21 (0.77) 0.764
  工作                  
  (钢筋混凝土)                
  是的 0.18 (0.11) 0.005 0.21 (0.11) 0.004   0.21 (0.12) 0.006 0.23 (0.12) 0.005
  教育类                  
  (钢筋混凝土)                
  主要 0.41 (0.20) 0.063 0.70 (0.46) 0.586   0.42 (0.20) 0.070 0.69 (0.44) 0.568
  次要 0.39 (0.20) 0.068 3.42(1.96) 0.032   0.41 (0.21) 0.078 3.11 (1.74) 0.042
  较高的 0.91 (0.81) 0.917 7.56 (6.09) 0.012   0.95 (0.82) 0.952 6.45 (5.12) 0.019
  年龄 1.09(0.04) 0.033 0.97 (0.03) 0.355   1.08(0.04) 0.042 0.97 (0.03) 0.386
两者 财富                  
  最穷的 (钢筋混凝土)                
  穷人 1.73(0.77) 0.217 0.45 (0.21) 0.086   1.68 (0.76) 0.238 0.47 (0.22) 0.098
  中部 1.49 (0.79) 0.453 1.16 (0.52) 0.742   1.48 (0.77) 0.456 1.16 (0.52) 0.740
  更富有 0.56 (0.39) 0.404 0.60 (0.30) 0.304   0.60 (0.41) 0.445 0.62 (0.31) 0.331
  最富有的 1.16 (0.79) 0.831 1.60 (0.81) 0.350   1.17 (0.78) 0.812 1.59 (0.80) 0.360
  住宅                  
  城市的 (钢筋混凝土)                
  农村 0.43 (0.22) 0.106 0.38 (0.14) 0.011   0.45 (0.23) 0.115 0.40 (0.15) 0.014
  工作                  
  (钢筋混凝土)                
  是的 0.32 (0.15) 0.016 0.39 (0.15) 0.016   0.34 (0.16) 0.021 0.41 (0.16) 0.022
  教育类                  
  (钢筋混凝土)                
  主要 0.33 (0.16) 0.019 0.90 (0.48) 0.841   0.35 (0.16) 0.023 0.88 (0.46) 0.805
  次要 0.54 (0.25) 0.179 1.80(0.90) 0.239   0.55 (0.25) 0.190 1.71 (0.84) 0.272
  较高的 0.83 (0.60) 0.798 3.38 (2.20) 0.061   0.86 (0.61) 0.830 3.10 (2.00) 0.079
  年龄 1.07 (0.04) 0.048 0.97 (0.03) 0.313   1.06 (0.03) 0.059 0.97 (0.03) 0.331

注:OR,比值比;SE,标准误差;P(P),P(P)-价值;RC,参考类别。

城市阶层的结果显示,MLE提供了与财富指数相关的比值比的无限大估计,财富指数在ARI导致的疾病的结果(卫生设施的选择)中产生了准完全分离,这是不可解释的(表6). 相反,PMLE提供了与相应协变量相关的相对较小的比值比。此外,与MLE相比,PMLE提供的其他与教育相关的OR估计值相对较小。当该模型适用于农村阶层(样本规模大于城市阶层)时,MLE和PMLE之间的估计值也存在显著差异,尤其是与财富指数相关的OR,该指数产生了近距离分离,PMLE的值相对较小。对于组合数据,观察到两种方法之间的估计值相差可以忽略不计。

发热数据相对较大,除了城市阶层中的近距离分离外,没有证据表明完全分离。然而,由于城市阶层腹泻数据中的财富指数和农村阶层中的某种接近分离,有证据表明存在分离。在发热分析中观察到类似结果(表7)和腹泻(表8)存在分离时回归系数估计值存在显著差异的数据,有近分离迹象时差异较小,无任何分离迹象时相差可以忽略。

表7。

将MLE和PMLE拟合到儿童发热寻求健康行为数据的总结。

    MLE公司   PMLE公司
      公共    私人   公共 私人
  协变量 或(SE) P(P)-价值 或(SE) P(P)-价值   或(SE) P(P)-价值 或(SE) P(P)-价值
城市的 财富                  
  最穷的 (钢筋混凝土)                
  穷人 1.13 (0.72) 0.845 2.95(2.02) 0.114   1.14 (0.71) 0.827 2.77 (1.86) 0.129
  中部 0.95 (0.50) 0.916 1.15 (0.75) 0.833   0.94 (0.49) 0.906 1.11 (0.70) 0.874
  更富有 1.14(0.53) 0.784 3.54 (1.94) 0.021   1.11 (0.51) 0.826 3.24 (1.72) 0.028
  最富有的 0.43 (0.21) 0.089 4.86 (2.63) 0.003   0.43(0.21) 0.086 4.42 (2.33) 0.004
  工作                  
  (钢筋混凝土)                
  是的 1.20 (0.39) 0.581 1.41(0.38) 0.200   1.20 (0.39) 0.566 1.40 (0.37) 0.211
  教育类                  
  (钢筋混凝土)                
  主要 1.67 (0.83) 0.304 2.07 (0.93) 0.106   1.60 (0.78) 0.332 1.98 (0.88) 0.123
  次要 1.76 (0.85) 0.242 3.76 (1.57) 0.001   1.68 (0.80) 0.273 3.55 (1.46) 0.002
  较高的 9.28(5.24) 0 11.44 (5.57) 0   8.47 (4.70) 0 10.50 (5.06) 0
  年龄 1.01 (0.03) 0.621 1.00 (0.02) 0.838   1.01 (0.03) 0.605 1.00 (0.02) 0.844
农村 财富                  
  最穷的 (钢筋混凝土)                
  穷人 0.87(0.22) 0.586 1.82 (0.43) 0.010   0.88 (0.22) 0.602 1.81 (0.42) 0.011
  中部 1.27 (0.30) 0.312 3.71 (0.80) 0   1.26 (0.30) 0.309 3.6 (0.78) 0
  更富有 0.88 (0.25) 0.635 2.28 (0.57) 0.001   0.88 (0.24) 0.654 2.26(0.56) 0.001
  最富有的 0.35 (0.17) 0.027 6.24 (1.72) 0   0.37 (0.17) 0.032 6.13 (1.68) 0
  工作                  
  (钢筋混凝土)                
  是的 0.68 (0.14) 0.050 0.55 (0.10) 0   0.68 (0.13) 0.053 0.56 (0.09) 0.001
  教育类                  
  (钢筋混凝土)                
  主要 0.77 (0.20) 0.322 0.75(0.17) 0.213   0.77 (0.20) 0.316 0.75 (0.17) 0.211
  次要 1.12 (0.30) 0.667 0.87 (0.19) 0.521   1.11 (0.29) 0.686 0.87 (0.19) 0.511
  较高的 3.51 (1.33) 0.001 1.53 (0.48) 0.173   3.47 (1.31) 0.001 1.52 (0.47) 0.178
  年龄 1.02(0.02) 0.163 0.98 (0.01) 0.073   1.02 (0.02) 0.160 0.98 (0.01) 0.077
                     
两者 财富                  
  最穷的 (钢筋混凝土)                
  穷人 0.89 (0.21) 0.615 1.82 (0.40) 0.007   0.89 (0.21) 0.629 1.81 (0.40) 0.007
  中部 1.22 (0.26) 0.349 3.02 (0.61) 0   1.21(0.25) 0.347 2.99 (0.60) 0
  更富有 0.92 (0.21) 0.732 2.46 (0.53) 0   0.93 (0.21) 0.740 2.44 (0.52) 0
  最富有的 0.37 (0.11) 0.001 4.99(1.12) 0   0.38 (0.12) 0.002 4.93 (1.11) 0
  住宅                  
  城市的 (钢筋混凝土)                
  农村 0.49 (0.09) 0 0.72 (0.10) 0.019   0.49 (0.09) 0 0.72 (0.10) 0.019
  工作                  
  (钢筋混凝土)                
  是的 0.77(0.13) 0.124 0.72 (0.10) 0.015   0.78 (0.13) 0.129 0.72 (0.10) 0.016
  教育类                  
  (钢筋混凝土)                
  主要 0.91(0.21) 0.674 0.90 (0.18) 0.603   0.91 (0.21) 0.665 0.89 (0.20) 0.595
  次要 1.19 (0.27) 0.455 1.22 (0.23) 0.297   1.18 (0.27) 0.471 1.21 (0.23) 0.308
  较高的 4.40 (1.33) 0 2.78(0.69) 0   4.33 (1.31) 0 2.75 (0.68) 0
  年龄 1.02 (0.01) 0.158 0.99 (0.01) 0.240   1.01 (0.01) 0.155 0.99 (0.01) 0.245

注:OR,比值比;SE,标准误差;P(P),P(P)-价值;RC,参考类别。

5.讨论

完全分离或近距离分离(部分分离)是模型拟合过程中的一个严重问题。虽然具有完全或准完全分离的数据很少,但几乎分离的数据(近距离分离)在实践中非常常见。然而,有必要探索数据条件(经验法则)来定义近距离。本研究确定了一个阈值( <15%)二元协变量列联表中至少一个单元格中观察到的计数和结果。此外,本研究研究了基于最大似然的标准多项式模型中分离和近分离的后果,并通过对多项式响应应用惩罚似然泊松回归来解决这些问题。仿真结果表明,在存在完全或准完全分离的情况下,MLE往往无法实现收敛和/或对回归系数和Wald-置信区间提供了较大或无限的估计,这是不可解释的。相比之下,PMLE通过实现收敛并提供具有极小偏差的有限估计以及相应回归系数的MSE,显示出了很大的改进。在存在近距离分离的情况下,标准MLE在估计与创建近距离分离协变量相关的回归系数时提供了大量偏差和MSE。据报道,对于小样本、大的真实回归系数、二元协变量的事件和非事件的不均匀分布,偏差和MSE的量相对较高。因为对于每一种情况,这种近距离分离的可能性都很高。对于所有这些场景,PMLE通过在一定程度上减少偏差和MSE,并提供更窄的置信区间和准确的覆盖范围,显示出了对MLE的改进。即使是大样本的罕见结果类别,MLE仍然提供了大量的偏差和MSE,而PMLE在一定程度上提供了改善。

相反,与不负责产生任何分离的连续协变量相关联的回归系数的MLE和PMLE的偏差量和MSE相对低于与二元协变量相关的回归系数。同样,当样本量较小时,PMLE报告的偏差和MSE数量小于MLE。

这项研究还扩展了惩罚估计方法,通过结合个人调查权重(逆概率加权)来分析复杂调查的数据,并提供了分析健康寻求行为(儿童疾病医疗机构的选择)的方法的应用有分离或近分离迹象的数据。结果支持模拟结果。本文的所有发现与参考文献[4]研究了Firth类型惩罚估计和多项式logistic回归MLE中的有限样本偏差。然而,他们忽略了与多项式结果中的近距离分离相关的问题,即使是结果类别罕见的中到大样本也可能经常出现这种情况。

最后,在协变量产生的分离或近分离存在的情况下,通过泊松回归框架对多项式logit模型进行的PMLE显示出相对于基于MLE的标准多项式logit模式的显著改进。据报道,当样本量较小甚至较大,但一个或多个结果类别的流行率较低,或者存在许多有影响力的协变量或它们的组合时,分离或近分离的可能性较高,并且这种分离导致的问题对于多项式响应来说是不可忽略的。根据研究结果,如果样本量较小,我们建议使用PMLE (n个50)再次,如果样本量很大,我们建议探索数据,以确定任何分离或接近分离的证据,如果存在,建议使用PMLE。

本研究探讨了使用惩罚方法来分析复杂调查中的稀疏多项式数据,然而,还需要进一步研究,以开发与惩罚最大似然法相一致的适当的优缺点方法。最近的一些研究中讨论了基于残差的完好性评估[13,14]除了Akaike信息标准、Hosmer–Lameshow检验和似然比检验等传统方法外,这可能是一种替代方法。

补充材料

补充_附录

致谢

作者承认DHS项目为本研究提供数据的权威性。作者还感谢副主编的贡献,两位匿名审稿人在整个审稿过程中提出了建设性意见和反馈。

披露声明

提交人没有报告任何潜在的利益冲突。

工具书类

  • 1Andaleeb S.S.,《孟加拉国的公立和私立医院:服务质量和医院选择的预测因素》,J.Health Policy Plann。15(2000),第95-102页。[内政部] [公共医学] [谷歌学者]
  • 2Anderson J.A.和Richardson S.C.,最大似然估计中的逻辑判别和偏差校正,Technometrics21(1979年),第71-78页。[谷歌学者]
  • 三。Bull S.B.、Hauck W.W.和Greenwood C.M.T.,逻辑回归MLE的两步折刀偏差减少,Commun。统计模拟。计算。23(1994年),第59-88页。[谷歌学者]
  • 4Bull S.B.、Mak C.和Greenwood C.M.T.,小样本多项式logistic回归的修正得分函数估计,计算。统计数据分析。39(2002),第57-74页。[谷歌学者]
  • 5Cook S.J.、Niehaus J.和Zuhlke S.,多项式逻辑模型中分离的警告,《政治研究》。5(2018年),第1-5页。[谷歌学者]
  • 6Copas J.B.,污染数据的二元回归模型,J.R.Stat.Soc.:Ser。B(方法学)50(1988年),第225-253页。[谷歌学者]
  • 7Cordeiro G.M.和McCullagh P.,广义线性模型中的偏差修正,J.R.Stat.Soc.:Ser。B(方法学)53(1991),第629-643页。[谷歌学者]
  • 8Cox D.R.和Snell E.J.,残差的一般定义,J.R.Stat.Soc.Ser。B(方法学)43(1968年),第248-275页。[谷歌学者]
  • 9Dobson A.J.和Barnett A.G。,广义线性模型简介,CRC出版社(查普曼和霍尔图书),伦敦,纽约,2018年。[谷歌学者]
  • 10Firth D.,最大似然估计的偏差减少,生物统计学80(1993),第27-38页。[谷歌学者]
  • 11Fitzmaurice G.M.、Harrington D.P.、Parzen M.、Sinha D.、Rader K.A.和Lipsitz S.R.,《应用于美国全国住院患者样本的复杂调查logistic回归模型的偏差校正估计》,《统计方法医学研究》。26(2017年),第2257–2269页。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
  • 12Frischknecht B.D.、Eckert C.、Geweke J.和Louviere J.J.,纳入先验信息以克服离散选择模型估计中的完全分离问题。技术报告,悉尼科技大学,2013年。
  • 13Goeman J.J.和le Cessie S.,多项logistic回归的良好检验,生物统计学62(2006),第980-985页。[内政部] [公共医学] [谷歌学者]
  • 14Goeman J.J.和le Cessie S.,《处理长数据集情况下逻辑回归模型中的准完全分离现象和拟合优度检验》,Stat.Biosci。11(2019年),第567–596页。[谷歌学者]
  • 15Heinze G.,《分离或接近分离数据的逻辑回归方法的比较研究》,Stat.Med。25(2006),第4216–4226页。[内政部] [公共医学] [谷歌学者]
  • 16Heinze G.和Schemper M.,逻辑回归中分离问题的解决方案,Stat.Med。21(2002),第2409-2419页。[内政部] [公共医学] [谷歌学者]
  • 17Kosmidis I.和Firth D.,指数族非线性模型中的偏差减少,生物统计学96(2009),第793-804页。[谷歌学者]
  • 18Kosmidis I.和Firth D.,通过泊松对数线性模型减少多项式logit偏差,生物统计学98(2011),第755-759页。[谷歌学者]
  • 19Lipsitz S.R.、Fitzmaurice G.M.、Regenbogen S.E.、Sinha D.、Ibrahim J.G.和Gawande A.A.,应用于外科并发症研究的比例优势逻辑回归模型的偏差校正,J.R.Stat.Soc.:Ser。C(应用统计)62(2013),第233-250页。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
  • 20Mondol M.H.和Rahman M.S.,《利用较小或稀疏的纵向二进制数据减少偏差和防止分离的GEE》,《Stat.Med.38》(2019年),第2544–2560页。[内政部] [公共医学] [谷歌学者]
  • 21Noh M.和Lee Y.,GLMM中二进制数据的REML估计,J.Multivar。分析。98(2007),第896–915页。[谷歌学者]
  • 22Puhr R.和Heinze G.,《小数据集或稀疏数据集的偏差减少和防分离条件logistic回归》,Stat.Med。29(2010年),第770-777页。[内政部] [公共医学] [谷歌学者]
  • 23Schaefer R.L.,最大似然逻辑回归中的偏差修正,Stat.Med。2(1983年),第71-78页。[内政部] [公共医学] [谷歌学者]
  • 24Siino M.、Fasola S.和Muggeo V.M.R.,《小数据和稀疏数据惩罚逻辑回归中的推断工具:比较研究》,《统计方法医学研究》。27(2018),第1365-1375页。[内政部] [公共医学] [谷歌学者]
  • 25NIPORT:IFC-International和Mitra-Associate,孟加拉国人口与健康调查达卡国家人口研究与培训研究所(NIPORT),2014年。

关联数据

本节收集本文中包含的任何数据引用、数据可用性声明或补充材料。

补充资料

补充_附录

《应用统计杂志》的文章由提供泰勒&#x0026;弗兰西斯

资源