J非参数统计。作者手稿;PMC 2020年10月2日提供。
以最终编辑形式发布为:
预防性维修识别码:PMC7531040型
NIHMSID公司:美国国家卫生研究院1540645
基于不可忽视缺失数据的非传统似然估计及其在儿童心理健康研究中的应用
*,1和1
迟晨(Chi Chen)
1纽约州立大学布法罗分校生物统计学系
摘要
在结果与受试者行为相关的研究中,不可忽视的缺失数据很常见。Ibrahim等人(2001年)对具有不可忽略缺失数据的二元结果进行logistic回归拟合,他们建议用完全可观测的辅助变量替换机制模型中的结果。他们必须正确指定辅助变量的模型;不幸的是,受不可忽视缺失影响的结果变量仍然存在。这个模型的正确规格很神秘。相反,我们提出了两种非传统的基于似然的估计方法,可以完全绕过不可忽略的丢失机制模型。我们将我们提出的方法应用于儿童心理健康研究,并将其与现有方法进行比较。提出的估计量的大样本性质得到了严格证明,并通过全面的模拟研究检验了其有限样本行为。
关键词:不可忽视的缺失数据、Missingness机制、非常规似然、伪似然、条件似然、渐近正态
1 介绍
在临床试验和观察研究等各种生物医学研究中,数据缺失问题是一个严重的问题(Ibrahim等人,2012年;Little等人,2012年). 考虑一种情况,即利益的结果变量,Y(Y),可能缺少值。如果有人认为它的缺失与可能未被观察到的无关Y(Y)-值,则丢失的数据称为可忽略(Little和Rubin,2002年). 对于可忽略的缺失数据,有许多著名的统计程序可用,其理论性质也得到了严格证明。然而,通常情况下,人们会怀疑丢失的数据实际上与可能未观察到的值有关Y(Y)自身。这种类型的缺失数据被称为不可忽视数据,它们存在于结果与受试者行为直接相关的学科中,或者由受试者自己报告,例如通过问卷或调查。
Ibrahim等人(2001年)分析了康涅狄格州儿童心理健康研究的数据集(Zahner等人,1992年,1993;Zahner和Daskalakis,1997年)他们感兴趣的结果变量是老师关于孩子精神病理学的报告。使用logistic回归,将该变量建模为家庭、父亲的父母状态和孩子的身体健康状况的函数。在这项研究中,42.7%的受试者错过了老师的精神病理学报告。孩子可能未被观察到的精神病理学状态可能与缺失有关,因为当老师觉得孩子正常或不正常时,老师更有可能填写精神病学状态,因此这是不可忽视的。一个天真的逻辑回归模型,即所谓的完全病例分析,丢弃了精神病理学状态缺失的受试者,可能会导致高度偏差的估计。因此,需要提出考虑不可忽视的丢失机制的方法。
Ibrahim等人(2001年)提出利用辅助变量将不可忽略的丢失机制近似为可忽略机制,Z轴父母关于孩子精神病理学的报告。他们的理由是缺失指标和结果变量Y(Y)是否独立取决于Z轴和其他协变量,如果Y(Y)和Z轴具有足够高的部分相关性。之后,在这种可忽略的缺失假设下,它们的参数似然不仅涉及Y(Y),还包括Z轴所有其他变量,包括Y(Y)他们表明,如果Y(Y)和Z轴具有相当大的相关性,他们提出的估计量减少了完全因果分析导致的估计偏差。
在不可忽视的缺失数据分析中,人们通常感兴趣的是估计参数结果模型中的未知参数。在这种情况下,如果一个模型适用于缺失机制的另一个参数模型,则会涉及整个模型规范问题,因此,可能会导致严重的估计偏差。通过观察辅助变量的存在Z轴,Ibrahim等人(2001年)避免了机构的直接参数化建模。然而,为了实现其参数似然性,它们必须拟合参数模型Z轴回归于Y(Y)以及所有其他变量。因此,从本质上讲,他们仍然无法完全避免拟合具有不可忽略损失的参数模型的问题。
除了简单的参数化建模外,最近有大量关于不可忽视的缺失机制的文献。赵和邵(2015)基于无响应工具(或影子变量)的存在,提出了广义线性模型的半参数伪似然方法,以及赵、马(2018)在他们的框架下研究了估计的最优性。方和邵(2016)和赵等(2018)从不同角度研究了数据不可忽略的变量选择问题。除了基于似然的方法外,Zhao等人(2017)和陈和芳(2019)还考虑了在适当假设下基于方程的估计方法。
本文的动机是Ibrahim等人(2001年)由于变量父亲与缺失无关,我们提出了两种基于非常规概率的估计方法,而不需要拟合机制模型或任何其他模型。我们的第一种方法基于条件似然,第二种方法基于伪似然。在这两种方法中,我们都假设机制模型是任意的,除了缺失与父亲对所有其他变量的条件无关Ibrahim等人(2001年)使用这些非常规可能性的最吸引人的特点是,在目标函数中,涉及机制模型的片段都被抵消,因此我们的方法对机制模型的错误指定具有鲁棒性。不同于Ibrahim等人(2001年)世卫组织对其模型采用了纯参数规范,因此必须进行严重的敏感性分析,我们使用了一个半参数框架,其中我们将机理模型视为非参数滋扰,并且我们提出了无干扰方法来估计感兴趣的参数。我们还严格推导了我们提出的估计量的渐近性质。
辅助变量Z轴是重要的,因为它是完全被观察到的,并且它为结果变量提供了关键的替代信息Y(Y)因此,量化Z轴和Y(Y)并进一步使用辅助变量Z轴为此,我们考虑一个更通用的结果模型Y(Y)其中辅助变量Z轴也是协变量之一。而不是依赖于缺失性和Y(Y),我们在这个更一般的结果模型下提出的方法依赖于缺失和Z轴同样,我们也可以根据不需要拟合机制或任何其他模型的非常规可能性提出估计值。
论文的结构如下。我们首先介绍了符号并简要回顾了中的分析结果Ibrahim等人(2001年)在里面第2节。我们在第3节对于中考虑的模型Ibrahim等人(2001年).英寸第4节我们给出了上一段中讨论的更一般结果模型的结果。我们实现了我们提出的估计量,并将其性能与Ibrahim等人(2001年)在里面第5节最后,在第6节如果数据生成过程已知,并且第7节我们总结了我们的论文。
2 儿童心理健康研究
我们首先在中简要描述了这项研究Ibrahim等人(2001年)及其分析结果。除了符号Y(Y)作为结果变量(Y(Y)=1,如果教师报告临界或临床精神病理学,并且Y(Y)=0,如果老师报告孩子是正常的)和Z轴作为辅助变量(Z轴=1,如果家长报告异常且Z轴=0(如果正常),用于第1节,我们还介绍了以下符号。我们表示单位= (单位1,单位2)T型哪里单位1是健康的影响(单位1=1表示健康状况一般或较差、慢性病或活动受限,以及单位1=0表示没有健康问题),以及单位2是父亲的影响(单位2=1,如果没有父亲形象,并且单位2=0,如果存在父亲的数字)。变量单位1,单位2和Z轴都是完全观察到的,但变量Y(Y)缺少值。我们使用二进制变量对作为缺失指示器,其中对=1表示Y(Y)被观察到并且对=0,如果Y(Y)缺少。我们使用N个作为总样本量和n个作为样本大小,没有缺少值。在不失一般性的情况下,我们假设第一个n个完全观察到样品。在我们的论文中,我们还使用第页作为条件概率密度函数的一般表示法。
贯穿始终Ibrahim等人(2001年),感兴趣的模型是
哪里β= (β0,β1,β2)T型是未知参数。一个关键步骤Ibrahim等人(2001年)是将参数似然函数公式化,并采用EM算法进行最大化。为此,他们首先提出了缺失机制的逻辑回归模型
他们发现变量单位2与缺失无关,因此他们放弃了这个术语,机制模型变成
对不可忽略的机构模型使用纯参数方法的一个局限性(2)是潜在的错误规格问题。为了解决这个问题,必须进行高灵敏度分析,以验证参数规范的正确性。如果在模型中添加更多项作为协变量(2)例如Y(Y)和单位1,模型(2)变得无法识别。
利用辅助变量的存在Z轴并将其视为结果的代表Y(Y),Ibrahim等人(2001年)提议
因此,机构模型变得可以忽略,并且可以在估计的参数似然中消除β因此,最大化的似然函数为
其中,除了兴趣模型第页(年|u个;β),模型第页(z(z)|年,u个;γ)还涉及参数γ未知。
因此,要正确估计感兴趣的参数β,必须正确安装模型第页(z(z)|年,u个;γ)这也涉及不可忽视的缺失数据。用不可忽视的缺失数据正确拟合参数模型的基本困难仍然存在。在他们的论文中,Ibrahim等人(2001年)尝试不同的模型来适应第页(z(z)|年,u个;γ)通过添加不同的交互项组合。
主要结论Ibrahim等人(2001年)就是β从最大化(三)使用模型第页(z(z)|年,u个;γ)虽然理论上有偏差,但如果正确指定,与完全估计值相比,在数值上会减少估计偏差,前提是在Y(Y)和Z轴他们通过分析儿童心理健康研究数据集确定了这一结论。
三。 建议的方法
由于难以正确指定不可忽略丢失机制的参数模型,我们提出了两种非传统的基于似然的方法,其中我们不需要指定机制模型的具体形式。在本节中,与Ibrahim等人(2001年),我们的目标是估计参数β在模型中(1)但非常不同的是,我们只假设缺失机制满足
请注意,我们没有使用机制模型的显式形式,如(2). 还要注意假设的有效性(4)已在的初步分析结果中确定Ibrahim等人(2001年).集成辅助变量的类似框架Z轴将在中呈现第4节.
3.1. 基于条件似然的方法
第一种方法的思想是从研究模型开始的第页(年,u个1|u个2). 注意,基于模型的似然函数第页(年,u个1|u个2)根据观测数据{年我,u个1我,u个2我},我= 1, …,n个是
哪里P(P)(对= 1 |u个2) = ∫ ∫P(P)(对= 1 |Y(Y),单位1)第页(Y(Y),单位1|u个2)dY dU(分度单位)1。然而,由于所有条款,直接处理这种可能性是不可行的P(P)(对= 1 |y、 u个1)和P(P)(对= 1 |u个2)未知。受到之前工作的激励,例如。,赵等(2018)在将独立同分布的观测值分解为秩统计量和序统计量的基础上,研究了序统计量条件下秩统统计量的似然函数,这里我们还考虑了一类相似的条件似然
其中分母来自顺序统计量的类似类型的似然,∑表示(1…,n个}至(1…,n个}. 插入表达式(5)第页,共页第页(年我,u个1我|u个2我,第页我=1)到(6),可以简化为
自所有条款以来第页(对= 1 |年我,u个1我)和P(P)(对= 1 |u个2我)被取消。
表达式的计算(7)在实践中是不可行的,因此我们建议使用(7):
这与最大化反对函数相同
哪里
例如,使用条件似然的思想应用于缺失数据文献,《梁与秦》(2000)和赵和邵(2017)然而,他们的方法基于一个不太灵活的假设,因此,并非所有参数都是可识别的。相反,在我们的框架中,可以验证参数β在中完全可识别问伊吉(β),因此也在目标函数中我c(c)(β).
解决术语W公司伊吉,注意到在儿童心理健康研究的应用中单位1和单位2是二元的,并且它们是完全观测到的,因此我们可以简单地将饱和logistic回归模型拟合为
哪里γ= (γ0,γ1)T型是未知参数。因此,我们可以简化
哪里。为了更好地促进我们在下面的演示,我们现在重新演示问伊吉(β)作为问伊吉(β,γ),以及我c(c)(β)作为我c(c)(β,γ).
在数值实现中,首先要在完全观测到的变量之间拟合一个logistic回归模型单位1和单位2以获得。然后其中一个将插入进入功能我c(c)(β)英寸(8),表示为.最后是未知参数β将通过最大化目标函数进行估计.
表示的真实值β作为β0和的γ作为γ0。我们有以下渐近结果,其证明包含在附录.
定理1。
假设(1), (4),
对于任何
β
在参数空间中。然后
在哪里?
3.2. 基于伪似然的方法
我们的第二种方法是基于以下事实:(4),缺失指示器对和协变量单位2考虑到结果,是有条件独立的Y(Y)和协变单位1.我们确实有第页(单位2|Y(Y),单位1,对= 1) =第页(单位2|Y(Y),单位1). 这意味着,模型回归单位2上的(Y(Y),单位1)可以使用所有完全观察到的受试者(对=1)与可以使用所有数据推断的模型相同(就像没有缺少数据一样)。因此,我们的目标是最大限度地
请注意,在(10). 这个第页(u个2)在积分中是未知的,但由于整个积分可以被视为关于单位2,我们可以估计第页(u个2)使用其经验分布函数,并将积分替换为其经验版本。另一个组件,模型第页(u个1|u个2),也是未知的。类似第3.1节,我们还拟合了饱和logistic回归模型第页(u个1|u个2;γ).
我们引入符号
和
哪里F类表示的累积分布函数单位2.我们还采用了与中相同的方法第3.1节估计γ因此,我们的目标函数变成
和我们的估计是
我们需要指出的是,在广义线性模型中使用伪似然的思想在赵和邵(2015)。这里介绍的方法是赵和邵(2015)对于这种情况单位1和单位2两者都是二进制的,但我们仍然需要注意一些细微差别。例如,因为协变量单位1和单位2都是二进制的,可以很容易地检查赵和邵(2015)都满足,因此参数β完全可识别。此外,由于两者都是单位1和单位2是二元的,可以拟合饱和logistic回归模型第页(u个1|u个2)并且不存在模型错误指定问题。
类似第3.1节,我们还假设
我们给出了其证明包含在附录.
定理2。
假设(1), (4).假设我第页(β,γ,F类)关于连续两次可微
β,而且有一个开口
包含β0
这样的话
其中E{M(M)(对,Y(Y),X(X))} < ∞.然后,作为N→ ∞,
哪里
和
v(v)1(u个2我;β0,γ0,F类0)定义在
附录.
4 更一般结果模型下的结果
结果模型(1),在中考虑Ibrahim等人(2001年)和中第3节,无法了解Y(Y)及其代理Z轴直接影响,也不影响单位在Y(Y)在控制变量之后Z轴在本节中,我们研究了一个更通用的结果模型
我们简单地表示β= (β0,β1,β2,β三)T型贯穿本节。
保持与中类似的精神第3节在本节中,我们假设在最低水平上对机制模型施加假设
这是合理的,因为在调整了Y(Y),单位1和单位2,缺少Y(Y),即变量对,不依赖于Z轴,的代理变量Y(Y).
回忆一下第3节,因为两者单位1和单位2二元,饱和logistic回归模型第页(u个1|u个2)可以安装,并且没有车型规格错误问题。本节中不会出现这种情况。自第页(u个1,u个2|z(z)) =第页(u个1|u个2,z(z))第页(u个2|z(z))如果一个参数符合logistic回归模型,且没有多方面的交互作用项,那么总共可以估计5个参数。但建模时需要估计6个参数第页(u个1,u个2|z(z))因为所有变量单位1,单位2和Z轴是二进制的。换句话说,简单的参数化模型第页(u个1,u个2|z(z))如果在一般变量中,这种现象会更清楚、更常见单位和Z轴是连续的或多维的。
在下文中,我们将简要介绍模型下的两个非常规的基于似然的估计量(14)和假设(15). 我们将考虑参数和非参数估计方法第页(u个1,u个2,z(z)). 非参数估计方法具有无模型误指定问题的优点。为了区别于简单的参数化建模,我们表示q个(u个1,u个2,z(z))作为的非参数模型第页(u个1,u个2,z(z)).
4.1. 基于条件似然的方法
类似于中引入的条件似然思想第3.1节,我们将目标函数形成为
哪里
和
我们现在考虑参数和非参数估计方法W公司伊吉。参数上,我们假设
经过一些代数运算,我们
因此,考虑到第3.1节,的渐近性质通过条件似然估计类似于定理1,即。,
其中更多细节与定理1类似,因此省略。
或者,我们考虑估算W公司伊吉采用非参数方法,即。,
由于所有变量单位1,单位2和Z轴我们估计是二进制的q个(u个1,u个2,z(z))使用其经验分布,即,我们将
一次得到了与参数方法类似的所有步骤,并且也可以导出与定理1类似的渐近结果。
4.2. 基于伪似然的方法
如果我们在第3.2节模型的一般情况第页(Y(Y)|单位1,单位2,Z轴)假设为(14),的估计量β可以类似地导出。我们引入了类似的符号
和
一般来说,估计器是目标函数的最大化
我们还简要介绍了参数和非参数处理方法第页(u个1,u个2|z(z)). 参数上我们有
哪里
给定中讨论的类似正则性条件第3.2节,的渐近性质获得自(17)类似于定理2,即。,
这里省略了更多的符号和细节。
或者,我们考虑非参数方法H(H)我(β,F类),其中基本组件
可以通过以下公式进行经验估计
然后类似于定理2,也可以导出。
5 儿童心理健康研究分析
在本节中,我们介绍了儿童心理健康研究的分析结果第2节.
我们首先考虑中研究的模型第3节对于该模型,我们将我们提出的条件似然法(方法1)和伪似然方法(方法2)与完备分析法(CC)、假设参数不可忽略机制(NI)的似然法以及Ibrahim等人(2001年)(辅助)。在总结了参数估计、标准差、z统计量和p值五种方法的比较结果。
表1:
中考虑的模型中三个参数的估计值和标准误差的五种方法的比较第3节.
效果 | 参数 | 方法 | 估算 | 标准错误 | z统计量 | p值 |
---|
拦截 | β0 | 科科斯群岛 | −1.7372 | 0.1070 | −16.2358 | 0 |
镍 | −0.6410 | 0.5170 | −1.2398 | 0.2150 |
辅助的 | −1.7030 | 0.1050 | −16.2190 | 0 |
方法1 | −1.6626 | 0.1238 | −13.4324 | 0 |
方法2 | −0.7243 | 0.3856 | −1.8784 | 0.0603 |
|
健康 | β1 | 科科斯群岛 | 0.2465 | 0.1380 | 1.7863 | 0.0740 |
镍 | 0.1150 | 0.1420 | 0.8099 | 0.4180 |
辅助的 | 0.1810 | 0.1370 | 1.3212 | 0.1864 |
方法1 | 0.4214 | 0.6554 | 0.6429 | 0.5203 |
方法2 | 0.2848 | 0.5123 | 0.5560 | 0.5782 |
|
父亲 | β2 | 科科斯群岛 | 0.5419 | 0.1607 | 3.3724 | 0.0007 |
镍 | 0.5450 | 0.1610 | 3.3851 | 0.0007 |
辅助的 | 0.5120 | 0.1580 | 3.2405 | 0.0012 |
方法1 | 0.5411 | 0.1243 | 4.3535 | 0 |
方法2 | 0.5424 | 0.1231 | 4.4061 | 0 |
发件人可以看出,无论使用哪种方法,效应父亲都具有近似相同的参数估计结果。对于效果健康,虽然方法CC的估计偏差也可以从方法NI和AUX中看到,但所提出的方法表明方法CC的偏差方向相反。我们认为,我们提出的方法更有意义,因为从老师的报告来看,健康状况较差会导致临床精神病理学发生的可能性更高。
然后我们考虑中研究的模型第4节。对于此模型,由于上存在潜在的错误规范问题第页(u个1|u个2,z(z))第页(u个2|z(z)),我们考虑不同的建模策略。对于方法1(基于条件似然)或方法2(基于伪似然),我们考虑每个模型第页(u个1|u个2,z(z))和第页(u个2|z(z))可以是逻辑回归模型或概率回归模型,因此有八种参数建模方法。我们还考虑了方法1和方法2中的非参数建模方法。我们将我们提出的方法与完整案例分析(CC方法)进行了比较。11种方法的比较总结如下,其中“logit-probit”表示第页(u个1|u个2,z(z))是logit第页(u个2|z(z))是probit。
表2:
模型中四个参数的十一种估计方法和标准误差的比较第4节.
效果 | 参数 | 方法 | 估算 | 标准错误 | z统计量 | p值 |
---|
拦截 | β0 | 科科斯群岛 | | −1.9307 | 0.1132 | −17.0618 | 0 |
非参数 | 方法1 | −1.8727 | 0.2625 | −7.1338 | 0 |
方法2 | −1.3750 | 0.2867 | −4.7966 | 0 |
逻辑-逻辑 | 方法1 | −1.6218 | 0.3392 | −4.7813 | 0 |
方法2 | −1.3750 | 0.3055 | −4.5001 | 0 |
逻辑-概率 | 方法1 | −1.4353 | 0.5499 | −2.6100 | 0.0091 |
方法2 | −1.1340 | 0.2969 | −3.8195 | 0.0001 |
probit-logit公司 | 方法1 | −0.6827 | 0.4770 | −1.4314 | 0.1523 |
方法2 | −0.7217 | 0.3002 | −2.4040 | 0.0162 |
probit-probit(概率-概率) | 方法1 | −0.5156 | 0.6188 | −0.8331 | 0.4048 |
方法2 | −0.5073 | 0.3077 | −1.6489 | 0.0992 |
|
健康 | β1 | 科科斯群岛 | | −0.0516 | 0.1480 | −0.3487 | 0.7273 |
非参数 | 方法1 | −0.9972 | 0.4704 | −2.1198 | 0.0340 |
方法2 | −0.9814 | 0.3622 | −2.7098 | 0.0067 |
逻辑-逻辑 | 方法1 | −1.2819 | 0.6980 | −1.8364 | 0.0663 |
方法2 | −0.9814 | 0.4008 | −2.4484 | 0.0144 |
逻辑-概率 | 方法1 | −1.2680 | 0.5530 | −2.2929 | 0.0219 |
方法2 | −1.2370 | 0.4190 | −2.9526 | 0.0032 |
probit-logit公司 | 方法1 | −2.2843 | 0.5662 | −4.0343 | 0.0001 |
方法2 | −2.6201 | 0.5934 | −4.4151 | 0 |
probit-probit(概率-概率) | 方法1 | −2.4730 | 0.5266 | −4.6965 | 0 |
方法2 | −3.4659 | 0.7197 | −4.8157 | 0 |
|
父亲 | β2 | 科科斯群岛 | | 0.3652 | 0.1690 | 2.1608 | 0.0307 |
非参数 | 方法1 | 0.0526 | 0.5258 | 0.1000 | 0.9203 |
方法2 | −0.0699 | 0.4460 | −0.1567 | 0.8755 |
逻辑-逻辑 | 方法1 | −0.4041 | 0.9355 | −0.4319 | 0.6658 |
方法2 | −0.0700 | 0.5384 | −0.1300 | 0.8966 |
逻辑概率 | 方法1 | −2.2393 | 0.9099 | −2.4610 | 0.0139 |
方法2 | −1.5588 | 0.7286 | −2.1393 | 0.0324 |
probit-logit公司 | 方法1 | −0.1721 | 0.7500 | −0.2294 | 0.8185 |
方法2 | −0.5305 | 0.6475 | −0.8193 | 0.4126 |
probit-probit(概率-概率) | 方法1 | −1.3461 | 0.7213 | −1.8662 | 0.0620 |
方法2 | −1.5535 | 0.7480 | −2.0770 | 0.0378 |
|
家长报告 | β三 | 科科斯群岛 | | 1.4621 | 0.1583 | 9.2380 | 0 |
非参数 | 方法1 | 1.4085 | 0.1356 | 10.3902 | 0 |
方法2 | 1.4687 | 0.1366 | 10.7523 | 0 |
逻辑-逻辑 | 方法1 | 1.4043 | 0.1370 | 10.2476 | 0 |
方法2 | 1.4687 | 0.1376 | 10.6736 | 0 |
逻辑-概率 | 方法1 | 1.4149 | 0.1340 | 10.5569 | 0 |
方法2 | 1.4562 | 0.1311 | 11.1084 | 0 |
probit-logit公司 | 方法1 | 1.4122 | 0.1371 | 10.3007 | 0 |
方法2 | 1.4733 | 0.1320 | 11.1602 | 0 |
probit-probit(概率-概率) | 方法1 | 1.4170 | 0.1322 | 10.7186 | 0 |
方法2 | 1.4475 | 0.1265 | 11.4411 | 0 |
比较结果来自也是有意义的。首先,无论使用哪种方法,对影响家长报告的估计大致相同,相应的p值始终为零。这表明教师报告和家长报告之间的调整关联确实存在,并且具有统计学意义。其次,虽然所提出的方法对影响因子的估计存在一些差异,但非参数方法表明,影响因子几乎为零,且不显著。第三,与CC方法相反,所有提出的方法都对变量健康具有统计显著性影响。这个观察结果当然意味着CC方法有很大的偏差。
我们还想报告,在我们的数值研究中,基于渐近结果的标准误差估计对未知参数的初始值很敏感。因此,我们采用非参数Bootstrap方法。为了研究在我们的设置中Bootstrap样本的足够数量,我们举例说明了标准误差估计值和Bootstrab样本数量之间的关系,如所示对于中考虑的模型第3节中的、和对于中考虑的模型的非参数方法第4节可以看出,通常200个Bootstrap样本就足够了。在我们的数值研究的每种情况下,我们模拟了300个Bootstrap样本。
对于建议的方法1和方法2,随着Bootstrap样本数的增加第3节.
对于建议的非参数方法1和方法2,随着Bootstrap样本数的增加第4节.
6 模拟研究
在已知数据生成过程的情况下,我们通过仿真研究检查了所提方法的有限样本性能。
对于中考虑的模型第3节,我们首先生成二进制变量单位2遵循伯努利分布P(P)(单位2=1)=0.6,然后生成二进制变量单位1跟随logit{P(P)(单位1= 1 |单位2)} =γ0+γ1单位2具有γ0=1和γ1=0.5。结果Y(Y)由logit生成{P(P)(Y(Y)= 1 |单位1,单位2)} =β0+β1单位1+β2单位2具有β= (−0.5, 0.1, 3)T型。缺失机制由logit生成{P(P)(对= 1 |Y(Y),单位1;θ)} =θ0+θ1Y(Y)+θ2单位1具有θ= (−2.20, 3.58, 0.81)T型,因此大约有70%的受试者完全被观察到。我们考虑总样本量N个= 2,000. 我们将这两种方法与使用所有数据的方法(称为基准)和CC方法进行了比较。基于500次模拟复制,估计偏差、标准偏差的蒙特卡罗近似、估计的标准误差和覆盖概率的结果总结为.
表3:
对模型中三个参数的估计偏差(bias)、标准偏差蒙特卡罗近似(SD)、估计标准误差(SE)和覆盖概率(CP)的四种方法进行比较第3节.
参数 | 方法 | 偏差 | 标准偏差 | 东南方 | 阴极保护 |
---|
β0 | 基准 | 0.0055 | 0.1218 | 0.1273 | 0.9600 |
科科斯群岛 | 2.1164 | 0.3046 | 0.2898 | 0 |
方法1 | 0.0029 | 0.0113 | 0.0124 | 0.9480 |
方法2 | 0.0049 | 0.2417 | 0.2293 | 0.9560 |
|
β1 | 基准 | −0.0031 | 0.1358 | 0.1423 | 0.9620 |
科科斯群岛 | −0.6033 | 0.3240 | 0.3139 | 0.5200 |
方法1 | 0.0224 | 0.3086 | 0.2942 | 0.9460 |
方法2 | 0.0006 | 0.2837 | 0.2729 | 0.9460 |
|
β2 | 基准 | 0.0001 | 0.1352 | 0.1348 | 0.9300 |
科科斯群岛 | 0.0370 | 0.3146 | 0.2963 | 0.9320 |
方法1 | 0.0329 | 0.3077 | 0.2996 | 0.9420 |
方法2 | 0.0397 | 0.3157 | 0.3034 | 0.9480 |
同样,对于第4节,我们首先生成二进制变量Z轴遵循伯努利分布P(P)(Z轴=1)=0.6,然后生成二进制变量单位2跟随logit{P(P)(单位2= 1 |Z轴)}=γ三+γ4Z轴具有γ三=1和γ4=0.5,和二进制变量单位1跟随logit{P(P)(单位1= 1 |单位2,Z轴)} =γ0+γ1单位2+γ2Z轴具有γ0= −1,γ1=0.5和γ2= 0.5. 结果Y(Y)由logit生成{P(P)(Y(Y)= 1 |单位1,单位2,Z轴)} =β0+β1单位1+β2单位2+γ三Z轴具有β=(−0.5、0.1、0.1、3)T型.缺失机制由logit生成{P(P)(对= 1 |Y(Y),单位1,单位2;θ)} =θ0+θ1Y(Y)+θ2单位1+θ三单位2具有θ= (−2.20, 3.58, 0.46, 0.46)T型,因此也有大约70%的受试者完全被观察到。我们考虑总样本量N个= 2,000. 我们将参数和非参数建模方法中提出的两种方法与基准方法和CC方法进行了比较。基于500个模拟副本,类似结果总结如下.
表4:
对模型中四个参数的估计偏差(bias)、标准偏差蒙特卡罗近似(SD)、估计标准误差(SE)和覆盖概率(CP)的六种方法进行比较第4节.
参数 | 方法 | 偏差 | 标准偏差 | 东南方 | 阴极保护 |
---|
β0 | 基准 | −0.0006 | 0.1428 | 0.1320 | 0.9420 |
科科斯群岛 | 2.1102 | 0.3041 | 0.2872 | 0 |
方法1-参数 | 0.0226 | 0.2069 | 0.1978 | 0.9696 |
方法1-非参数 | 0.0097 | 0.0729 | 0.0773 | 0.9760 |
方法2-参数化 | −0.0028 | 0.2666 | 0.2615 | 0.9520 |
方法2——非参数 | 0.0012 | 0.2077 | 0.2034 | 0.9600 |
|
β1 | 基准 | 0.0083 | 0.1245 | 0.1274 | 0.9520 |
科科斯群岛 | −0.3222 | 0.2319 | 0.2408 | 0.7300 |
方法1-参数 | 0.0548 | 0.4122 | 0.4172 | 0.9798 |
方法1-非参数 | 0.0201 | 0.2573 | 0.2509 | 0.9760 |
方法2-参数化 | 0.0101 | 0.2514 | 0.2614 | 0.9640 |
方法2——非参数 | 0.0044 | 0.1790 | 0.1880 | 0.9600 |
|
β2 | 基准 | 0.0020 | 0.1555 | 0.1434 | 0.9280 |
科科斯群岛 | −0.3428 | 0.3219 | 0.3050 | 0.8240 |
方法1-参数化 | 0.0659 | 0.5004 | 0.4979 | 0.9696 |
方法1-非参数 | 0.0277 | 0.2987 | 0.3204 | 0.9539 |
方法2-参数化 | 0.0040 | 0.3084 | 0.2993 | 0.9480 |
方法2——非参数 | 0.0004 | 0.2239 | 0.2197 | 0.9440 |
|
β三 | 基准 | 0 | 0.1404 | 0.1372 | 0.9460 |
科科斯群岛 | 0.0209 | 0.3209 | 0.3107 | 0.9340 |
方法1-参数 | 0.0191 | 0.3149 | 0.3130 | 0.9393 |
方法1-非参数 | 0.0176 | 0.3159 | 0.3147 | 0.9479 |
方法2-参数化 | 0.0213 | 0.3167 | 0.3168 | 0.9480 |
方法2——非参数 | 0.0206 | 0.3191 | 0.3197 | 0.9500 |
总结得出的结论和非常清楚。首先,基准方法和所有提出的方法都是渐近无偏的,在每种情况下都具有大约95%的覆盖概率。这与我们对所提出方法的理论研究非常吻合。其次,在大多数情况下,CC方法存在严重偏差,因此导致覆盖概率非常低。这意味着简单地使用CC方法通常是不正确的。第三,在由于我们提出的方法中的参数化建模是正确的,因此其性能与非参数方法非常相似,但总体上效率低于非参数方法。最后,从任何一个或,基于非常规可能性比较两种方法的效率很难得出明确的答案。
7 讨论
对不可忽视的缺失机制进行参数化建模的局限性促使我们采用基于非常规可能性的方法,因为对机制模型的假设是最低的。本文提出的两种方法都深深植根于基本统计方法:基于条件似然的方法依赖于秩统计和序统计的分解,而基于伪似然的算法依赖于条件独立性和有偏抽样。
从数据角度来看,我们的工作来源于一项儿童心理健康研究,其中所有变量都是二元的。与连续数据相比,二进制数据或一般的分类数据可能不容易分析。例如,应该特别注意二进制数据的可识别性问题和模型错误指定问题。然而,我们提出的方法对数据类型没有任何限制。尽管在模型可识别性和模型错误指定方面存在细微差别,但我们提出的每种方法都可以平等地应用于分类数据或连续数据。
在我们提出的每种方法中,β是感兴趣的参数γ就是讨厌。我们的提案包含以下内容的第一阶段估算程序,然后是参数β通过最大化估计或。当然可以考虑直接最大化我c(c)(β,γ)或同时定位和没有针对滋扰的第一阶段程序。这样做的一个可能优势是,它可能会提高β,但这并不清楚,需要进一步仔细调查;虽然这样做的一个明确限制是,它将增加计算负担,因为优化过程涉及一个高维参数。
最后,我们提出的方法的一个潜在限制是样本量要求。我们的模拟设置与样本大小N个2000人模仿儿童心理健康研究。我们确实用较小的样本量进行了实验,例如。,N个= 200. 但它在一定程度上显示了数值估计偏差。这一现象在文献中被发现。例如,赵(2017)研究了一种基于重采样的过程,以减少类似情况下的估计偏差。
致谢
作者感谢主编、副主编和两位匿名审稿人的建设性意见,这些意见使论文得到了显著改进。这项工作得到了美国国立卫生研究院转化科学促进中心的支持,奖项编号为UL1TR001412。内容完全由作者负责,不一定代表NIH的官方观点。
附录
定理1的证明。让代表的MLEγ,
我们首先发展了.我们从估计方程开始
通过泰勒展开,
因此,
其结果是,
妨害参数的一次渐近性质γ已知,我们可以发展β。我们可以获得通过求解
相当于
明确地,
泰勒展开。同样,
使用(19)和(20)插入(18),我们可以得到以下方程
作为, (21)等于
因此,
此外,我们需要形成一个投影英寸(22)通过
和
总之(22)可以形成为
这就完成了证明。□
定理证明2。通过泰勒的扩张和,我们有
和
哪里
是基于数据的V统计w个我= (第页我,年我,u个1我,u个2我)和以下内核函数
让
这不取决于第页我,年我或u个1我,并将用表示v(v)1(u个2我;β0,γ0,F类0). 根据V统计理论,我们有
在给定的条件下,我们
这就完成了证明。□
参考文献
- Chen J和Fang F(2019),“用无响应仪器估计不可忽略无响应方程的半参数似然,”非参数统计杂志, 1–15.[谷歌学者]
- Fang F和Shao J(2016),“不可忽略无响应的模型选择,”生物特征,103, 861–874.[谷歌学者]
- Ibrahim JG、Chu H和Chen M-H(2012),“临床研究中的缺失数据:问题和方法,”临床肿瘤学杂志,30, 3297–3303.[PMC免费文章][公共医学][谷歌学者]
- Ibrahim JG、Lipsitz SR和Horton N(2001),“使用辅助数据进行具有不可忽视缺失结果的参数估计,”英国皇家统计学会杂志:C辑(应用统计学),50, 361–373.[谷歌学者]
- Liang K-Y和Qin J(2000),“非标准情形下的回归分析:一种两两伪似然方法,”英国皇家统计学会杂志:B辑(统计方法),62, 773–786.[谷歌学者]
- Little RJ、D'agostino R、Cohen ML、Dickersin K、Emerson SS、Farrar JT、Frangakis C、Hogan JW、Molenberghs G、Murphy SA等(2012年),”临床试验中数据缺失的预防和处理,”新英格兰医学杂志,367, 1355–1360.[PMC免费文章][公共医学][谷歌学者]
- Little RJ和Rubin DB(2002),缺失数据的统计分析,Wiley,第二版。[谷歌学者]
- Zahner GE和Daskalakis C(1997),“与心理健康、一般健康和儿童精神病理学校本服务使用相关的因素.”美国公共卫生杂志,87, 1440–1448.[PMC免费文章][公共医学][谷歌学者]
- Zahner GE、Jacobs JH、Freeman DH和Trainor KF(1993),“美国东北部一个州的城乡儿童精神病理学:1986年至1989年,”美国儿童与青少年精神病学学会杂志,32,378–387页。[公共医学][谷歌学者]
- Zahner GE、Pawelkiewicz W、DeFrancesco JJ和Adnopoz J(1992),“城市社区儿童心理健康服务需求与利用模式:流行病学评估,”美国儿童与青少年精神病学学会杂志,31, 951–960. [公共医学][谷歌学者]
- Zhao J(2017),“基于一般缺失数据机制的最大近似条件似然估计的偏差减小,”非参数统计杂志,29, 577–593.[PMC免费文章][公共医学][谷歌学者]
- Zhao J和Ma Y(2018),“不可忽略无响应多元缺失数据分析中的最优伪似然估计,”生物特征,105, 479–486.[PMC免费文章][公共医学][谷歌学者]
- Zhao J和Shao J(2015),“具有不可忽略缺失数据的广义线性模型中的半参数伪似然,”美国统计协会杂志,110, 1577–1590.[谷歌学者]
- -(2017),“具有一般缺失数据机制的广义线性模型的近似条件似然,”系统科学与复杂性杂志,30, 139–153.[谷歌学者]
- Zhao J、Yang Y和Ning Y(2018),“不可忽略缺失数据变量选择的惩罚成对伪似然,”中国统计局,28, 2125–2148.[谷歌学者]
- Zhao P、Tang N、Qu A和Jiang D(2017),“具有不可忽略缺失数据的半参数估计方程推导,”中国统计局, 89–113.[谷歌学者]