跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
J非参数统计。作者手稿;PMC 2020年10月2日提供。
以最终编辑形式发布为:
《2019年非参数统计杂志》;31(4): 911–931.
2019年9月18日在线发布。 数字对象标识:2010年10月80日/10485252.2019.1664739
预防性维修识别码:PMC7531040型
NIHMSID公司:美国国家卫生研究院1540645
PMID:33013146

基于不可忽视缺失数据的非传统似然估计及其在儿童心理健康研究中的应用

摘要

在结果与受试者行为相关的研究中,不可忽视的缺失数据很常见。Ibrahim等人(2001年)对具有不可忽略缺失数据的二元结果进行logistic回归拟合,他们建议用完全可观测的辅助变量替换机制模型中的结果。他们必须正确指定辅助变量的模型;不幸的是,受不可忽视缺失影响的结果变量仍然存在。这个模型的正确规格很神秘。相反,我们提出了两种非传统的基于似然的估计方法,可以完全绕过不可忽略的丢失机制模型。我们将我们提出的方法应用于儿童心理健康研究,并将其与现有方法进行比较。提出的估计量的大样本性质得到了严格证明,并通过全面的模拟研究检验了其有限样本行为。

关键词:不可忽视的缺失数据、Missingness机制、非常规似然、伪似然、条件似然、渐近正态

1介绍

在临床试验和观察研究等各种生物医学研究中,数据缺失问题是一个严重的问题(Ibrahim等人,2012年;Little等人,2012年). 考虑一种情况,即利益的结果变量,Y(Y),可能缺少值。如果有人认为它的缺失与可能未被观察到的无关Y(Y)-值,则丢失的数据称为可忽略(Little和Rubin,2002年). 对于可忽略的缺失数据,有许多著名的统计程序可用,其理论性质也得到了严格证明。然而,通常情况下,人们会怀疑丢失的数据实际上与可能未观察到的值有关Y(Y)自身。这种类型的缺失数据被称为不可忽视数据,它们存在于结果与受试者行为直接相关的学科中,或者由受试者自己报告,例如通过问卷或调查。

Ibrahim等人(2001年)分析了康涅狄格州儿童心理健康研究的数据集(Zahner等人,1992年1993;Zahner和Daskalakis,1997年)他们感兴趣的结果变量是老师关于孩子精神病理学的报告。使用logistic回归,将该变量建模为家庭、父亲的父母状态和孩子的身体健康状况的函数。在这项研究中,42.7%的受试者错过了老师的精神病理学报告。孩子可能未被观察到的精神病理学状态可能与缺失有关,因为当老师觉得孩子正常或不正常时,老师更有可能填写精神病学状态,因此这是不可忽视的。一个天真的逻辑回归模型,即所谓的完全病例分析,丢弃了精神病理学状态缺失的受试者,可能会导致高度偏差的估计。因此,需要提出考虑不可忽视的丢失机制的方法。

Ibrahim等人(2001年)提出利用辅助变量将不可忽略的丢失机制近似为可忽略机制,Z轴父母关于孩子精神病理学的报告。他们的理由是缺失指标和结果变量Y(Y)是否独立取决于Z轴和其他协变量,如果Y(Y)Z轴具有足够高的部分相关性。之后,在这种可忽略的缺失假设下,它们的参数似然不仅涉及Y(Y),还包括Z轴所有其他变量,包括Y(Y)他们表明,如果Y(Y)Z轴具有相当大的相关性,他们提出的估计量减少了完全因果分析导致的估计偏差。

在不可忽视的缺失数据分析中,人们通常感兴趣的是估计参数结果模型中的未知参数。在这种情况下,如果一个模型适用于缺失机制的另一个参数模型,则会涉及整个模型规范问题,因此,可能会导致严重的估计偏差。通过观察辅助变量的存在Z轴Ibrahim等人(2001年)避免了机构的直接参数化建模。然而,为了实现其参数似然性,它们必须拟合参数模型Z轴回归于Y(Y)以及所有其他变量。因此,从本质上讲,他们仍然无法完全避免拟合具有不可忽略损失的参数模型的问题。

除了简单的参数化建模外,最近有大量关于不可忽视的缺失机制的文献。赵和邵(2015)基于无响应工具(或影子变量)的存在,提出了广义线性模型的半参数伪似然方法,以及赵、马(2018)在他们的框架下研究了估计的最优性。方和邵(2016)赵等(2018)从不同角度研究了数据不可忽略的变量选择问题。除了基于似然的方法外,Zhao等人(2017)陈和芳(2019)还考虑了在适当假设下基于方程的估计方法。

本文的动机是Ibrahim等人(2001年)由于变量父亲与缺失无关,我们提出了两种基于非常规概率的估计方法,而不需要拟合机制模型或任何其他模型。我们的第一种方法基于条件似然,第二种方法基于伪似然。在这两种方法中,我们都假设机制模型是任意的,除了缺失与父亲对所有其他变量的条件无关Ibrahim等人(2001年)使用这些非常规可能性的最吸引人的特点是,在目标函数中,涉及机制模型的片段都被抵消,因此我们的方法对机制模型的错误指定具有鲁棒性。不同于Ibrahim等人(2001年)世卫组织对其模型采用了纯参数规范,因此必须进行严重的敏感性分析,我们使用了一个半参数框架,其中我们将机理模型视为非参数滋扰,并且我们提出了无干扰方法来估计感兴趣的参数。我们还严格推导了我们提出的估计量的渐近性质。

辅助变量Z轴是重要的,因为它是完全被观察到的,并且它为结果变量提供了关键的替代信息Y(Y)因此,量化Z轴Y(Y)并进一步使用辅助变量Z轴为此,我们考虑一个更通用的结果模型Y(Y)其中辅助变量Z轴也是协变量之一。而不是依赖于缺失性和Y(Y),我们在这个更一般的结果模型下提出的方法依赖于缺失和Z轴同样,我们也可以根据不需要拟合机制或任何其他模型的非常规可能性提出估计值。

论文的结构如下。我们首先介绍了符号并简要回顾了中的分析结果Ibrahim等人(2001年)在里面第2节。我们在第3节对于中考虑的模型Ibrahim等人(2001年).英寸第4节我们给出了上一段中讨论的更一般结果模型的结果。我们实现了我们提出的估计量,并将其性能与Ibrahim等人(2001年)在里面第5节最后,在第6节如果数据生成过程已知,并且第7节我们总结了我们的论文。

2儿童心理健康研究

我们首先在中简要描述了这项研究Ibrahim等人(2001年)及其分析结果。除了符号Y(Y)作为结果变量(Y(Y)=1,如果教师报告临界或临床精神病理学,并且Y(Y)=0,如果老师报告孩子是正常的)和Z轴作为辅助变量(Z轴=1,如果家长报告异常且Z轴=0(如果正常),用于第1节,我们还介绍了以下符号。我们表示单位= (单位1单位2)T型哪里单位1是健康的影响(单位1=1表示健康状况一般或较差、慢性病或活动受限,以及单位1=0表示没有健康问题),以及单位2是父亲的影响(单位2=1,如果没有父亲形象,并且单位2=0,如果存在父亲的数字)。变量单位1单位2Z轴都是完全观察到的,但变量Y(Y)缺少值。我们使用二进制变量作为缺失指示器,其中=1表示Y(Y)被观察到并且=0,如果Y(Y)缺少。我们使用N个作为总样本量和n个作为样本大小,没有缺少值。在不失一般性的情况下,我们假设第一个n个完全观察到样品。在我们的论文中,我们还使用第页作为条件概率密度函数的一般表示法。

贯穿始终Ibrahim等人(2001年),感兴趣的模型是

罗吉特{P(P)(Y(Y)=1单位1单位2)}=β0+β1单位1+β2单位2
(1)

哪里β= (β0β1β2)T型是未知参数。一个关键步骤Ibrahim等人(2001年)是将参数似然函数公式化,并采用EM算法进行最大化。为此,他们首先提出了缺失机制的逻辑回归模型

罗吉特{P(P)(=1Y(Y)单位1单位2)}=α0+α1Y(Y)+α2单位1+α单位2.

他们发现变量单位2与缺失无关,因此他们放弃了这个术语,机制模型变成

罗吉特{P(P)(=1Y(Y)单位1)}=α0+α1Y(Y)+α2单位1.
(2)

对不可忽略的机构模型使用纯参数方法的一个局限性(2)是潜在的错误规格问题。为了解决这个问题,必须进行高灵敏度分析,以验证参数规范的正确性。如果在模型中添加更多项作为协变量(2)例如Y(Y)单位1,模型(2)变得无法识别。

利用辅助变量的存在Z轴并将其视为结果的代表Y(Y)Ibrahim等人(2001年)提议

P(P)(=1Y(Y)单位1)=P(P)(=1Z轴单位1)

因此,机构模型变得可以忽略,并且可以在估计的参数似然中消除β因此,最大化的似然函数为

=1N个(第页[日志{第页(z(z)u个;γ)}+日志{第页(u个;β)}]+(1负极第页)日志{¦Β第页(z(z)u个;γ)第页(u个;β)第y天})
(3)

其中,除了兴趣模型第页(|u个;β),模型第页(z(z)|u个;γ)还涉及参数γ未知。

因此,要正确估计感兴趣的参数β,必须正确安装模型第页(z(z)|u个;γ)这也涉及不可忽视的缺失数据。用不可忽视的缺失数据正确拟合参数模型的基本困难仍然存在。在他们的论文中,Ibrahim等人(2001年)尝试不同的模型来适应第页(z(z)|u个;γ)通过添加不同的交互项组合。

主要结论Ibrahim等人(2001年)就是β从最大化()使用模型第页(z(z)|u个;γ)虽然理论上有偏差,但如果正确指定,与完全估计值相比,在数值上会减少估计偏差,前提是在Y(Y)Z轴他们通过分析儿童心理健康研究数据集确定了这一结论。

三。建议的方法

由于难以正确指定不可忽略丢失机制的参数模型,我们提出了两种非传统的基于似然的方法,其中我们不需要指定机制模型的具体形式。在本节中,与Ibrahim等人(2001年),我们的目标是估计参数β在模型中(1)但非常不同的是,我们只假设缺失机制满足

P(P)(=1Y(Y)单位1单位2)=P(P)(=1Y(Y)单位1).
(4)

请注意,我们没有使用机制模型的显式形式,如(2). 还要注意假设的有效性(4)已在的初步分析结果中确定Ibrahim等人(2001年).集成辅助变量的类似框架Z轴将在中呈现第4节.

3.1. 基于条件似然的方法

第一种方法的思想是从研究模型开始的第页(u个1|u个2). 注意,基于模型的似然函数第页(u个1|u个2)根据观测数据{u个1u个2},= 1, …,n个

=1n个第页(u个1u个2第页=1)==1n个P(P)(=1u个1)P(P)(=1u个2)第页(u个1u个2)
(5)

哪里P(P)(= 1 |u个2) = ∫ ∫P(P)(= 1 |Y(Y)单位1)第页(Y(Y)单位1|u个2)dY dU(分度单位)1。然而,由于所有条款,直接处理这种可能性是不可行的P(P)(= 1 |y、 u个1)和P(P)(= 1 |u个2)未知。受到之前工作的激励,例如。,赵等(2018)在将独立同分布的观测值分解为秩统计量和序统计量的基础上,研究了序统计量条件下秩统统计量的似然函数,这里我们还考虑了一类相似的条件似然

=1n个第页(u个1u个2第页=1)σ=1n个第页(σ()u个1σ()u个2第页=1)
(6)

其中分母来自顺序统计量的类似类型的似然,∑表示(1…,n个}至(1…,n个}. 插入表达式(5)第页,共页第页(u个1|u个2第页=1)到(6),可以简化为

=1n个第页(u个1u个2)σ=1n个第页(σ()u个1σ()u个2)
(7)

自所有条款以来第页(= 1 |u个1)和P(P)(= 1 |u个2)被取消。

表达式的计算(7)在实践中是不可行的,因此我们建议使用(7):

1<j个n个第页(u个1u个2)第页(j个u个1j个u个2j个)第页(u个1u个2)第页(j个u个1j个u个2j个)+第页(u个1u个2j个)第页(j个u个1j个u个2)

这与最大化反对函数相同

c(c)(β)=负极2N个(N个负极1)1<j个N个第页第页j个日志{1+伊吉(β)}
(8)

哪里

伊吉(β)=W公司伊吉第页(u个1u个2j个;β)第页(j个u个1j个u个2;β)第页(u个1u个2;β)第页(j个u个1j个u个2j个;β)W公司伊吉=第页(u个1u个2j个)第页(u个1j个u个2)第页(u个1u个2)第页(u个1j个u个2j个).
(9)

例如,使用条件似然的思想应用于缺失数据文献,《梁与秦》(2000)赵和邵(2017)然而,他们的方法基于一个不太灵活的假设,因此,并非所有参数都是可识别的。相反,在我们的框架中,可以验证参数β在中完全可识别伊吉(β),因此也在目标函数中c(c)(β).

解决术语W公司伊吉,注意到在儿童心理健康研究的应用中单位1单位2是二元的,并且它们是完全观测到的,因此我们可以简单地将饱和logistic回归模型拟合为

罗吉特{P(P)(单位1=1单位2)}=γ0+γ1单位2

哪里γ= (γ0γ1)T型是未知参数。因此,我们可以简化

W公司伊吉=V(V)伊吉V(V)V(V)ii(ii)V(V)日本=经验{γ1(u个1负极u个1j个)(u个2j个负极u个2)}

哪里V(V)伊吉=第页(u个1u个2j个γ)=经验{u个1(γ0+γ1u个2j个)}1+经验(γ0+γ1u个2j个)。为了更好地促进我们在下面的演示,我们现在重新演示伊吉(β)作为伊吉(βγ),以及c(c)(β)作为c(c)(βγ).

在数值实现中,首先要在完全观测到的变量之间拟合一个logistic回归模型单位1单位2以获得γ^。然后其中一个将插入W公司^伊吉进入功能c(c)(β)英寸(8),表示为c(c)(βγ^).最后是未知参数β将通过最大化目标函数进行估计c(c)(βγ^).

表示的真实值β作为β0和的γ作为γ0。我们有以下渐近结果β^,其证明包含在附录.

定理1。 假设(1), (4),E类β0β日志(1+12(βγ))2< 对于任何 β 在参数空间中。然后

N个(β^负极β0)d日N个(0一个负极1一个负极1)

在哪里?

一个=E类[负极j个2ββT型日志{1+伊吉(β0γ0)}]=4E类[ζ12(β0γ0)ζ13(β0γ0)T型]ζ伊吉(β0γ0)=背景负极1M(M)伊吉(γ0)负极N个伊吉(β0γ0)G公司=E类[2γγT型日志{第页(u个1u个2;γ0)}]B类=E类[负极j个2βγT型日志{1+伊吉(β0γ0)}]M(M)伊吉(γ0)=12{γ日志第页(u个1u个2;γ0)+γ日志第页(u个1j个u个2j个;γ0)}N个伊吉(β0γ0)=负极第页第页j个β日志{1+伊吉(β0γ0)}.

3.2. 基于伪似然的方法

我们的第二种方法是基于以下事实:(4),缺失指示器和协变量单位2考虑到结果,是有条件独立的Y(Y)和协变单位1.我们确实有第页(单位2|Y(Y)单位1= 1) =第页(单位2|Y(Y)单位1). 这意味着,模型回归单位2上的(Y(Y)单位1)可以使用所有完全观察到的受试者(=1)与可以使用所有数据推断的模型相同(就像没有缺少数据一样)。因此,我们的目标是最大限度地

=1N个{第页(u个2u个1)}第页==1N个{第页(u个1u个2;β)第页(u个1u个2)第页(u个2)¦Β第页(u个1u个2;β)第页(u个1u个2)第页(u个2)2}第页.
(10)

请注意,在(10). 这个第页(u个2)在积分中是未知的,但由于整个积分可以被视为关于单位2,我们可以估计第页(u个2)使用其经验分布函数,并将积分替换为其经验版本。另一个组件,模型第页(u个1|u个2),也是未知的。类似第3.1节,我们还拟合了饱和logistic回归模型第页(u个1|u个2;γ).

我们引入符号

H(H)(βγF类)=第页[日志{第页(u个1u个2;β)}负极日志¦Β第页(u个1u个2;β)第页(u个1u个2;γ)d日F类(u个2)]

H(H)(βγF类^)=第页[日志{第页(u个1u个2;β)}负极日志{j个=1N个第页(u个1u个2j个;β)第页(u个1u个2j个;γ)}]

哪里F类表示的累积分布函数单位2.我们还采用了与中相同的方法第3.1节估计γ因此,我们的目标函数变成

第页(βγ^F类^)=1N个=1N个H(H)(βγ^F类^)
(11)

和我们的估计β^

β^=参数最大值β第页(βγ^F类^).
(12)

我们需要指出的是,在广义线性模型中使用伪似然的思想在赵和邵(2015)。这里介绍的方法是赵和邵(2015)对于这种情况单位1单位2两者都是二进制的,但我们仍然需要注意一些细微差别。例如,因为协变量单位1单位2都是二进制的,可以很容易地检查赵和邵(2015)都满足,因此参数β完全可识别。此外,由于两者都是单位1单位2是二元的,可以拟合饱和logistic回归模型第页(u个1|u个2)并且不存在模型错误指定问题。

类似第3.1节,我们还假设

N个(γ^负极γ0)=负极G公司负极1N个1N个=1N个γ日志第页(u个1u个2;γ0)+o(o)第页(1).

我们给出了β^其证明包含在附录.

定理2。 假设(1), (4).假设我第页(βγF类)关于连续两次可微 β而且有一个开口 ΩB类包含β0 这样的话

支持βΩ2ββT型第页(βγF类)<M(M)(Y(Y)X(X))

其中E{M(M)(Y(Y)X(X))} < ∞.然后,作为N→ ∞,

N个(β^负极β0)d日N个(0C类负极1ΛC类负极1)
(13)

哪里

C类=E类[2ββT型H(H)(β0γ0F类0)]Λ=无功功率,无功功率[DG公司负极1γ日志{第页(u个1u个2;γ0)}负极βH(H)(β0γ0F类0)负极2v(v)1(u个2;β0γ0F类0)]D类=E类[2βγT型H(H)(β0γ0F类0)]

v(v)1(u个2;β0γ0F类0)定义在 附录.

4更一般结果模型下的结果

结果模型(1),在中考虑Ibrahim等人(2001年)和中第3节,无法了解Y(Y)及其代理Z轴直接影响,也不影响单位Y(Y)在控制变量之后Z轴在本节中,我们研究了一个更通用的结果模型

罗吉特{P(P)(Y(Y)=1单位1单位2Z轴)}=β0+β1单位1+β2单位2+βZ轴
(14)

我们简单地表示β= (β0β1β2β)T型贯穿本节。

保持与中类似的精神第3节在本节中,我们假设在最低水平上对机制模型施加假设

P(P)(=1Y(Y)单位1单位2Z轴)=P(P)(=1Y(Y)单位1单位2)
(15)

这是合理的,因为在调整了Y(Y)单位1单位2,缺少Y(Y),即变量,不依赖于Z轴,的代理变量Y(Y).

回忆一下第3节,因为两者单位1单位2二元,饱和logistic回归模型第页(u个1|u个2)可以安装,并且没有车型规格错误问题。本节中不会出现这种情况。第页(u个1u个2|z(z)) =第页(u个1|u个2z(z))第页(u个2|z(z))如果一个参数符合logistic回归模型,且没有多方面的交互作用项,那么总共可以估计5个参数。但建模时需要估计6个参数第页(u个1u个2|z(z))因为所有变量单位1单位2Z轴是二进制的。换句话说,简单的参数化模型第页(u个1u个2|z(z))如果在一般变量中,这种现象会更清楚、更常见单位Z轴是连续的或多维的。

在下文中,我们将简要介绍模型下的两个非常规的基于似然的估计量(14)和假设(15). 我们将考虑参数和非参数估计方法第页(u个1u个2z(z)). 非参数估计方法具有无模型误指定问题的优点。为了区别于简单的参数化建模,我们表示q个(u个1u个2z(z))作为的非参数模型第页(u个1u个2z(z)).

4.1. 基于条件似然的方法

类似于中引入的条件似然思想第3.1节,我们将目标函数形成为

c(c)(β)=负极2N个(N个负极1)1<j个N个第页第页j个日志{1+伊吉(β)}
(16)

哪里

伊吉(β)=W公司伊吉第页(u个1u个2z(z)j个;β)第页(j个u个1j个u个2j个z(z);β)第页(u个1u个2z(z);β)第页(j个u个1j个u个2j个z(z)j个;β)

W公司伊吉=第页(u个1u个2z(z)j个)第页(u个1j个u个2j个z(z))第页(u个1u个2z(z))第页(u个1j个u个2j个z(z)j个).

我们现在考虑参数和非参数估计方法W公司伊吉。参数上,我们假设

罗吉特{P(P)(单位1=1单位2Z轴)}=γ0+γ1单位2+γ2Z轴罗吉特{P(P)(单位2=1Z轴)}=γ+γ4Z轴.

经过一些代数运算,我们

W公司伊吉=经验{γ2(u个1负极u个1j个)(z(z)j个负极z(z))+γ4(u个2负极u个2j个)(z(z)j个负极z(z))}{1+经验(γ0+γ1u个2+γ2z(z))}{1+经验(γ0+γ1u个2j个+γ2z(z)j个)}{1+经验(γ0+γ1u个2+γ2z(z)j个)}{1+经验(γ0+γ1u个2j个+γ2z(z))}.

因此,考虑到第3.1节,的渐近性质β^通过条件似然估计类似于定理1,即。,

N个(β^负极β0)d日N个(0一个负极1一个负极1)

其中更多细节与定理1类似,因此省略。

或者,我们考虑估算W公司伊吉采用非参数方法,即。,

W公司伊吉=第页(u个1u个2z(z)j个)第页(u个1j个u个2j个z(z))第页(u个1u个2z(z))第页(u个1j个u个2j个z(z)j个)=q个(u个1u个2z(z)j个)q个(u个1j个u个2j个z(z))q个(u个1u个2z(z))q个(u个1j个u个2j个z(z)j个).

由于所有变量单位1单位2Z轴我们估计是二进制的q个(u个1u个2z(z))使用其经验分布,即,我们将

W公司^伊吉=(=1N个{单位1=u个1单位2=u个2Z轴=z(z)j个})(=1N个{单位1=u个1j个单位2=u个2j个Z轴=z(z)})(=1N个{单位1=u个1单位2=u个2Z轴=z(z)})(=1N个{单位1=u个1j个单位2=u个2j个Z轴=z(z)j个}).

一次W公司^伊吉得到了与参数方法类似的所有步骤,并且也可以导出与定理1类似的渐近结果。

4.2. 基于伪似然的方法

如果我们在第3.2节模型的一般情况第页(Y(Y)|单位1单位2Z轴)假设为(14),的估计量β可以类似地导出。我们引入了类似的符号

H(H)(βF类)=第页[日志{第页(u个1u个2z(z);β)}负极日志{¦Β第页(u个1u个2z(z);β)第页(u个1u个2z(z))d日F类(z(z))}]

H(H)(βF类^)=第页[日志{第页(u个1u个2z(z);β)}负极日志{j个=1N个第页(u个1u个2z(z)j个;β)第页(u个1u个2z(z)j个)}].

一般来说,估计器β^是目标函数的最大化

第页(βF类^)=1N个=1N个H(H)(βF类^).

我们还简要介绍了参数和非参数处理方法第页(u个1u个2|z(z)). 参数上我们有

β^=参数最大值β第页(βγ^F类^)
(17)

哪里

第页(βγ^F类^)=1N个=1N个第页[日志{第页(u个1u个2z(z);β)}负极日志{j个=1N个第页(u个1u个2z(z)j个;β)第页(u个1u个2z(z)j个;γ^)}].

给定中讨论的类似正则性条件第3.2节,的渐近性质β^获得自(17)类似于定理2,即。,

N个(β^负极β0)d日N个(0C类负极1ΛC类负极1)

这里省略了更多的符号和细节。

或者,我们考虑非参数方法H(H)(βF类),其中基本组件

日志¦Β第页(u个1u个2z(z);β)第页(u个1u个2z(z))d日F类(z(z))

可以通过以下公式进行经验估计

日志¦Β第页(u个1u个2z(z);β)第页(u个1u个2z(z))第页(z(z))第纳尔=日志{第页(u个1u个2z(z)=1;β)第页(u个1u个2z(z)=1)第页(z(z)=1)+第页(u个1u个2z(z)=0;β)第页(u个1u个2z(z)=0)第页(z(z)=0)}=日志{第页(u个1u个2z(z)=1;β)第页(u个1u个2z(z)=1)+第页(u个1u个2z(z)=0;β)第页(u个1u个2z(z)=0)}=b条{01}{u个1=u个2=b条}日志{第页(u个1=u个2=b条z(z)=1;β)第页(u个1=u个2=b条z(z)=1)+第页(u个1=u个2=b条z(z)=0;β)第页(u个1=u个2=b条z(z)=0)}.

然后β^类似于定理2,也可以导出。

5儿童心理健康研究分析

在本节中,我们介绍了儿童心理健康研究的分析结果第2节.

我们首先考虑中研究的模型第3节对于该模型,我们将我们提出的条件似然法(方法1)和伪似然方法(方法2)与完备分析法(CC)、假设参数不可忽略机制(NI)的似然法以及Ibrahim等人(2001年)(辅助)。表1总结了参数估计、标准差、z统计量和p值五种方法的比较结果。

表1:

中考虑的模型中三个参数的估计值和标准误差的五种方法的比较第3节.

效果参数方法估算标准错误z统计量p值
拦截β0科科斯群岛−1.73720.1070−16.23580
−0.64100.5170−1.23980.2150
辅助的−1.70300.1050−16.21900
方法1−1.66260.1238−13.43240
方法2−0.72430.3856−1.87840.0603

健康β1科科斯群岛0.24650.13801.78630.0740
0.11500.14200.80990.4180
辅助的0.18100.13701.32120.1864
方法10.42140.65540.64290.5203
方法20.28480.51230.55600.5782

父亲β2科科斯群岛0.54190.16073.37240.0007
0.54500.16103.38510.0007
辅助的0.51200.15803.24050.0012
方法10.54110.12434.35350
方法20.54240.12314.40610

发件人表1可以看出,无论使用哪种方法,效应父亲都具有近似相同的参数估计结果。对于效果健康,虽然方法CC的估计偏差也可以从方法NI和AUX中看到,但所提出的方法表明方法CC的偏差方向相反。我们认为,我们提出的方法更有意义,因为从老师的报告来看,健康状况较差会导致临床精神病理学发生的可能性更高。

然后我们考虑中研究的模型第4节。对于此模型,由于上存在潜在的错误规范问题第页(u个1|u个2z(z))第页(u个2|z(z)),我们考虑不同的建模策略。对于方法1(基于条件似然)或方法2(基于伪似然),我们考虑每个模型第页(u个1|u个2z(z))和第页(u个2|z(z))可以是逻辑回归模型或概率回归模型,因此有八种参数建模方法。我们还考虑了方法1和方法2中的非参数建模方法。我们将我们提出的方法与完整案例分析(CC方法)进行了比较。11种方法的比较总结如下表2,其中“logit-probit”表示第页(u个1|u个2z(z))是logit第页(u个2|z(z))是probit。

表2:

模型中四个参数的十一种估计方法和标准误差的比较第4节.

效果参数方法估算标准错误z统计量p值
拦截β0科科斯群岛−1.93070.1132−17.06180
非参数方法1−1.87270.2625−7.13380
方法2−1.37500.2867−4.79660
逻辑-逻辑方法1−1.62180.3392−4.78130
方法2−1.37500.3055−4.50010
逻辑-概率方法1−1.43530.5499−2.61000.0091
方法2−1.13400.2969−3.81950.0001
probit-logit公司方法1−0.68270.4770−1.43140.1523
方法2−0.72170.3002−2.40400.0162
probit-probit(概率-概率)方法1−0.51560.6188−0.83310.4048
方法2−0.50730.3077−1.64890.0992

健康β1科科斯群岛−0.05160.1480−0.34870.7273
非参数方法1−0.99720.4704−2.11980.0340
方法2−0.98140.3622−2.70980.0067
逻辑-逻辑方法1−1.28190.6980−1.83640.0663
方法2−0.98140.4008−2.44840.0144
逻辑-概率方法1−1.26800.5530−2.29290.0219
方法2−1.23700.4190−2.95260.0032
probit-logit公司方法1−2.28430.5662−4.03430.0001
方法2−2.62010.5934−4.41510
probit-probit(概率-概率)方法1−2.47300.5266−4.69650
方法2−3.46590.7197−4.81570

父亲β2科科斯群岛0.36520.16902.16080.0307
非参数方法10.05260.52580.10000.9203
方法2−0.06990.4460−0.15670.8755
逻辑-逻辑方法1−0.40410.9355−0.43190.6658
方法2−0.07000.5384−0.13000.8966
逻辑概率方法1−2.23930.9099−2.46100.0139
方法2−1.55880.7286−2.13930.0324
probit-logit公司方法1−0.17210.7500−0.22940.8185
方法2−0.53050.6475−0.81930.4126
probit-probit(概率-概率)方法1−1.34610.7213−1.86620.0620
方法2−1.55350.7480−2.07700.0378

家长报告β科科斯群岛1.46210.15839.23800
非参数方法11.40850.135610.39020
方法21.46870.136610.75230
逻辑-逻辑方法11.40430.137010.24760
方法21.46870.137610.67360
逻辑-概率方法11.41490.134010.55690
方法21.45620.131111.10840
probit-logit公司方法11.41220.137110.30070
方法21.47330.132011.16020
probit-probit(概率-概率)方法11.41700.132210.71860
方法21.44750.126511.44110

比较结果来自表2也是有意义的。首先,无论使用哪种方法,对影响家长报告的估计大致相同,相应的p值始终为零。这表明教师报告和家长报告之间的调整关联确实存在,并且具有统计学意义。其次,虽然所提出的方法对影响因子的估计存在一些差异,但非参数方法表明,影响因子几乎为零,且不显著。第三,与CC方法相反,所有提出的方法都对变量健康具有统计显著性影响。这个观察结果当然意味着CC方法有很大的偏差。

我们还想报告,在我们的数值研究中,基于渐近结果的标准误差估计对未知参数的初始值很敏感。因此,我们采用非参数Bootstrap方法。为了研究在我们的设置中Bootstrap样本的足够数量,我们举例说明了标准误差估计值和Bootstrab样本数量之间的关系,如所示图1对于中考虑的模型第3节中的、和图2对于中考虑的模型的非参数方法第4节可以看出,通常200个Bootstrap样本就足够了。在我们的数值研究的每种情况下,我们模拟了300个Bootstrap样本。

保存图片、插图等的外部文件。对象名为nihms-1540645-f0001.jpg

对于建议的方法1和方法2,随着Bootstrap样本数的增加第3节.

保存图片、插图等的外部文件。对象名为nihms-1540645-f0002.jpg

对于建议的非参数方法1和方法2,随着Bootstrap样本数的增加第4节.

6模拟研究

在已知数据生成过程的情况下,我们通过仿真研究检查了所提方法的有限样本性能。

对于中考虑的模型第3节,我们首先生成二进制变量单位2遵循伯努利分布P(P)(单位2=1)=0.6,然后生成二进制变量单位1跟随logit{P(P)(单位1= 1 |单位2)} =γ0+γ1单位2具有γ0=1和γ1=0.5。结果Y(Y)由logit生成{P(P)(Y(Y)= 1 |单位1单位2)} =β0+β1单位1+β2单位2具有β= (−0.5, 0.1, 3)T型。缺失机制由logit生成{P(P)(= 1 |Y(Y)单位1;θ)} =θ0+θ1Y(Y)+θ2单位1具有θ= (−2.20, 3.58, 0.81)T型,因此大约有70%的受试者完全被观察到。我们考虑总样本量N个= 2,000. 我们将这两种方法与使用所有数据的方法(称为基准)和CC方法进行了比较。基于500次模拟复制,估计偏差、标准偏差的蒙特卡罗近似、估计的标准误差和覆盖概率的结果总结为表3.

表3:

对模型中三个参数的估计偏差(bias)、标准偏差蒙特卡罗近似(SD)、估计标准误差(SE)和覆盖概率(CP)的四种方法进行比较第3节.

参数方法偏差标准偏差东南方阴极保护
β0基准0.00550.12180.12730.9600
科科斯群岛2.11640.30460.28980
方法10.00290.01130.01240.9480
方法20.00490.24170.22930.9560

β1基准−0.00310.13580.14230.9620
科科斯群岛−0.60330.32400.31390.5200
方法10.02240.30860.29420.9460
方法20.00060.28370.27290.9460

β2基准0.00010.13520.13480.9300
科科斯群岛0.03700.31460.29630.9320
方法10.03290.30770.29960.9420
方法20.03970.31570.30340.9480

同样,对于第4节,我们首先生成二进制变量Z轴遵循伯努利分布P(P)(Z轴=1)=0.6,然后生成二进制变量单位2跟随logit{P(P)(单位2= 1 |Z轴)}=γ+γ4Z轴具有γ=1和γ4=0.5,和二进制变量单位1跟随logit{P(P)(单位1= 1 |单位2Z轴)} =γ0+γ1单位2+γ2Z轴具有γ0= −1,γ1=0.5和γ2= 0.5. 结果Y(Y)由logit生成{P(P)(Y(Y)= 1 |单位1单位2Z轴)} =β0+β1单位1+β2单位2+γZ轴具有β=(−0.5、0.1、0.1、3)T型.缺失机制由logit生成{P(P)(= 1 |Y(Y)单位1单位2;θ)} =θ0+θ1Y(Y)+θ2单位1+θ单位2具有θ= (−2.20, 3.58, 0.46, 0.46)T型,因此也有大约70%的受试者完全被观察到。我们考虑总样本量N个= 2,000. 我们将参数和非参数建模方法中提出的两种方法与基准方法和CC方法进行了比较。基于500个模拟副本,类似结果总结如下表4.

表4:

对模型中四个参数的估计偏差(bias)、标准偏差蒙特卡罗近似(SD)、估计标准误差(SE)和覆盖概率(CP)的六种方法进行比较第4节.

参数方法偏差标准偏差东南方阴极保护
β0基准−0.00060.14280.13200.9420
科科斯群岛2.11020.30410.28720
方法1-参数0.02260.20690.19780.9696
方法1-非参数0.00970.07290.07730.9760
方法2-参数化−0.00280.26660.26150.9520
方法2——非参数0.00120.20770.20340.9600

β1基准0.00830.12450.12740.9520
科科斯群岛−0.32220.23190.24080.7300
方法1-参数0.05480.41220.41720.9798
方法1-非参数0.02010.25730.25090.9760
方法2-参数化0.01010.25140.26140.9640
方法2——非参数0.00440.17900.18800.9600

β2基准0.00200.15550.14340.9280
科科斯群岛−0.34280.32190.30500.8240
方法1-参数化0.06590.50040.49790.9696
方法1-非参数0.02770.29870.32040.9539
方法2-参数化0.00400.30840.29930.9480
方法2——非参数0.00040.22390.21970.9440

β基准00.14040.13720.9460
科科斯群岛0.02090.32090.31070.9340
方法1-参数0.01910.31490.31300.9393
方法1-非参数0.01760.31590.31470.9479
方法2-参数化0.02130.31670.31680.9480
方法2——非参数0.02060.31910.31970.9500

总结得出的结论表3和44非常清楚。首先,基准方法和所有提出的方法都是渐近无偏的,在每种情况下都具有大约95%的覆盖概率。这与我们对所提出方法的理论研究非常吻合。其次,在大多数情况下,CC方法存在严重偏差,因此导致覆盖概率非常低。这意味着简单地使用CC方法通常是不正确的。第三,在表4由于我们提出的方法中的参数化建模是正确的,因此其性能与非参数方法非常相似,但总体上效率低于非参数方法。最后,从任何一个表3表4,基于非常规可能性比较两种方法的效率很难得出明确的答案。

7讨论

对不可忽视的缺失机制进行参数化建模的局限性促使我们采用基于非常规可能性的方法,因为对机制模型的假设是最低的。本文提出的两种方法都深深植根于基本统计方法:基于条件似然的方法依赖于秩统计和序统计的分解,而基于伪似然的算法依赖于条件独立性和有偏抽样。

从数据角度来看,我们的工作来源于一项儿童心理健康研究,其中所有变量都是二元的。与连续数据相比,二进制数据或一般的分类数据可能不容易分析。例如,应该特别注意二进制数据的可识别性问题和模型错误指定问题。然而,我们提出的方法对数据类型没有任何限制。尽管在模型可识别性和模型错误指定方面存在细微差别,但我们提出的每种方法都可以平等地应用于分类数据或连续数据。

在我们提出的每种方法中,β是感兴趣的参数γ就是讨厌。我们的提案包含以下内容的第一阶段估算程序γ^,然后是参数β通过最大化估计c(c)(βγ^)第页(βγ^F类^)。当然可以考虑直接最大化c(c)(βγ)或第页(βγF类^)同时定位β^γ^没有针对滋扰的第一阶段程序。这样做的一个可能优势是,它可能会提高β,但这并不清楚,需要进一步仔细调查;虽然这样做的一个明确限制是,它将增加计算负担,因为优化过程涉及一个高维参数。

最后,我们提出的方法的一个潜在限制是样本量要求。我们的模拟设置与样本大小N个2000人模仿儿童心理健康研究。我们确实用较小的样本量进行了实验,例如。,N个= 200. 但它在一定程度上显示了数值估计偏差。这一现象在文献中被发现。例如,赵(2017)研究了一种基于重采样的过程,以减少类似情况下的估计偏差。

致谢

作者感谢主编、副主编和两位匿名审稿人的建设性意见,这些意见使论文得到了显著改进。这项工作得到了美国国立卫生研究院转化科学促进中心的支持,奖项编号为UL1TR001412。内容完全由作者负责,不一定代表NIH的官方观点。

附录

定理1的证明。γ^代表的MLEγ

γ^=参数最大值γ1N个=1N个日志{第页(u个1u个2;γ)}.

我们首先发展了γ^.我们从估计方程开始

γ1N个=1N个日志{第页(u个1u个2;γ^)}=0.

通过泰勒展开,

0=γ1N个=1N个日志{第页(u个1u个2;γ^)}=γ1N个=1N个日志{第页(u个1u个2;γ0)}+{2γγT型1N个=1N个日志{第页(u个1u个2;γ0)}}(γ^负极γ0)+o(o)第页(N个负极12).

因此,

N个2γγT型1N个=1N个日志{第页(u个1u个2;γ0)}(γ^负极γ0)+N个γ1N个=1N个日志{第页(u个1u个2;γ0)}+o(o)第页(1)=0.

其结果是,

N个(γ^负极γ0)=负极[2γγT型1N个=1N个日志{第页(u个1u个2;γ0)}]负极1N个γ1N个=1N个日志{第页(u个1u个2;γ0)}+o(o)第页(1)=负极G公司负极1N个1N个=1N个γ日志{第页(u个1u个2;γ0)}+o(o)第页(1).

妨害参数的一次渐近性质γ已知,我们可以发展β。我们可以获得β^通过求解

c(c)(β^γ^)β=0

相当于

{c(c)(β^γ^)β负极c(c)(β0γ^)β}+{c(c)(β0γ^)β负极c(c)(β0γ0)β}+c(c)(β0γ0)β=0.
(18)

明确地,

c(c)(β^γ^)β负极c(c)(β0γ^)β=2ββT型c(c)(β0γ^)(β^负极β0)+o(o)第页(N个负极12)
(19)

泰勒展开。同样,

c(c)(β0γ^)β负极c(c)(β0γ0)β=2βγT型c(c)(β0γ0)(γ^负极γ0)+o(o)第页(N个负极12).
(20)

使用(19)和(20)插入(18),我们可以得到以下方程

N个2ββT型c(c)(β0γ^)(β^负极β0)+N个2βγT型c(c)(β0γ0)(γ^负极γ0)+N个c(c)(β0γ0)β+o(o)第页(1)=0.
(21)

作为N个(γ^负极γ0)=负极G公司负极1N个γ1N个=1N个日志第页(u个1u个2;γ0)+o(o)第页(1), (21)等于

N个2ββT型c(c)(β0γ^)(β^负极β0)+2βγT型c(c)(β0γ0)(负极G公司负极1N个γ1N个=1N个日志第页(u个1u个2;γ0))+N个c(c)(β0γ0)β+o(o)第页(1)=0.

因此,

N个(β^负极β0)=负极{2ββT型c(c)(β0γ^)}负极1{2βγT型c(c)(β0γ0)(负极G公司负极1N个γ1N个=1N个日志第页(u个1u个2;γ0))+N个c(c)(β0γ0)β}+o(o)第页(1).
(22)

此外,我们需要形成一个投影γ1N个=1N个日志第页(u个1j个u个2j个;γ0)英寸(22)通过

γ1N个=1N个日志第页(u个1u个2;γ0)=(N个2)负极11<j个N个12{γ日志第页(u个1u个2;γ0)+γ日志第页(u个1j个u个2j个;γ0)}

c(c)(β0γ0)β=(N个2)负极11<j个N个β[负极第页第页j个日志{1+伊吉(β0γ0)}].

总之(22)可以形成为

N个(β^负极β0)=一个负极1N个(N个2)负极11<j个N个{背景负极1M(M)伊吉(γ0)负极N个伊吉(β0γ0)}+o(o)第页(1)
(23)

这就完成了证明。

定理证明2。通过泰勒的扩张和β第页(β^γ^F类^)=0,我们有

负极β第页(β0γ0F类0)={β第页(β^γ^F类^)负极β第页(β0γ^F类^)}+{β第页(β0γ^F类^)负极β第页(β0γ0F类^)}+β第页(β0γ0F类^)负极β第页(β0γ0F类0)=2ββT型第页(β0γ^F类^)(β^负极β0)+2βγT型第页(β0γ0F类^)(γ^负极γ0)+β第页(β0γ0F类^)负极β第页(β0γ0F类0)+o(o)第页(N个负极12)
(24)

β第页(β0γ0F类^)负极β第页(β0γ0F类0)=1N个=1N个第页×{¦Ββ第页(u个1u个2;β0)第页(u个1u个2;γ0)d日F类^¦Β第页(u个1u个2;β0)第页(u个1u个2;γ0)d日(F类^负极F类0)¦Β第页(u个1u个2;β0)第页(u个1u个2;γ0)d日F类0¦Β第页(u个1u个2;β0)第页(u个1u个2;γ0)d日F类^}负极{¦Ββ第页(u个1u个2;β0)第页(u个1u个2;γ0)d日(F类^负极F类0)¦Β第页(u个1u个2;β0)第页(u个1u个2;γ0)d日F类0}=V(V)N个+o(o)第页(N个负极12)
(25)

哪里

V(V)N个=1N个=1N个第页×{¦Ββ第页(u个1u个2;β0)第页(u个1u个2;γ0)d日F类^¦Β第页(u个1u个2;β0)第页(u个1u个2;γ0)d日(F类^负极F类0)[¦Β第页(u个1u个2;β0)第页(u个1u个2;γ0)d日F类0]2}负极{¦Ββ第页(u个1u个2;β0)第页(u个1u个2;γ0)d日(F类^负极F类0)¦Β第页(u个1u个2;β0)第页(u个1u个2;γ0)d日F类0}

是基于数据的V统计w个= (第页u个1u个2)和以下内核函数

v(v)(w个w个j个)=12{第页¦Ββ第页(u个1u个2;β0)第页(u个u个2;γ0)d日F类0第页(u个1u个2j个;β0)第页(u个1u个2j个;γ0)[¦Β第页(u个1u个2;β0)第页(u个1u个2;γ0)d日F类0]2}+第页j个¦Ββ第页(j个u个1j个u个2;β0)第页(u个1j个u个2;γ0)d日F类0第页(j个u个1j个u个2;β0)第页(u个1j个u个2;γ0)[¦Β第页(j个u个1j个u个2;β0)第页(u个1j个u个2;γ0)d日F类0]2{负极第页β第页(u个1u个2j个;β0)第页(u个1u个2j个;γ0)¦Β第页(u个1u个2;β0)第页(u个1u个2;γ0)d日F类0负极第页j个β第页(j个u个1j个u个2;β0)第页(u个1j个u个2;γ0)¦Β第页(j个u个1j个u个2;β0)第页(u个1j个u个2;γ0)d日F类0}.

v(v)1(w个j个)=E类[v(v)(w个w个j个w个)]=P(P)(=1)2E类{¦Ββ第页(j个u个1j个u个2;β0)第页(u个1j个u个2;γ0)d日F类0第页(j个u个1j个u个2;β0)第页(u个1j个u个2;γ0)[¦Β第页(j个u个1j个u个2;β0)第页(u个1j个u个2;γ0)d日F类0]2}负极{β第页(j个u个1j个u个2;β0)第页(u个1j个u个2;γ0)¦Β第页(j个u个1j个u个2;β0)第页(u个1j个u个2;γ0)d日F类0第页=1u个2}

这不取决于第页u个1,并将用表示v(v)1(u个2;β0γ0F类0). 根据V统计理论,我们有

V(V)N个=1N个=1N个2v(v)1(u个2;β0γ0F类0)+o(o)第页(N个负极12).
(26)

在给定的条件下,我们

N个(β^负极β0)=C类负极11N个=1N个{DG公司负极1γ日志第页(u个1u个2;γ0)负极βH(H)(β0γ0F类0)负极2v(v)1(u个2;β0γ0F类0)}+o(o)第页(1)

这就完成了证明。

参考文献

  • Chen J和Fang F(2019),“用无响应仪器估计不可忽略无响应方程的半参数似然,”非参数统计杂志, 1–15.[谷歌学者]
  • Fang F和Shao J(2016),“不可忽略无响应的模型选择,”生物特征103, 861–874.[谷歌学者]
  • Ibrahim JG、Chu H和Chen M-H(2012),“临床研究中的缺失数据:问题和方法,”临床肿瘤学杂志30, 3297–3303.[PMC免费文章][公共医学][谷歌学者]
  • Ibrahim JG、Lipsitz SR和Horton N(2001),“使用辅助数据进行具有不可忽视缺失结果的参数估计,”英国皇家统计学会杂志:C辑(应用统计学)50, 361–373.[谷歌学者]
  • Liang K-Y和Qin J(2000),“非标准情形下的回归分析:一种两两伪似然方法,”英国皇家统计学会杂志:B辑(统计方法)62, 773–786.[谷歌学者]
  • Little RJ、D'agostino R、Cohen ML、Dickersin K、Emerson SS、Farrar JT、Frangakis C、Hogan JW、Molenberghs G、Murphy SA等(2012年),”临床试验中数据缺失的预防和处理,”新英格兰医学杂志367, 1355–1360.[PMC免费文章][公共医学][谷歌学者]
  • Little RJ和Rubin DB(2002),缺失数据的统计分析,Wiley,第二版。[谷歌学者]
  • Zahner GE和Daskalakis C(1997),“与心理健康、一般健康和儿童精神病理学校本服务使用相关的因素.”美国公共卫生杂志87, 1440–1448.[PMC免费文章][公共医学][谷歌学者]
  • Zahner GE、Jacobs JH、Freeman DH和Trainor KF(1993),“美国东北部一个州的城乡儿童精神病理学:1986年至1989年,”美国儿童与青少年精神病学学会杂志32,378–387页。[公共医学][谷歌学者]
  • Zahner GE、Pawelkiewicz W、DeFrancesco JJ和Adnopoz J(1992),“城市社区儿童心理健康服务需求与利用模式:流行病学评估,”美国儿童与青少年精神病学学会杂志31, 951–960. [公共医学][谷歌学者]
  • Zhao J(2017),“基于一般缺失数据机制的最大近似条件似然估计的偏差减小,”非参数统计杂志29, 577–593.[PMC免费文章][公共医学][谷歌学者]
  • Zhao J和Ma Y(2018),“不可忽略无响应多元缺失数据分析中的最优伪似然估计,”生物特征105, 479–486.[PMC免费文章][公共医学][谷歌学者]
  • Zhao J和Shao J(2015),“具有不可忽略缺失数据的广义线性模型中的半参数伪似然,”美国统计协会杂志110, 1577–1590.[谷歌学者]
  • -(2017),“具有一般缺失数据机制的广义线性模型的近似条件似然,”系统科学与复杂性杂志30, 139–153.[谷歌学者]
  • Zhao J、Yang Y和Ning Y(2018),“不可忽略缺失数据变量选择的惩罚成对伪似然,”中国统计局28, 2125–2148.[谷歌学者]
  • Zhao P、Tang N、Qu A和Jiang D(2017),“具有不可忽略缺失数据的半参数估计方程推导,”中国统计局, 89–113.[谷歌学者]