跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
生物特征。作者手稿;PMC 2022年12月1日提供。
以最终编辑形式发布为:
2020年11月6日在线发布。 数字对象标识:10.1093/biomet/asaa091
预防性维修识别码:项目管理委员会8691743
NIHMSID公司:美国国家卫生研究院1672870
PMID:34949875

具有面板计数数据的半参数回归模型的最大似然估计

关联数据

补充资料

总结

在工业可靠性测试、医学研究和各种其他科学调查中,经常会遇到小组计数数据,其中每个研究对象的观察结果由连续检查之间的复发事件数组成。我们通过具有随机效应的非齐次泊松过程,阐述了潜在时间相关协变量对一种或多种类型的复发事件的影响。我们在任意检查方案下采用非参数最大似然估计,并开发了一种简单稳定的EM算法。我们证明了回归参数的估计结果是一致的和渐近正态的,协方差矩阵达到了半参数效率界,并且可以通过剖面似然进行估计。我们通过广泛的模拟研究评估了所提出方法的性能,并进行了皮肤癌临床试验。

关键词:EM算法、区间删失、非齐次泊松过程、非参数似然、比例平均模型、随机效应、重复事件、半参数效率、时间相关协变量

1介绍

当感兴趣的事件可能再次发生时,会出现小组计数数据,但由于实际原因,每个研究对象都是间歇性检查,而不是连续检查,因此只观察到每个检查时间之前发生的事件数量。这些数据包括核电厂给水流量损失的数量(Gaver&O'Muirchartaigh,1987年)癌症患者的肿瘤数量(拜尔,1980年)以及银屑病关节炎患者受损关节的数量(Siannis等人,2006年). 在这些情况下,研究人员通常对评估协变量(如治疗)对复发事件过程的影响感兴趣。重复事件时间未知这一事实带来了巨大的统计和计算挑战。

具有与时间无关协变量的面板计数数据的比例平均数模型已通过孙伟(2000),Wellner&Zhang(2007)、和Lu等人(2009)等等。估计值孙伟(2000)可以很容易地计算,但在统计上效率很低,并且要求检查时间独立于重复事件过程或进行建模。Wellner&Zhang(2007)推导了两个一致估计量,但其双重迭代算法速度慢且不稳定。样条曲线法Lu等人(2009)需要估计较少的参数,但需要任意选择样条函数,尤其是节点的数量和位置。Yao等人(2016)研究了具有与时间无关协变量的伽马脆弱非齐次泊松过程模型。他们采用参数方法,将基线强度函数表示为单调样条函数的线性组合。He等人(2008)考虑多变量面板计数数据,其中监测一种以上类型的复发事件。他们用比例平均模型表示了边际分布,并基于以下估计方程导出了参数估值器的联合分布孙伟(2000).

本文研究比例强度模型(即非齐次泊松过程)的非参数极大似然估计(安徒生和吉尔,1982年)对单变量或多变量面板计数数据具有随机效应。随机效应解释了同一类型或不同类型重复事件的受试者内部相关性,并允许根据受试者的事件历史预测未来事件。我们考虑与时间相关的协变量,不建模检查时间。我们允许基线强度函数完全非参数化,并避免使用样条曲线。我们设计了一种EM算法,其中累积基线强度函数的估计器具有显式形式,并且有限维参数的估计方程具有唯一解。此外,我们创新性地运用现代经验过程理论,建立了严格的渐近理论。最后,我们用模拟和经验数据证明了所提出的方法的有效性。

2方法

2.1.模型和可能性

我们考虑一个随机样本n个受试者K(K)复发事件的类型。对于= 1, …,n个k个= 1, …,K(K),让N个ki公司(t吨)表示k个第种类型的事件受试者经历的时间t吨,并让X(X)(t吨)表示一组可能与时间相关的外部协变量主题。我们指定N个ki公司(t吨)是具有强度函数的非齐次泊松过程

λk个(t吨)=λk个(t吨)e(电子)βk个T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨),
(1)

哪里βk个是一个d日-回归参数向量,λk个(t吨)是任意基线强度函数,Z轴(t吨)和Z轴˜(t吨)包含常量和的一部分X(X)(t吨),b条ki公司是一个第页-尺寸随机效应k个事件类型,以及ξ是一个-维度随机效应K(K)事件类型。我们假设b条ki公司(k个= 1, …,K(K))和ξ相互独立b条ki公司ξ协方差矩阵∑为零-均值正态k个和Ψ。如果K(K)=1,那么ξ省略。值得注意的是,Yao等人(2016)研究了具有非时间相关协变量的单循环事件过程的具有伽马脆弱性的比例强度模型。与正常随机效应相比,伽玛射线脆弱性会导致更严格的依赖形式。

在面板计数数据中,我们没有观察到任何事件时间;相反,我们在一系列检查时间中观察事件计数,这可能因受试者和事件类型而异。具体来说,我们观察到N个k个(U型k个1),,N个k个(U型k个k个)或相当于Δ基吉岛=N个ki公司(U型基伊) −N个ki公司(U型ki,j−1) (j个= 1, …,ki公司),其中0<U型k个1<<U型k个k个=C类k个ki公司考试时间N个ki公司(·),C类ki公司是随访的结束,U型ki公司0=0,和N个ki公司(0) = 0.

写入U型k个=(U型k个0,,U型k个k个)T型(k个= 1, …,K(K);= 1, …,n个). 我们假设(U型1, …,U型)独立于(N个1, …,N个)有条件的X(X)(·). 条件启用X(X)(·),b条ki公司(k个= 1, …,K(K))和ξ,增量Δ基吉岛是具有平均值的独立泊松随机变量U型k个,j个1U型k个j个e(电子)βk个T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个(t吨),其中Λk个(t吨)=0t吨λk个()d日是累积基线强度函数。因此,可能性与

=1n个[ξϕ(ξ;Ψ)k个=1K(K)b条k个ϕ(b条k个;k个)j个=1k个{U型k个,j个1U型k个j个e(电子)βk个T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个(t吨)}Δk个j个Δk个j个!×经验{0C类k个e(电子)βk个T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个(t吨)}d日b条k个d日ξ],

哪里ϕ(·;∑)表示均值为0且协方差矩阵为∑的多元正态密度。

2.算法

我们采用非参数最大似然估计,其中∧k个(t吨)被视为具有非负跳跃的阶跃函数U型基吉岛(j个= 1, …,ki公司;= 1, …,n个). 具体来说,让Λk个(t吨)==1k个λk个(t吨k个t吨),其中0=t吨k个0<t吨k个1<<t吨k个k个<k个中的唯一值U型ki公司(= 1, …,n个)、和λ肯尼亚是∧的跳跃大小k个(t吨)在t吨肯尼亚。然后可能性变为

=1n个{ξϕ(ξ;Ψ)k个=1K(K)b条k个ϕ(b条k个;k个)j个=1k个(:t吨k个(U型k个,j个1,U型k个j个]λk个e(电子)βk个T型X(X)k个+b条k个T型Z轴k个+ξT型Z轴~k个)Δk个j个Δk个j个!×经验(:t吨k个C类k个λk个e(电子)βk个T型X(X)k个+b条k个T型Z轴k个+ξT型Z轴˜k个)d日b条k个d日ξ},
(2)

哪里X(X)基尔=X(X)(t吨肯尼亚),Z轴基尔=Z轴(t吨肯尼亚)、和Z轴˜k个=Z轴˜(t吨k个).

直接最大化(2)不可行,因为没有λ肯尼亚,其中一些可能为零,因此位于参数空间的边界上。为了应对这一挑战,我们引入了独立的泊松随机变量W公司基尔(k个= 1, …,K(K);= 1, …,n个;= 1, …,k个)有手段λk个e(电子)βk个T型X(X)k个+b条k个T型Z轴k个+ξT型Z轴˜k个很容易看出Δ的可能性ij公司与以下情况的可能性相同:t吨k个(U型k个,j个1,U型k个j个]W公司k个因此,我们可以最大化(2)通过EM算法{X(X)(·),ξ,b个ki公司,W基尔} (t吨肯尼亚C类ki公司;k个= 1, …,K(K);= 1, …,n个)作为完整数据(ξ,b个ki公司,Wki公司) (k个= 1, …,K(K);=1…,n个)作为缺失数据,以及{X(X)(),:t吨k个(U型k个,j个1,U型k个j个]W公司k个}(j个= 1, …,ki公司;k个= 1, …,K(K);= 1, …,n个)作为观测数据。

完整的数据日志相似性是

=1n个[12日志(2π)|Ψ|12ξT型Ψ1ξ+k个=1K(K){12日志(2π)第页|k个|12b条k个T型k个1b条k个}+k个=1K(K)=1k个(t吨k个C类k个){W公司k个(日志λk个+βk个T型X(X)k个+b条k个T型Z轴k个+ξT型Z轴˜k个)λk个e(电子)βk个T型X(X)k个+b条k个T型Z轴k个+ξT型Z轴˜k个日志W公司k个!}].
(3)

在M-步骤中,我们最大化(3)给出了观测数据。具体而言,我们更新βk个采用一步牛顿-拉斐逊法(肯德尔,1989年,第2章)至估算函数

=1n个=1k个(C类k个t吨k个)E类^(W公司k个){X(X)k个=1n个(C类k个t吨k个)E类^(e(电子)βk个T型X(X)k个+b条k个T型Z轴k个+ξT型Z轴˜k个)X(X)k个=1n个(C类k个t吨k个)E类^(e(电子)βk个T型X(X)k个+b条k个T型Z轴k个+ξT型Z轴˜k个)},

哪里E类^()表示给定观测数据的条件期望。此外,我们设置

λk个==1n个(C类k个t吨k个)E类^(W公司k个)=1n个(C类k个t吨k个)E类^(e(电子)βk个T型X(X)k个+b条k个T型Z轴k个+ξT型Z轴˜k个).

最后,我们设置k个=n个1=1n个E类^(b条k个b条k个T型)(k个=1,,K(K))Ψ=n个1=1n个E类^(ξξT型).

在E步骤中,我们计算了M步骤中涉及的条件期望。请注意,对于任何tkl公司∈ (U型基,j−1,U基吉岛],

E类^(W公司k个)=Δj个E类^(λk个e(电子)βk个T型X(X)k个+b条k个T型Z轴k个+ξT型Z轴˜k个:t吨(U型k个,j个1,U型k个j个]λk个e(电子)βk个T型X(X)k个+b条k个T型Z轴k个+ξT型Z轴˜k个).

因此,所有条件期望都与(b条ki公司,ξ). 鉴于(2),条件密度b条ki公司(k个= 1, …,K(K))和ξ假设观测数据与

ϕ(ξ;Ψ)k个=1K(K){ϕ(b条k个;k个)j个=1k个(:t吨k个(U型k个,j个1,U型k个j个]λk个e(电子)βk个T型X(X)k个+b条k个T型Z轴k个+ξT型Z轴˜k个)Δk个j个Δk个j个!×经验(:t吨k个C类k个λk个e(电子)βk个T型X(X)k个+b条k个T型Z轴k个+ξT型Z轴˜k个)}.

我们使用高斯求积近似计算条件期望(肯德尔,1989年,第5章)。什么时候?K(K)=1,我们不需要估计Ψ,并且条件期望不积分ξ.

设置βk个至零,∑k个和Ψ到单位矩阵,以及λ肯尼亚= 1/米k个,我们在E步和M步之间迭代,直到两次连续迭代之间参数估计值的绝对差之和小于某个阈值,例如10−3.通过以下方式表示得出的估计值β^k个,Λ^k个,^k个、和Ψ^.

我们可以使用事件历史来改进对未来事件的预测。具体来说,让n个k个表示k个受试者经历的时间类型t吨0在我们的联合模型下,计数过程的增量与基于协变量和随机效应的事件历史无关。因此第种类型的事件t吨1>t吨0预计为

ξϕ(ξ;Ψ^)k个=1K(K)b条k个k个(b条k个,ξ){t吨0t吨1e(电子)β^k个T型X(X)(t吨)+b条k个T型Z轴k个(t吨)+ξT型Z轴˜(t吨)d日Λ^k个(t吨)}(k个=)ϕ(b条k个;^k个)d日b条k个d日ξξϕ(ξ;Ψ^)k个=1K(K)b条k个k个(b条k个,ξ)ϕ(b条k个;^k个)d日b条k个d日ξ,
(4)

哪里

k个(b条k个,ξ)={0t吨0e(电子)β^k个T型X(X)(t吨)+b条k个T型Z轴k个(t吨)+ξT型Z轴˜(t吨)d日Λ^k个(t吨)}n个k个经验{0t吨0e(电子)β^k个T型X(X)(t吨)+b条k个T型Z轴k个(t吨)+ξT型Z轴˜(t吨)d日Λ^k个(t吨)}.

2.3.渐近性质

θ包含βk个(k个= 1, …,K(K))和∑的上三角元素k个(k个= 1, …,K(K))和Ψ,并让θ^表示的非参数极大似然估计θ.让U型表示支持的联合U型基吉岛此外,让τk个表示的最小上界C类ki公司,假设是有限的。最后,让我们θ0表示的真实值θ,其他参数的符号类似。我们施加以下正则性条件:

条件1

参数θ0属于其域内部的紧集。此外,∧k个0(·)在U型[0,τk个].

条件2

概率为1,X(X)(·)在[0中具有有界的总变差, τ],其中τ=最大值k个τk个.如果存在确定性函数1(t吨)和一个向量2这样的话1(t吨)+2T型X(X)(t吨)=0对于t吨在U≠[0]中]概率为1,那么1(t吨)=0和2= 0. 此外,如果Z轴(t吨)T型A类k个Z轴(t吨)=0和Z轴˜(t吨)T型B类Z轴˜(t吨)=0对于任何矩阵A类k个B类和用于t吨U型[0,τk个],然后A类k个=0和B类= 0.

条件三。

检查次数,ki公司,至少为1,具有E类(k个2)<此外,存在一个正常数η这样的话公共关系{最小值j个=1,,k个(U型k个j个U型k个,j个1)>ηk个,X(X)}=1,以及的条件密度(U型基,j−1=u、 u型基吉岛=v(v))给定ki公司X(X)存在并且对于u个v(v)他们的支持。最后,公关(C类ki公司=τk个|X(X)) >c(c)0对一些人来说c(c)0> 0.

条件1要求θ0,但∧k个0(·)有界。事实上,推导了Λ^k个()是证明一致性的关键步骤。条件2自然成立,如果X(X)与时间无关,并且(1,X(X)T型)与正概率线性无关。在这种情况下,条件的第二部分等于Z轴Z轴˜与正概率线性无关。条件3意味着相邻检查时间之间存在正差距。

我们在两个定理中说明了非参数极大似然估计量的渐近性质:

定理1。

在条件1-3下,θ^θ00几乎可以肯定,在哪里‖ · ‖是欧几里德规范。此外,k个=1K(K)啜饮t吨[0,τk个]|Λ^k个(t吨)Λk个0(t吨)|0几乎可以肯定。

定理2。

在条件1-3下,n个1/2(θ^θ0)在分布上收敛到协方差矩阵达到半参数效率界的零均值正态随机向量。

定理1意味着θ^Λ^k个(k个=1,,K(K))是一致的,定理2表明θ^是渐近正规和渐近有效的。估计的协方差矩阵θ^,我们计算剖面对数似然(墨菲和范德法特,2000)的θ通过最大化(2)结束λ肯尼亚(k个= 1, …,K(K);= 1, …,k个)通过上述EM算法,但具有θ保持固定。pl公司(θ)是的对数第个学期(2)在哪儿λ肯尼亚被轮廓似然计算中的估计值所取代。那么极限协方差矩阵n个1/2(θ^θ)可以通过矩阵的逆矩阵一致估计(j、 我)第个元素是,

n个1=1n个{第页(θ^+小时n个e(电子)j个)第页(θ^)小时n个}{第页(θ^+小时n个e(电子))第页(θ^)小时n个},

哪里e(电子)j个j个第个标准向量,以及小时n个=中国−1/2对于一些常量c(c)(Zeng等人,2017年). 我们发现c(c)=1或5适用于各种设置。

三。模拟研究

我们进行了广泛的仿真研究,以评估所提出的方法在实际情况下的性能。我们考虑了两类具有强度函数的复发事件0.7(1+0.7t吨)1e(电子)β11X(X)1+β12X(X)2+b条1+ξ0.4e(电子)β21X(X)1+β22X(X)2+b条2+ξ,其中X(X)1X(X)2分别是独立的Ber(0.5)和Un[0,1],β11= 0.5,β12= −0.5,β21= 0,β22=0.6,以及b条1,b条2、和ξ分别为0.5、0.4和0.25。我们设置了ki公司随机变为1、2或3。我们生成了ki公司来自Un(0,3−0.1)的时间点ki公司)然后让U型基吉岛成为j个第个有序时间点加上Un(0.1(j个− 1), 0.1j个). 这样,所有U型基吉岛在0和3之间,并且所有相邻的检查时间间隔至少0.1。平均而言,每个受试者有1.7个第一类事件和2.3个第二类事件。我们设置了n个=200、400或800,模拟10000次重复。最后,我们设置小时n个=n个−1/2.

收敛阈值为10−3当最大迭代次数为1000次时,EM算法在99.8%以上的重复中收敛n个=200且始终收敛于n个=400和800。在带有i-7 Intel内核的MAC笔记本电脑上,分析一个大小分别为200、400和800的数据集需要大约30、100和500秒。结果总结在表1图1参数估计量几乎是无偏的,方差估计量准确地反映了真实的变化。置信区间具有合理的覆盖范围,尽管对于方差分量而言,它们往往是保守的。

保存图片、插图等的外部文件。对象名为nihms-1672870-f0001.jpg

估算累积基线强度函数∧的模拟结果1(·)=对数(1+0.7t吨)(左侧面板)和∧2(·) = 0.4t吨(右面板):实线和虚线分别与真值和平均估计值有关;虚线曲线适用于估计值的上下2.5%。

表1:

二元面板计数数据模拟研究的汇总统计

联合分析
n个= 200n个= 400n个= 800
美国东部时间东南方参见人物配对关系美国东部时间东南方参见人物配对关系美国东部时间东南方参见人物配对关系
β11= 0.50.4980.1790.183960.4980.1270.128950.4990.0890.09095
β12= −0.5−0.5000.3100.31795−0.4980.2180.21895−0.4990.1540.15295
β21=0−0.0020.1560.16196−0.0020.1130.112950.0010.0800.07995
β22= 0.60.6020.2750.282950.6020.1950.196950.6020.1370.13795
σ12=0.5 0.4870.1610.181980.4930.1130.122980.4960.0780.08497
σ22=0.4 0.3870.1340.155980.3950.0960.105970.3960.0680.07297
ψ2= 0.250.2460.0990.115970.2460.0700.077970.2490.0500.05397
单独分析
n个= 200n个= 400n个= 800
美国东部时间东南方参见人物配对关系美国东部时间东南方参见人物配对关系美国东部时间东南方参见人物配对关系
β11= 0.50.5030.1810.182950.4990.1260.128950.4990.0890.09095
β12= −0.5−0.4990.3110.31195−0.4990.2180.21695−0.4990.1550.15195
σ12=0.75 0.7410.1610.177970.7410.1130.121960.7460.0790.08496
β21= 0−0.0040.1590.15995−0.0030.1120.11295−0.0010.0790.07995
β22= 0.60.6050.2770.280950.6050.1930.196950.6010.1380.13895
σ22=0.65 0.6340.1270.142970.6430.0890.097970.6460.0630.06896

Est,参数估计量的平均值;SE,参数估计的标准误差;SEE,标准误差估计值的平均值;CP,95%置信区间的覆盖率。

我们还使用§2.2中的算法分别对这两种类型的事件进行了单变量分析K(K)= 1. 我们没有遇到任何不收敛现象。结果总结在表1注意,共享的随机效应ξ现在与特定事件的随机效果相结合b条1b条2.由于两类事件之间共享随机效应的方差很小,单独分析表现良好,估计值几乎与联合分析的估计值一样有效。另一项模拟研究表明,联合分析在估算方面的效率提高了10%以上β11β12当共享随机效应的方差ξ从0.25增加到1。

我们通过设置β11=β21= 0.3. 我们稍微修改了EM算法,以在M步中反映此约束。结果如所示补充表1联合分析在推断公共参数方面比单独分析更有效。额外的模拟研究表明,所提出的方法在协变量特定的随机效应和协变量相互作用的时间方面继续表现良好,并且比现有方法更有效;看见补充材料.

4皮肤癌试验

我们考虑了一项癌症化学预防试验,旨在评估二氟甲基鸟氨酸在减少非黑色素瘤皮肤癌患者皮肤癌复发方面的有效性(Bailey等人,2010年). 共有143名患者被随机分为二氟甲基鸟氨酸组和147名安慰剂组。这些患者计划每6个月接受一次检查,以确定是否患有两种类型的非黑色素瘤皮肤癌:基底细胞癌和鳞状细胞癌。实际检查时间因患者而异,检查次数从1次到17次不等。新的基底细胞肿瘤的数量从0到16个不等,新的鳞状细胞肿瘤的数目从0到23个不等。

我们符合模型(1)二变量面板计数数据,其中协变量包括二氟甲基鸟氨酸的治疗指标、基线时既往皮肤肿瘤的数量、性别和诊断时的年龄,分为≥65岁和<65岁,随机效应包括标量b条1b条2ξEM算法在300次迭代内收敛。结果显示在表2治疗降低了两种皮肤癌的风险,尽管在统计学上并不显著。既往肿瘤的数量与这两种癌症的风险呈正相关。男性和老年患者患鳞状细胞癌的风险较高。性别和年龄与基底细胞癌无显著相关性。基底细胞癌和鳞状细胞癌的类型特异性随机效应方差估计分别为0.853和1.155,标准误差分别为0.284和0.382,表明同一类型癌症的复发与时间密切相关。共享随机效应的方差估计为0.128,标准误差为0.192,表明这两种癌症之间的相关性相对较弱。值得注意的是,Bailey等人(2010年)据报道,对减少鳞状细胞癌的治疗效果不显著,但对基底细胞癌的疗效显著。他们的分析是基于标准的两个样本t吨-测试,这不适用于面板计数数据。

表2:

皮肤癌化学预防试验中面板计数数据的回归分析

基底细胞癌鳞状细胞癌任何癌症
估算St错误第页-价值估算St错误第页-价值估算St错误第页-价值
治疗−0.1680.1830.359−0.1460.2650.582−0.1210.1490.415
既往肿瘤0.1040.013< 0.0010.1090.016< 0.0010.1080.007< 0.001
男性0.1200.1780.4980.6350.2620.0150.2550.1510.090
年龄≥65岁−0.1470.1870.4330.8520.2840.0030.1880.1580.236

我们还通过结合两种癌症类型进行了单变量分析,即考虑肿瘤总数而忽略癌症类型。结果显示在的右侧面板中表2. The第页-综合分析得出的值往往介于第页-这两种癌症类型的值。

我们可以沿着以下路线对两种类型的复发事件进行同步推断Wei等人(1989)具体来说,我们可以使用标准正态检验统计来检验治疗对任何一种癌症都没有影响的无效假设(1,1)V(V)^1(β^11,β^21)T型/{(1,1)V(V)^1(1,1)T型}1/2,其中V(V)^是估计的协方差矩阵(β^11,β^21).结果第页-值为0.288,比两种特定类型的第页-值和第页-综合分析得出的价值。

使用表达式(4),我们在图2第800天鳞状细胞和基底细胞肿瘤的数量如何影响鳞状细胞癌的未来发展。

保存图片、插图等的外部文件。对象名为nihms-1672870-f0002.jpg

对于65岁以上接受二氟甲基鸟氨酸治疗的患者,根据第800天的事件史预测鳞状细胞癌:实心、虚线、虚线和点状曲线对应于(1)基线时没有肿瘤,但在第800天时有两个基底细胞肿瘤和一个鳞状细胞肿瘤,(2)在基线检查时没有肿瘤,但在800天时有一个鳞状细胞肿瘤,(3)在基线检查前有十个肿瘤,在800天前有两个新的基底细胞肿瘤和一个新的鳞状细胞瘤,(4)在基线检测时有十个癌瘤,在800天后有一个新鳞状细胞癌。

5评论

出于几个原因,我们将重点放在随机效应模型而不是边际模型上。首先,随机效应允许使用过去的事件历史来改进对未来事件的预测,如皮肤癌示例所示。其次,正如我们所做的那样,可以在随机效应模型下推导出有效的估计量。第三,重复事件的依赖性具有科学意义。随机效应的存在带来了相当大的理论和计算挑战,我们成功地解决了这一问题。我们的EM算法可以通过忽略随机效应的积分和方差参数的更新来应用于比例均值模型。值得注意的是,比例强度模型对个人风险预测很有用,而比例均值模型适用于人口平均效应,并且不参数化复发事件的依赖性。

本文与我们最近在间隔感知数据方面的工作一致(Zeng等人,2016;Zeng等人,2017年). 然而,使用面板计数数据,受试者在每个时间间隔内的观察值可以是任何非负整数,而使用以间隔为中心的数据,受试验者在整个研究期间最多只能经历一次事件。因此,这两种类型的数据的数据结构和可能性有着根本的不同。用于面板计数数据的EM算法的E步骤和M步骤都需要更复杂的计算。此外,还需要新的理论论证来建立信息算子的模型可辨识性和可逆性。

我们假设检查时间独立于以协变量为条件的复发事件过程。如果检查时间取决于患者的健康状况,则此假设可能不成立。然而,我们可以通过与模型共享随机效应的检查时间的比例强度模型来捕获检查时间对复发事件过程的依赖性(1)。我们可以将EM算法和渐近理论推广到这个场景。最后,推导了Λ^k个()将是可取的。

补充材料

支持

单击此处查看。(161K,pdf)

致谢

这项工作得到了美国国立卫生研究院的支持。作者感谢两位裁判的宝贵意见。

附录

渐近结果的证明

写入∧=(∧1, …, ΛK(K)). 此外,让L(左)(θ,∧)和(θ,∧)分别表示单个受试者的可能性和对数似然。那就是,

(θ,Λ)=日志ξϕ(ξ;Ψ)k个=1K(K)b条k个j个=1k个A类k个j个(b条k个,ξ;βk个,Λk个)ϕ(b条k个;k个)d日b条k个d日ξ,

哪里

A类k个j个(b条k个,ξ;βk个,Λk个)={U型k个,j个1U型k个j个e(电子)βk个T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个(t吨)}Δk个j个经验{U型k个,j个1U型k个j个e(电子)βk个T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个(t吨)}Δk个j个!.

最后,让我们n个表示基于n个独立观察,表示其期望,以及G公司n个表示经验过程n个1/2(n个).

定理1的证明。

首先,我们展示极限啜饮n个Λ^k个(τk个ϵ)<任意概率为1ϵ> 0. 与区间删失数据不同,证明需要考虑随时间变化的累积计数,这可能是无限的。写入(θ,Λ)=日志[{L(左)(θ,Λ)+L(左)(θ0,Λ0)}/2]考虑函数类F类*={(θ,Λ):θΘ,Λk个A类*,k个=1,,K(K)},其中θ表示的参数空间θ0、和A类*是∧(0)=0的非递减函数∧(·)的集合。因为L(左)(θ00)在下面由正常数限定,F类*是Glivenko-Cantelli类。显然,n个(θ^,Λ^)n个(θ0,Λ0)=n个(θ0,Λ0)因此,概率为1,极限inf公司n个n个(θ^,Λ^)极限inf公司n个n个(θ0,Λ0)=(θ0,Λ0).

M(M)~=啜饮t吨[0,τ]{啜饮X(X),βk个|βk个T型X(X)(t吨)|+啜饮Z轴,Z轴˜(Z轴(t吨)+Z轴~(t吨))},在条件1下是有限的。因为=1x个(+1)!e(电子)/对于任何0<x个和任何正数,

j个=1k个{U型k个,j个1U型k个j个e(电子)β^k个T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λ^k个(t吨)}Δk个j个{N个k个(C类k个)+1}!经验{0C类k个e(电子)β^k个T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λ^k个()}0C类k个e(电子)β^k个T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λ^k个(t吨).

由此可见

极限inf公司n个n个(θ^,Λ^)极限啜饮n个n个[ξϕ(ξ;Ψ^)k个=1K(K)b条k个{N个k个(C类k个)+1}!ϕ(b条k个;^k个)0C类k个e(电子)M(M)˜M(M)˜b条k个M(M)˜ξd日Λ^k个(t吨)d日b条k个]O(运行)(1)k个=1K(K)极限啜饮n个n个{(C类k个τϵ)日志Λ^k个(τk个ϵ)}.

因此,极限啜饮n个n个{(C类k个τϵ)日志Λ^k个(τk个ϵ)}=O(运行)(1)对于任何ϵ> 0. 因为n个{(C类k个τϵ)}P(P)(C类k个τϵ),在条件3下为正,极限啜饮n个Λ^k个(τk个ϵ)<任意概率为1ϵ>0。

我们考虑递增序列τ公里(=1,2,…),带极限→∞ τ公里=τ.通过Helly的选择引理,对于任何以及(β^k个,^k个,Λ^k个),还有一个子序列Λ^k个()弱收敛到Λk个*在[0上,τ公里]、和(β^k个,^k个)收敛到(βk个*,k个*)因此,我们构造了Λ^k个弱收敛到Λk个*在n[0上,τ)通过选择第个学期Λ^k个()(=1,2,).因为点的勒贝格测度τk个为零,我们得出结论,概率为1,Λ^k个(t吨)收敛到Λk个*(t吨)对于t吨∈ [0, τk个]几乎到处都是。通过选择进一步的子序列,我们可以假设Ψ^收敛到Ψ*。如果我们能证明这一点,这种一致性将持续下去(βk个*,k个*,Λk个*)=(βk个0,k个0,Λk个0)且Ψ*=Ψ0.

由于log函数的凹性,n个(θ^,Λ^){n个日志L(左)(θ^,Λ^)+n个日志L(左)(θ0,Λ0)}/2n个(θ0,Λ0)。由此可见(n个)(θ^,Λ^)+(θ^,Λ^)(n个)(θ0,Λ0)+(θ0,Λ0).因为F类*是Glivenko-Cantelli,(n个)(θ^,Λ^)几乎肯定会收敛到0。此外,

|j个=1k个A类k个j个(b条k个,ξ;βk个,Λk个)|{N个k个(C类k个)+1}!/j个=1k个Δk个j个!e(电子)M(M)˜M(M)˜b条k个M(M)˜ξΛk个(C类k个)

概率为1,以及j个=1k个A类k个j个(b条k个,ξ;β^k个,Λ^k个)j个=1k个A类k个j个(b条k个,ξ;βk个*,Λk个*)0因此,根据支配收敛定理|(θ^,Λ^)(θ*,Λ*)|0几乎可以肯定。因此,日志[{L(左)(θ*,Λ*)+L(左)(θ0,Λ0)}/2](θ0,Λ0).根据Kullback-Leibler信息的性质,(θ00)=(θ*,∧*),概率为1。那就是,

ξϕ(ξ;Ψ*)k个=1K(K)b条k个j个=1k个{U型k个,j个1U型k个j个e(电子)βk个*T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个*(t吨)}Δk个j个×经验{0C类k个e(电子)βk个*T型X(X)()+b条k个T型Z轴()+ξT型Z轴˜(t吨)d日Λk个*(t吨)}ϕ(b条k个;k个*)d日b条k个d日ξ=ξϕ(ξ;Ψ0)k个=1K(K)b条k个j个=1k个{U型k个,j个1U型k个j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个0(t吨)}Δk个j个×经验{0C类k个e(电子)βk个0T型X(X)()+b条k个T型Z轴()+ξT型Z轴˜(t吨)d日Λk个0(t吨)}ϕ(b条k个;k个0)d日b条k个d日ξ.

概率为1。

自Δij公司可以取任何非负整数值,我们将选择不同于间隔感知数据的整数来显示可识别性。对于任何k个1,q个k个2≥0及以上j个∈ {1, …k个},我们对所有可能的实现取上述方程的和N个k个(U型千焦) ≥k个1N个k个(C类k个)=k个1+k个2,乘以N个k个(C类k个)!/[N个k个(U型k个j个)!{N个k个(C类k个)N个k个(U型k个j个)}!],以获得

ξϕ(ξ;Ψ*)k个=1K(K)b条k个{0U型k个j个e(电子)βk个*T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξZ轴˜(t吨)d日Λk个*(t吨)}k个1{0C类k个e(电子)βk个*T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个*(t吨)}k个2×经验{0C类k个e(电子)βk个*T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个*(t吨)}ϕ(b条k个;k个*)d日b条k个d日ξ=ξϕ(ξ;Ψ0)k个=1K(K)b条k个{0U型k个j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξZ轴˜(t吨)d日Λk个0(t吨)}k个1{0C类k个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个0(t吨)}k个2×经验{0C类k个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个0(t吨)}ϕ(b条k个;k个0)d日b条k个d日ξ.

这个方程适用于任意情况U型k个j个=u个k个U型[0,τk个].将两边除以k个2! 和求和k个2=0,1,2,…,我们得到

ξϕ(ξ;Ψ*)k个=1K(K)b条k个{0u个k个e(电子)βk个*T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个*(t吨)}k个1ϕ(b条k个;k个*)d日b条k个d日ξ=ξϕ(ξ;Ψ0)k个=1K(K)b条k个{0u个k个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个0(t吨)}k个1ϕ(b条k个;k个0)d日b条k个d日ξ.

然后将两边乘以(ωk个)k个1/k个1!,其中是虚数单位,求和k个1=0,1,2,…以获得

ξϕ(ξ;Ψ*)k个=1K(K)b条k个经验{ωk个0u个k个e(电子)βk个*T型X(X)()+b条k个T型Z轴()+ξT型Z轴˜()d日Λk个*()}ϕ(b条k个;k个*)d日b条k个d日ξ=ξϕ(ξ;Ψ0)k个=1K(K)b条k个经验{ωk个0u个k个e(电子)βk个0T型X(X)()+b条k个T型Z轴()+ξT型Z轴˜()d日Λk个0()}ϕ(b条k个;k个0)d日b条k个d日ξ.

因此,对于任何u个U型,联合分配0u个k个e(电子)βk个*T型X(X)()+b条k个1T型Z轴()+ξ1T型Z轴~()d日Λk个*()与的相同0u个k个e(电子)βk个0T型X(X)()+b条k个2T型Z轴()+ξ2T型Z轴˜()d日Λk个0(),其中b条k个1b条k个2具有协方差矩阵的零均值正态k个*k个0分别为和ξ1ξ2具有协方差矩阵Ψ*和Ψ的零均值正态分布0分别是。由此可见Λk个*(t吨)在以下方面是绝对连续的t吨.

λk个*(t吨)=d日Λk个*(t吨)/d日t吨显然,λk个*(t吨)e(电子)βk个*T型X(X)(t吨)+b条k个1T型Z轴(t吨)+ξ1T型Z轴˜(t吨)具有与相同的分布λk个0(t吨)e(电子)βk个0T型X(X)(t吨)+b条k个2T型Z轴(t吨)+ξ2T型Z轴˜(t吨)对于任何t吨U型[0,τk个]因此,日志λk个*(t吨)+βk个*T型X(X)(t吨)=日志λk个0(t吨)+βk个0T型X(X)(t吨).根据条件2,βk个*=βk个0、和λk个*(t吨)=λk个0(t吨)对于t吨U型[0,τk个]。由此可见b条k个1T型Z轴(t吨)+ξ1T型Z轴˜(t吨)具有与相同的分布b条k个2T型Z轴(t吨)+ξ2T型Z轴˜(t吨)也就是说,Z轴(t吨)T型k个*Z轴(t吨)=Z轴(t吨)T型k个0Z轴(t吨)、和Z轴˜(t吨)T型Ψ*Z轴˜(t吨)=Z轴˜(t吨)T型Ψ0Z轴˜(t吨)根据条件2k个*=k个0且Ψ*=Ψ0。我们已经证明了这一点θ^收敛到θ0Λ^k个()弱收敛到∧k个0(·)英寸U型[0,τk个].后者可以加强到一致收敛,因为∧k个0(·)是连续的。

定理2的证明。

的分数函数θ,表示为θ(θ,∧),包括

βk个(θ,Λ)=j个=1k个0τH(H)k个j个(t吨;θ,Λ)X(X)(t吨)d日Λk个(t吨),k个=1,,K(K),k个(θ,Λ)=ξϕ(ξ;Ψ)F类k个(ξ;θ,Λ)b条k个j个=1k个A类k个j个(b条k个,ξ;βk个,Λk个)ϕk个(b条k个;k个)d日b条k个d日ξξϕ(ξ;Ψ)F类k个(ξ;θ,Λ)b条k个j个=1k个A类k个j个(b条k个,ξ;βk个,Λk个)ϕ(b条k个;k个)d日b条k个d日ξ,k个=1,,K(K),

Ψ(θ,Λ)=ξϕΨ(ξ;Ψ)k个=1K(K)b条k个j个=1k个A类k个j个(b条k个,ξ;βk个,Λk个)ϕ(b条k个;k个)d日b条k个d日ξξϕ(ξ;Ψ)k个=1K(K)b条k个j个=1k个A类k个j个(b条k个,ξ;βk个,Λk个)ϕ(b条k个;k个)d日b条k个d日ξ.

哪里ϕ(;)表示的导数φ(·;∑)关于∑中的唯一元素,

F类k个(ξ;θ,Λ)=k个=1,k个k个K(K)b条k个j个=1k个A类k个j个(b条k个,ξ;βk个,Λk个)ϕ(b条k个;k个)d日b条k个,

H(H)k个j个(t吨;θ,Λ)=ξϕ(ξ;Ψ)F类k个(ξ;θ,Λ)B类k个j个(t吨,U型k个,j个1,U型k个j个,b条k个,ξ;βk个,Λk个)j个=1k个A类k个j个(b条k个,ξ;βk个,Λk个)ϕ(b条k个;k个)d日b条k个d日ξξϕ(ξ;Ψ)F类k个(ξ;θ,Λ)j个=1k个A类k个j个(b条k个,ξ;βk个,Λk个)ϕ(b条k个;k个)d日b条k个d日ξ,

B类k个j个(t吨,u个,v(v),b条k个,ξ;βk个,Λk个)=(u个<t吨v(v))e(电子)βk个T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨){N个k个(v(v))N个k个(u个)u个v(v)e(电子)βk个T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个(t吨)1}.

我们考虑一维子模型d日Λϵ,小时k个=(1+¦Β小时k个)d日Λk个,其中小时k个L(左)2(U型[0,τk个]).∧的得分函数k个沿着这个子模型Λk个(θ,Λ)(小时)=j个=1k个H(H)k个j个(t吨;θ,Λ)小时k个(t吨)d日Λk个(t吨).

显然,

[G公司n个{θ(θ^,Λ^)}G公司n个{Λ(θ^,Λ^)}(小时)]=n个1/2[[{θ(θ^,Λ^)}{θ(θ0,Λ0)}][{Λ(θ^,Λ^)(小时)}{Λ(θ0,Λ0)(小时)}]],
(A.1)

哪里小时= (小时1, …,小时K(K))T型、和Λ(小时)=(Λ1(小时1),,ΛK(K)(小时k个))T型。我们将泰勒级数展开应用于(θ00)到的右侧(A.1).展开式的二阶项的边界为n个1/2O(运行)(1)[k个=1K(K)j个=1k个E类{Λ^k个(U型k个j个)Λk个0(U型k个j个)}2+θ^θ02].

因为Λ^∧一致0,存在一些M(M)Λ<∞,这样Λ^(τk个)M(M)Λ可以看出(θ^,Λ^)是唐斯克。通过中值定理和引理1.3范德格尔(2000),{(θ,Λ)(θ0,Λ0)}H(H)2{(θ,Λ),(θ0,Λ0)},其中H(H)(·,·)表示海林格距离。根据的定理3.4.1范德法特和韦纳(1996),我们可以设置H(H){(θ^,Λ^),(θ0,Λ0)}=O(运行)P(P)(n个1/3).根据均值定理,

E类{ξϕ(ξ;Ψ^)k个=1K(K)b条k个j个=1k个A类k个j个(b条k个,ξ;β^k个,Λ^k个)ϕ(b条k个,^k个)d日b条k个d日ξξϕ(ξ;Ψ0)k个=1K(K)b条k个j个=1k个A类k个j个(b条k个,ξ;βk个0,Λk个0)ϕ(b条k个,k个0)d日b条k个d日ξ}2=O(运行)P(P)(n个2/3).

因此,

O(运行)P(P)(n个2/3)+O(运行)(1)θ^θ02E类{ξϕ(ξ;Ψ0)k个=1K(K)b条k个j个=1k个A类k个j个(b条k个,ξ;βk个0,Λ^k个)ϕ(b条k个,k个0)d日b条k个ξξϕ(ξ;Ψ0)k个=1K(K)b条k个j个=1k个A类k个j个(b条k个,ξ;βk个0,Λk个0)ϕ(b条k个,k个0)d日b条k个ξ}2E类[{Λ(θ0,Λ0)(Λ^Λ0)}2]o个(1)k个=1K(K)E类[j个=1k个{Λ^k个(U型k个j个)Λk个0(U型k个j个)}2].
(A.2)

我们在有界变分空间中定义了一个范数英属维尔京群岛[0, τ]K(K)如下所示:对于= (1, …,K(K))T型具有k个(0)=0,12=k个=1K(K)E类[j个=1k个k个(U型k个j个)2]此外,我们定义了半范数22=E类[{Λ(θ0,Λ0)}2].如果‖2=0,则

k个=1K(K)ξϕ(ξ;Ψ0)F类k个(ξ;θ0,Λ0)b条k个j个=1k个j个=1,j个j个k个A类k个j个(b条k个,ξ;βk个0,Λk个0)×{U型k个,j个1U型k个j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个0(t吨)}Δk个j个1经验{U型k个,j个1U型k个j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个0(t吨)}(Δk个j个1)!×U型k个,j个1U型k个,j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日k个(t吨)ϕ(b条k个;k个0)d日b条k个d日ξ=k个=1K(K)ξϕ(ξ;Ψ0)F类k个(ξ;θ0,Λ0)b条k个j个=1k个A类k个j个(b条k个,ξ;βk个0,Λk个0)×0C类k个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日k个(t吨)ϕ(b条k个;k个0)d日b条k个d日ξ.

对于任何k个1,q个k个2≥0和一些j个∈ {1, …k个},我们考虑不同的选择N个k个(U型千焦)=k个1N个k个(C类k个) −N个k个(U型千焦)=k个2在上述等式中反映面板计数数据的性质。我们将所得方程求和k个2=0,1,2,…以获得

ξϕ(ξ;Ψ0)F类k个(ξ;θ0,Λ0)b条k个{0U型k个j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个0(t吨)}k个11(k个11)!×0U型k个j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日k个(t吨)ϕ(b条k个;k个0)d日b条k个d日ξ=0

设置后k个1=1和U型千焦=t吨,我们看到任何t吨U型[0,τk个],

0t吨ξϕ(ξ;Ψ0)F类k个(ξ;θ0,Λ0)b条k个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)ϕ(b条k个;k个0)d日b条k个d日ξd日k个(t吨)=0

因为k个(0) = 0,k个(t吨)=0(对于)t吨U型[0,τk个]因此,‖·‖2是中的规范英属维尔京群岛[0, τ]. 根据Cauchy-Schwatz不等式英属维尔京群岛[0, τ]K(K),存在一个常量c(c)1这样‖1c(c)12.根据Banach空间中的有界逆定理,1c(c)12对于一些常量c(c)1因此,不平等(A.2)暗示

O(运行)P(P)(n个2/3)+O(运行)(1)θ^θ02c(c)1/2k个=1K(K)E类[j个=0k个{Λ^k个(U型k个j个)Λk个0(U型k个,j个1)}2].
(A.3)

因此(A.1)n个1/2E类{O(运行)P(P)(n个2/3)+O(运行)(1)θ^θ0}2=O(运行)P(P)(n个1/2θ^θ02+n个1/6)因此,

G公司n个{θ(θ^,Λ^)}=n个1/2[{θθ(θ^θ0)+θΛ(Λ^Λ0)}]+O(运行)P(P)(n个1/2θ^θ02+n个1/6),
(A.4)

G公司n个{Λ(θ^,Λ^)(小时)}=n个1/2[{Λθ(小时)(θ^θ0)+ΛΛ(小时,Λ^Λ0)}]+O(运行)P(P)(n个1/2θ^θ02+n个1/6),
(A.5)

哪里θθ是的二阶导数(θ,∧)关于θ,θΛ(小时)是的导数θ沿着子模型d日Λϵ,小时,Λθ(小时)是的衍生物Λ(小时)关于θ、和ΛΛ(小时,Λ^Λ0)是的导数Λ(小时)沿子模型d日Λ0+ϵd日(Λ^Λ0)。所有衍生工具的评估(θ00).

我们选择小时成为最不利的方向小时*这样E类{Λ*Λ(小时*)}=E类(Λ*θ),其中Λ*是的伴随运算符Λ.我们证明了小时∗. 我们为产品空间配备设备k个=1K(K)L(左)2[0,τk个]带有内积<小时1,小时2>=k个=1K(K)0τk个小时k个1(t吨)小时k个2(t吨)d日Λ0(t吨)。对于小时1,小时2L(左)2(P(P))K(K),{Λ(小时1)Λ(小时2)}=k个=1K(K)0τk个Γk个(小时1)(t吨)小时k个2(t吨)d日Λk个0(t吨),其中Γk个(小时)(t吨)=k个=1K(K)0τk个E类{k个(,t吨,X(X);θ0,Λ0)}小时k个()d日Λk个0()对于某些功能k个关于t吨在里面U型[0,τk个].我们定义了一个半范数小时Γ=k个=1K(K)<Γk个(小时),小时k个>1/2在空间上k个=1K(K)L(左)2[0,τk个].如果‖小时Γ=0,则0=k个=1K(K)<Γk个(小时),小时k个>={Λ(小时)2}因此,Λ(θ00)(小时)=0,概率为1。根据的参数(A.3),我们可以证明小时=0英寸L(左)2(P(P)). 这个结果意味着Γ是一种规范。根据Banach空间中的有界逆定理,小时Γc(c)小时对于一些常量c(c)′. 根据Lax-Milgram定理(Zeidler,1995年), (Γ1, …, ΓK(K))是可逆的;也就是说,最不利的方向小时*存在。可以看出小时*满足积分方程

k个1(t吨)小时k个*(t吨)+=1K(K)t吨τk个2(,t吨)小时*()d日+=1K(K)0t吨k个3(,t吨)小时*()d日=k个4(t吨),

哪里k个1(t吨)>0,和千焦耳(j个=2,3)和k个4就其论点而言,是连续可微的。因此,小时k个*(t吨)是连续可微的。

因为E类{ΛΛ(小时*,Λ^Λ0)}=E类{Λ(小时*)Λ(Λ^Λ0)}=E类{Λ*Λ(小时*)}d日(Λ^Λ0)=E类(Λ*θ)d日(Λ^Λ0)=E类{θΛ(Λ^Λ0)},方程式(A.4)(A.5)暗示

G公司n个{θ(θ^,Λ^)Λ(θ^,Λ^)(小时*)}=n个1/2E类[{θΛ(小时*)}2](θ^θ0)+O(运行)P(P)(n个1/2θ^θ02+n个1/6),

哪里⊗2=aa公司T型.因为小时k个*(t吨)是连续可微的,θ(θ^,Λ^)Λ(θ^,Λ^)(小时*)属于Donsker类并在中收敛L(左)2(P(P))-规范到θΛ(小时∗). 因此,

G公司n个{θ(θ0,Λ0)Λ(θ0,Λ0)(小时*)}=n个1/2E类[{θΛ(小时*)}2](θ^θ0)+O(运行)P(P)(n个1/2θ^θ02+n个1/6).
(A.6)

如果矩阵E类[{θΛ(小时*)}2]是可逆的,那么(A.6)意味着

n个1/2(θ^θ0)=(E类[{θΛ(小时*)}2])1G公司n个{θΛ(小时*)}+o个P(P)(1).

然后是影响函数θ^是高效的,因此n个1/2(θ^θ0)弱收敛到协方差矩阵达到半参数效率界的零均值正态随机向量(Bickel等人,1993年).

还有待验证E类[{θΛ(小时*)}2]是可逆的。如果矩阵是奇异的,则存在一个向量v(v)尺寸与θ0,因此v(v)T型E类[{θΛ(小时*)}2]v(v)=0因此,在概率为1的情况下,沿着子模型的得分函数{θ0+ϵv,d日Λ0(1 −ϵ小时)}对某些人来说是零小时.通过证明的论据(A.3),对于任何k个1≥0及以上j个∈ {1, …k个},

ξϕ(ξ;Ψ0)F类k个(ξ;θ0,Λ0)b条k个{0U型k个j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴~(t吨)d日Λk个0(t吨)}k个11(k个11)!×0U型k个j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨){v(v)k个1T型X(X)(t吨)小时k个(t吨)}d日Λk个0(t吨)ϕ(b条k个;k个0)d日b条k个d日ξ=v(v)k个2T型ξϕ(ξ;Ψ0)F类k个(ξ;θ0,Λ0)b条k个{0U型k个j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴~(t吨)d日Λk个0(t吨)}k个1k个1!ϕk个0(b条k个;k个0)d日b条k个d日ξv(v)3T型ξϕΨ(ξ;Ψ0)F类k个(ξ;θ0,Λ0)b条k个{0U型k个j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个0(t吨)}k个1k个1!ϕ(b条k个;k个0)d日b条k个d日ξ,

哪里v(v)k个1,v(v)k个2、和v(v)3是的组件v(v)对应于βk个, Σk个和Ψ。我们将上述方程的两边乘以()qk(平方公里)1然后求和k个1=0,1,2…以获得

ξϕ(ξ;Ψ0)F类k个(ξ;θ0,Λ0)b条k个(ω)经验{ω0U型k个j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个0(t吨)}×0U型k个j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨){v(v)k个1T型X(X)(t吨)小时k个(t吨)}d日Λk个0(t吨)ϕ(b条k个;k个0)d日b条k个d日ξ=v(v)k个2T型ξϕ(ξ;Ψ0)F类k个(ξ;θ0,Λ0)b条k个经验{ω0U型k个j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个0(t吨)}ϕk个0(b条k个;k个0)d日b条k个d日ξv(v)3T型ξϕΨ(ξ;Ψ0)F类k个(ξ;θ0,Λ0)b条k个经验{ω0U型k个j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个0(t吨)}ϕ(b条k个;k个0)d日b条k个d日ξ.

出租ω0,我们获得

ξϕ(ξ;Ψ0)F类k个(ξ;θ0,Λ0)b条k个0U型k个j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨){v(v)k个1T型X(X)(t吨)小时k个(t吨)}d日Λk个0(t吨)ϕ(b条k个;k个0)d日b条k个d日ξ=0

设置U型千焦=t吨并根据t吨,我们获得v(v)k个1T型X(X)(t吨)小时k个(t吨)=0对于t吨U型[0,τk个]因此,v(v)k个1=0和小时k个在条件2下=0。考虑到这个结果,我们沿着子模型返回score函数{θ0+ϵv,d日Λ0(1 −ϵ小时)}但设置了U型千焦到任意时间点,例如,t吨0<t吨1< … <t吨,其中支撑并让Δ千焦可以是任何非负数,比如n个j个,以获得

0=ξb条k个ϕ(ξ;Ψ0)ϕ(b条k个;k个0){v(v)k个2T型ϕ(b条k个;k个0)ϕ(b条k个;k个0)+v(v)3T型ϕΨ(ξ;Ψ0)ϕ(ξ;Ψ0)}×j个=1{t吨j个1t吨j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个0(t吨)}n个j个n个j个!经验{t吨j个1t吨j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个0(t吨)}d日b条k个d日ξ.

因此,

0=ξb条k个ϕ(ξ;Ψ0)ϕ(b条k个;k个0){v(v)k个2T型ϕ(b条k个;k个0)ϕ(b条k个;k个0)+v(v)3T型ϕΨ(ξ;Ψ0)ϕ(ξ;Ψ0)}×j个=1经验{(ωj个1)t吨j个1t吨j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个0(t吨)}d日b条k个d日ξ

对于任何ω1, …,ω。假设(ξ、 b条k个)遵循一个符号测度,其对Lebesgue测度的导数由下式给出

ϕ(ξ;Ψ0)ϕ(b条k个;k个0){v(v)k个2T型ϕ(b条k个;k个0)ϕ(b条k个;k个0)+v(v)3T型ϕΨ(ξ;Ψ0)ϕ(ξ;Ψ0)}经验{t吨j个1t吨j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个0(t吨)}.

然后是的特征函数Z轴j个=t吨j个1t吨j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个0(t吨)为零,意味着它的任何连续函数的期望值为零。我们选择Z轴j个j个=1e(电子)Z轴j个以获得

0=ξb条k个ϕ(ξ;Ψ0)ϕ(b条k个;k个0){v(v)k个2T型ϕ(b条k个;k个0)ϕ(b条k个;k个0)+v(v)3T型ϕΨ(ξ;Ψ0)ϕ(ξ;Ψ0)}t吨j个1t吨j个e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日Λk个0(t吨)d日b条k个d日ξ.

上述方程式的微分t吨j个=t吨产量

0=ξb条k个ϕ(ξ;Ψ0)ϕ(b条k个;k个0){v(v)k个2T型ϕ(b条k个;k个0)ϕ(b条k个;k个0)+v(v)3T型ϕΨ(ξ;Ψ0)ϕ(ξ;Ψ0)}e(电子)βk个0T型X(X)(t吨)+b条k个T型Z轴(t吨)+ξT型Z轴˜(t吨)d日b条k个d日ξ.

由此可见0=Z轴(t吨)T型M(M)k个2Z轴(t吨)+Z轴˜(t吨)T型M(M)3Z轴˜(t吨),其中M(M)k个2M(M)3是对称矩阵,其上三角元素由v(v)k个2v(v)3分别是。的确,0=k个A类Z轴(t吨)T型M(M)k个2Z轴(t吨)+|A类|2Z轴˜(t吨)T型M(M)3Z轴˜(t吨),其中A类是{1,…,的任意子集…,K(K)}. 显然,Z轴˜(t吨)T型M(M)3Z轴˜(t吨)=0、和Z轴(t吨)T型M(M)k个2Z轴(t吨) = 0. 然后根据条件2M(M)3=0和M(M)k个2=0,这意味着v(v)3=0和v(v)k个2= 0 (k个= 1, …,K(K))或v(v)= 0. 因此,矩阵E类[{θΛ(小时*)}2]是可逆的。

工具书类

  • Andersen PK&Gill RD(1982)。计数过程的考克斯回归模型:一项大样本研究.300年统计年鉴 10, 1100–20.[谷歌学者]
  • Bailey HH、Kim K、Verma AK、Sielaff K、Larson PO、Snow S、Lenaghan T、Viner JL、Douglas J、Dreckschmidt NE和Hamilec M(2010)。α-二氟甲基鸟氨酸对有皮肤癌病史的受试者预防皮肤癌的随机、双盲、安慰剂对照3期研究.癌症预防。雷斯 3,35-47。[PMC免费文章][公共医学][谷歌学者]
  • Bickel PJ、Klaassen CAJ、Ritov Y&Wellner JA(1993)。半参数模型的有效自适应估计巴尔的摩:约翰·霍普金斯大学出版社。[谷歌学者]
  • Byar DP(1980)。退伍军人对复发性I期膀胱肿瘤化疗预防的研究:安慰剂、吡哆醇和局部噻替帕的比较。膀胱肿瘤和泌尿肿瘤的其他主题第363-70页。马萨诸塞州波士顿斯普林格。[谷歌学者]
  • Gaver DP和O’Muircheartaigh IG(1987年)。事件率的稳健经验贝叶斯分析.技术计量学 29,1-15。[谷歌学者]
  • He X、Tong X、Sun J和Cook RJ(2008)。多元面板计数数据的回归分析.生物统计学 9, 234–48. [公共医学][谷歌学者]
  • Kendall EA(1989)。数值分析导论:John Wiley&Sons公司。[谷歌学者]
  • Lu M,Zhang Y,&Huang J(2009)。基于单调B样条的面板计数数据半参数估计方法.美国统计协会 104, 1060–70.[谷歌学者]
  • Murphy SA和van der Vaart AW(2000年)。外形可能性.《美国统计杂志》。Assoc公司.95, 449–465.[谷歌学者]
  • Siannis F、再见VT、Cook RJ、Schentag CT和Gladman DD(2006)。银屑病关节炎的临床和放射损伤.风湿病年鉴 65, 478–81.[PMC免费文章][公共医学][谷歌学者]
  • 孙建伟(2000)。具有协变量相关观察和截尾时间的面板计数数据回归分析.J.R.统计。Soc.B公司 62, 293–302.[谷歌学者]
  • van de Geer SA(2000)。经验过程理论与应用剑桥:剑桥大学出版社。[谷歌学者]
  • van der Vaart AW和Wellner JA(1996年)。弱收敛与经验过程纽约:Springer-Verlag。[谷歌学者]
  • Wei LJ、Lin DY和Weissfeld L(1989)。基于边际分布建模的多元不完全失效时间数据回归分析.美国统计协会,84, 1065–73.[谷歌学者]
  • Wellner JA和Zhang Y(2007)。协变量面板计数数据的两种似然半参数估计方法.安.统计师 35,2106–42。[谷歌学者]
  • 姚B、王丽和X(2016)。考虑受试者内部相关性的面板计数数据的半参数回归分析.计算。统计数据分析 97, 47–59.[谷歌学者]
  • Zeidler E(1995)。应用泛函分析在数学物理中的应用纽约:Springer-Verlag。[谷歌学者]
  • 曾德(Zeng D)、高福(Gao F)和林丹(Lin DY)(2017)。多元区间相关数据下半参数回归模型的极大似然估计.生物特征 104, 505–25.[PMC免费文章][公共医学][谷歌学者]
  • 曾德、毛立林(2016)。基于区间相关数据的半参数变换模型的极大似然估计.生物特征 103, 253–71.[PMC免费文章][公共医学][谷歌学者]