2.模型和估计
2.1. 模型定义和假设
假设整个队列包括n个主题和有L(左)地层,其中L(左)已修复。让是故障时间,可能的审查时间,以及成为受试者的时间无关协变量向量我在地层中对于,,其中n个我是地层中的主体数量.让表示整个队列中的观察时间,以及成为事件指示器。研究期为。我们考虑分层PH模型:对于受试者我在地层中我,危险函数与关联Z锂是
哪里是地层的基准危险函数和是未知参数向量。我们假设独立于鉴于[9,10].
接下来,我们介绍缺失协变量的符号和假设。让,其中和是受试者的完全协变量向量和缺失协变量向量我在地层中我分别为。让是学科的观察指标我在地层中如果得到充分观察如果某些元素缺少。假设对于地层内独立且一致分布。此外,和假设在以下情况下是独立的.地层观测数据是对于.定义对于和。我们假设随机缺失,因为观测缺失协变量的概率与鉴于.让是观察到的故障时间的计数过程,以及表示受试者的风险指标我地层中我,哪里是一个指示函数。
2.2. 逆概率加权估计
基于Horvitz和Thompson的逆概率加权(IPW)估计[16]使用响应概率的倒数作为权重来调整缺失的协变量[39,41]. 我们假设地层内我由伯努利分布独立生成,并允许每个地层有不同的截距:
哪里.让是的真实参数向量。为了获得IPW估计量,我们考虑
哪里对于和,,.这两个功能和分别是分层PH模型和logistic回归的得分函数。对于MAR假设下的频率学家IPW方法,首先估计响应概率通过求解(4)然后插入估计值进入之内(3)估计β.让解决方案(3)是在实践中,我们依赖泰勒展开来获得[41].
2.3. 近似贝叶斯方法
在本节中,我们提出了一种近似贝叶斯方法。定义和.让成为解决方案.而不是直接生成后验分布类似于Soubeyrand和Haon-Lastortes[35],我们使用近似值也就是说,如下:
哪里是的抽样分布和是的优先分布然而,学习需要泰勒展开,如定理1所示。
为了避免泰勒展开,而不是从,我们也可以考虑
哪里是的抽样分布。要从中生成样本(5),我们考虑一对一转换这样的话然后,我们生成从并获得作为后验分布的样本(5)和下一节一样,在某些正则性条件下是
哪里分布趋同是联合得分函数的渐近协方差矩阵。自转型以来是一对一的,(6)等于
然后η鉴于U型n个是
哪里是极限分布的密度(7).方程式(8)显示了频率学家IPW方法和贝叶斯方法之间的重要关系。在公寓前以及(7),我们可以近似后验分布如下:
如所示附录,的估计量Σ,,可通过以下方式获得
在公寓下面,我们提出以下算法来从后验分布生成样本如下:
生成从近似后验分布也就是说,.
解决关于以获得.
生成从近似后验分布也就是说,.
解决关于以获得.
重复上述步骤。
可以使用Newton-Raphson算法或根查找算法来求解在步骤2和步骤4中。因此,该算法易于实现。根据我们的模拟结果,1000次重复似乎足以进行统计推断。使用上述算法,从近似后验分布中独立样本因此没有老化期。
2.4. 具有多个缺失协变量模式的估计
中的方法第2.2节和2.3考虑一个缺失的机制。当存在具有不同缺失模式的多个缺失协变量时,这并不直接适用。在本节中,我们提出了具有多个缺失模式的生存数据的估计量。为了简单起见,我们描述了具有两个缺失协变量和两个层的分层PH模型的所提方法。假设有两个协变量,和,个人可能会丢失我.让如果被观察到并且如果缺少的k个= 1, 2. 表示和,其中是一个完全观测到的协变量向量。我们将数据分为4组:i)两组和观察到;ii)被观察到并且缺少;iii)缺少,并且观察到;和iv)两者和缺少。让,、和因此,,、和分别对应于ii)、iii)和iv)。定义
哪里
方程式(10)满足MAR假设。模型(10)是失踪概率与基线之比的模型:
Sun和Tchetgen-Tchetgen也考虑过类似的想法[36]. 那么,倾向得分是
让是的真实参数向量。为了获得IPW估计量,我们考虑
哪里,,、和是子组样本量和.让解决方案(11)是。类似于第2.3节,的估计量,,可通过以下方式获得
中的步骤1-步骤5第2.3节可以类似地适用于多个缺失模式的近似贝叶斯方法。
3.渐近性质
我们现在研究在本节中。为了建立分层PH模型IPW估计的一致性和渐近正态性,我们假设以下条件:
C1类对于,和;
指挥与控制,,和几乎可以肯定在哪里是一个常数;
C3用于d日=0,1,2,存在邻域属于这样的话是连续的,并且对于,其中表示概率收敛;
C4矩阵为正定,其中和;
C5矩阵是正定的,并且对于和,其中;
C6适用于所有人,,、和,其中,是的连续函数均匀地和在上有界,在上远离零;
抄送7对于;
抄送8,其中为所有人;
C9组件,,其中是参数空间;
C10地图是连续的,正好有一个零概率为1;
C11方程式正好有一个根位于;
C12有一个邻居,表示为,概率为1连续可微和雅可比矩阵一致收敛到非随机极限,该极限是非奇异的。在这里,是一个有中心的球和半径满足和;
C13适用于任何,给定:
保留一些它是正定的并且独立于n.(名词)。
条件C1–C8是一致性和渐近正态性的标准条件[1,41]. 联合IPW估计量的渐近性质需要条件C9–C13。更具体地说,只要样本满足某些力矩条件,条件C9就成立。条件C10和C11确保条件C12规定了并确保其协方差收敛。条件C13为估计方程提供了渐近分布。C13的证明可以在Yuan和Jennrich(1998)的定理6中找到[43]其中Yuan和Jennrich(1998)[43]研究了在非常一般的假设下,由非同分布样本生成的估计量的大样本性质,包括估计量的存在性、强相合性和渐近正态性。在条件C1-C13下,我们可以显示是的一致估计量平均值渐近正态分布0和协方差矩阵哪里.
跟随桑和金[32],我们假设以下条件来建立后验一致性和渐近正态性。
C14优先在参数空间上为正且Lipschitz连续;
C15用于,方差估计量满足哪里提供于附录;
C16适用于任何,映射Lipschitz连续。此外,映射利普希茨是连续的吗,因为存在一个常数令人满意的,对于任何,对于所有人,其中.和也是Lipschitz连续的;
第17页和对于任何。此外Lipschitz连续。
条件C14是先验的标准假设,平坦先验满足此条件。条件C15意味着协方差估计值应该是一致的。条件C16到C17是用该方法近似后验分布的充分条件。Soubeyrand和Haon Lasportes[35]还使用了与C14和C16类似的条件来证明其近似贝叶斯计算方法的合理性。如果我们假设协方差估计量在θ具有Sang和Kim中讨论的有界特征值[32].
类似于Xu等人[41],我们可以建立以下渐近性质在分层PH模型下:
定理1
假设条件C1-C8 in
第3节.
1.假设
未知且指定正确。然后,
是一致的
、和
以平均值渐近正态分布
0
和协方差矩阵
哪里
2.如果π锂已知,
以平均值渐近正态分布
0
和协方差矩阵
.
其证明是Xu等人定理2的直接推广[41]分层PH模型,因此省略。使用(13),可以开发一个插入式方差估计器,但它可能需要进行大量计算。
接下来,我们得到了分层PH模型中估计量的以下渐近性质,其中两个缺失协变量具有多个缺失模式,如第2.4节.
定理2
假设条件C1-C8 in
第3节.
1.假设
未知且指定正确。然后,是一致的、和
以平均值渐近正态分布
0
和协方差矩阵
哪里
2.如果
已知,
以平均值渐近正态分布
0
和协方差矩阵
.
定理2的证明类似于定理1的证明,因此被省略。可以类似地建立两个以上缺失协变量的渐近性。现在我们有了关于如下:
定理3
让
成为解决方案
.在条件C1-C17下,后验分布
,由上述两步方法生成,满足
哪里
是具有平均值的正态分布密度
和方差
.
其证明类似于Sang和Kim定理4.1的证明[32]因此省略。结果(14)和(15)分别表明后验分布收敛于正态分布和后验一致性。特别地,(14)暗示了所提出的贝叶斯方法的置信区域与基于渐近正态性的频率计置信区域渐近等价θ因此,我们提出的贝叶斯方法被校准为频率推理。
提出的贝叶斯估计ϕ和β可以通过从近似后验分布中提取的中值来获得。根据定理3,由于后验分布近似正态,因此可以使用等尾可信区间(ETI)或水平构造置信区域-α贝叶斯高后验密度可信域定义为[7].
4.仿真
我们对分层数据进行了两次模拟研究,以研究近似贝叶斯方法和IPW方法的有限样本特性。我们将其与CC方法进行了比较。
在第一个模拟中,我们考虑了具有两层的分层PH模型,即。,L(左)= 2. 每个阶层都产生了两个协变量:Z11概率为0.4的伯努利分布Z12从第1层的标准正态分布;Z21概率为0.6的伯努利分布Z22正态分布的平均值为1,标准差为0.7。事件时间是基于分层PH模型生成的(1)。我们考虑了对于地层1和对于地层2。我们设置了独立于事件时间,审查时间由均匀分布生成。研究了两种总体事件概率:50%和70%。的一些值失踪对于我=1,2已完全观察到。观察指示器由伯努利分布独立生成,概率为对于,其中第1层和第2层的缺失率分别约为60%和40%。因此,总体缺失率为50%。
考虑了四种样本大小:n个=500、1000和2000。总结了基于B类=1000个蒙特卡洛样本。对于所建议的方法,我们获得了1000个后中位数,并计算了1000个中位数的平均偏差及其标准偏差(标准偏差),以及95%ETI包含真实参数的平均百分比(CR公司电子).s对于IPW、CC方法,平均值偏差及其标准误差平均值(东南方)和95%的覆盖率(CR公司)进行了计算。如中所示近似贝叶斯方法的后验中位数平均值和IPW估计值的平均值与真实值接近。近似贝叶斯方法的所有标准偏差都接近IPW方法标准误差的平均值。95%ETI包含真实参数的平均百分比范围和IPW方法的覆盖率在93%至96%之间。这些结果与定理3一致。事件率越低或样本量越小,标准偏差和标准误差平均值越大。相反,CC方法有偏差,对于完全观察到的协变量,低覆盖率从71%到90%不等Zc(c)远低于95%。此外,随着样本量的增加,这种现象变得更加严重。
表1
| | 事件 | 建议的方法 | IPW方法 | CC方法 |
---|
|
n个
| 率 | 偏差 |
标准偏差
|
CR公司电子
| 偏差 |
东南方
|
CR公司
| 偏差 |
东南方
|
CR公司
|
---|
Z米
| 500 | 50% | 0.010 | 0.238 | 0.95 | 0.007 | 0.231 | 0.95 | 0.076 | 0.247 | 0.95 |
| | 70% | 0.003 | 0.200 | 0.95 | 0.003 | 0.197 | 0.94 | 0.055 | 0.200 | 0.95 |
| 1000 | 50% | 0.009 | 0.165 | 0.95 | 0.008 | 0.162 | 0.95 | 0.077 | 0.172 | 0.94 |
| | 70% | 0 | 0.139 | 0.94 | 0 | 0.138 | 0.94 | 0.052 | 0.139 | 0.93 |
| 2000 | 50% | 0.003 | 0.114 | 0.94 | 0.002 | 0.113 | 0.95 | 0.070 | 0.120 | 0.92 |
| | 70% | 0 | 0.097 | 0.95 | 0 | 0.096 | 0.96 | 0.050 | 0.097 | 0.92 |
Zc(c)
| 500 | 50% | 0.027 | 0.175 | 0.93 | 0.025 | 0.169 | 0.93 | 0.115 | 0.177 | 0.90 |
| | 70% | 0.015 | 0.133 | 0.93 | 0.016 | 0.130 | 0.93 | 0.097 | 0.130 | 0.88 |
| 1000 | 50% | 0.006 | 0.121 | 0.94 | 0.005 | 0.118 | 0.94 | 0.094 | 0.122 | 0.88 |
| | 70% | 0.001 | 0.092 | 0.95 | 0.001 | 0.091 | 0.95 | 0.085 | 0.090 | 0.85 |
| 2000 | 50% | 0.005 | 0.085 | 0.94 | 0.004 | 0.083 | 0.94 | 0.090 | 0.085 | 0.82 |
| | 70% | 0.003 | 0.065 | 0.95 | 0.003 | 0.064 | 0.95 | 0.085 | 0.063 | 0.71 |
我们还对相关协变量进行了模拟β和缺失率。表S1的补充材料总结了类似于.当β越大,漏检率越高,CC法的表现越差。
在第二个模拟中,我们考虑了分层PH模型(L(左)=2)有两个缺失的协变量。我们比较了第2.4节里面有那些第2.3节和CC方法。两个协变量,Z1和Z2由贝努利分布独立生成,第1层概率为0.4和0.5,第2层概率为0.6和0.4。一个协变量Z三是根据[0,1]上的均匀分布生成的。事件时间由分层PH模型生成(1).我们考虑了持续基线风险对于地层1和用于第2层。我们设置了和(0.7、0.7、−0.7)T型独立于事件时间,审查时间由均匀分布生成。总体事件概率为55%:第一层为47%,第二层为63%。两个协变量Z1和Z2可能会失踪。定义η1和η2作为观察指标Z1和Z2分别为。有四种可能的缺失类别:1)完全观察到两个协变量只有Z2缺少只有Z1缺少,4)两者Z1和Z2都不见了.指示器缺失v(v)ab公司的是由概率多项式分布独立生成的对于,其中,,,,、和然后,,、和分别为17%、13%、20%和50%:地层1为17%、14%、29%和40%,地层2为17%、11%、12%和60%。检查了两种样本大小:n个=1000和1500。
结果表明,对于多个缺失模式,所提出的近似贝叶斯方法和IPW方法的估计是近似无偏的。95%ETI的平均百分比和IPW方法的覆盖率接近标称水平95%。然而,单一缺失模式的CC方法和近似贝叶斯方法/IPW存在偏差,其中缺失协变量的覆盖率和为60%至87%。当样本量增加时,覆盖率会降低,并进一步远离95%。
表2
| | | MM建议方法 | MM IPW公司 | CC方法 |
---|
n个 |
β
| 协变量 | 偏差 |
标准偏差
|
CR公司电子
| 偏差 |
东南方
|
CR公司
| 偏差 |
东南方
|
CR公司
|
---|
1000 | 0.3 |
| 0.001 | 0.118 | 0.95 | 0.001 | 0.118 | 0.95 | −0.122 | 0.103 | 0.78 |
| 0.3 |
| 0.005 | 0.117 | 0.95 | 0.005 | 0.116 | 0.95 | 0.048 | 0.099 | 0.93 |
| −0.3 |
Zc(c)
| −0.006 | 0.207 | 0.93 | −0.006 | 0.199 | 0.93 | 0.041 | 0.171 | 0.94 |
| 0.7 |
| 0.007 | 0.121 | 0.94 | 0.007 | 0.119 | 0.94 | −0.144 | 0.106 | 0.72 |
| 0.7 |
| 0.012 | 0.119 | 0.94 | 0.012 | 0.118 | 0.94 | 0.015 | 0.102 | 0.96 |
| −0.7 |
Zc(c)
| −0.012 | 0.207 | 0.94 | −0.012 | 0.200 | 0.94 | 0.067 | 0.174 | 0.92 |
1500 | 0.3 |
| 0.003 | 0.095 | 0.94 | 0.003 | 0.097 | 0.95 | −0.123 | 0.084 | 0.69 |
| 0.3 |
| 0.002 | 0.097 | 0.94 | 0.002 | 0.096 | 0.94 | 0.047 | 0.081 | 0.91 |
| −0.3 |
Zc(c)
| −0.005 | 0.166 | 0.95 | −0.005 | 0.164 | 0.96 | 0.041 | 0.138 | 0.94 |
| 0.7 |
| 0.004 | 0.100 | 0.93 | 0.004 | 0.098 | 0.94 | −0.148 | 0.086 | 0.60 |
| 0.7 |
| 0.002 | 0.099 | 0.94 | 0.002 | 0.097 | 0.94 | 0.012 | 0.083 | 0.94 |
| −0.7 |
Zc(c)
| −0.012 | 0.172 | 0.94 | −0.011 | 0.165 | 0.94 | 0.067 | 0.141 | 0.92 |
| | | SM建议的方法 | SM IPW公司 |
---|
n个 |
β
| 协变量 | 偏差 |
标准偏差
|
CR公司电子
| 偏差 |
东南方
|
CR公司
|
---|
1000 | 0.3 |
| −0.150 | 0.115 | 0.72 | −0.150 | 0.113 | 0.75 |
| 0.3 |
| 0.102 | 0.111 | 0.83 | 0.101 | 0.107 | 0.84 |
| −0.3 |
Zc(c)
| 0.069 | 0.197 | 0.99 | 0.069 | 0.186 | 0.92 |
| 0.7 |
| −0.143 | 0.115 | 0.74 | −0.143 | 0.114 | 0.75 |
| 0.7 |
| 0.085 | 0.109 | 0.88 | 0.085 | 0.107 | 0.87 |
| −0.7 |
Zc(c)
| 0.063 | 0.194 | 0.99 | 0.063 | 0.186 | 0.92 |
1500 | 0.3 |
| −0.151 | 0.093 | 0.61 | −0.151 | 0.093 | 0.63 |
| 0.3 |
| 0.102 | 0.090 | 0.78 | 0.102 | 0.088 | 0.79 |
| −0.3 |
Zc(c)
| 0.072 | 0.155 | 0.99 | 0.072 | 0.152 | 0.91 |
| 0.7 |
| −0.146 | 0.096 | 0.64 | −0.147 | 0.093 | 0.64 |
| 0.7 |
| 0.081 | 0.090 | 0.85 | 0.080 | 0.088 | 0.84 |
| −0.7 |
Zc(c)
| 0.067 | 0.159 | 0.99 | 0.067 | 0.152 | 0.92 |