A calibrated Bayesian method for the stratified proportional hazards model with missing covariates

Soyoung Kim; Jae-Kwang Kim; Kwang Woo Ahn

doi:10.1007/s10985-021-09542-4

寿命数据分析。作者手稿；可在PMC 2023年4月1日提供。

以最终编辑形式发布为：

寿命数据分析。2022年4月；28(2): 169–193.

2022年1月16日在线发布。数字对象标识：2007年10月10日/10985-021-09542-4

PMCID公司：PMC8977246号

尼姆斯：美国国立卫生研究院1782160

PMID：35034213

具有缺失协变量的分层比例风险模型的校准贝叶斯方法

Soyoung Kim公司,^* Jae-Kwang Kim（金在光）、和Kwang Woo Ahn（广宇安）

作者信息版权和许可证信息 PMC免责声明

关联数据

补充资料: 1782160_上游信息。
NIHMS1782160-补充-1782160_Sup_info.pdf（105K）
GUID:53F84BA3-9D61-4FA0-B37B-0A94FB07BE92

摘要

在评估协变量对生存结果的影响时，经常会遇到缺失的协变量。从分析中排除缺失数据可能会导致参数估计有偏差和得出误导性结论。逆概率加权法被广泛用于处理缺失的协变量。然而，在频率推断中获得渐近方差是复杂的，因为它涉及到估计倾向得分的参数。在本文中，我们提出了一种基于近似贝叶斯方法的新方法，该方法不使用泰勒展开来处理生存数据的缺失协变量。我们考虑了一个分层比例危险模型，以便它可以用于非比例危险结构。研究了缺失模式的两种情况：单个缺失模式和多个缺失模式。证明了所提出的估计量是一致的和渐近正态的，这与频繁度渐近性质相匹配。仿真研究表明，我们提出的估计量是渐近无偏的，从后验分布获得的可信区域接近于频率置信区间。该算法简单明了，计算效率高。我们将该方法应用于干细胞移植数据集。

关键词：贝叶斯计算、考克斯模型、缺失数据、后验分布、生存数据

1.简介

比例风险（PH）模型[9]广泛用于评估协变量对生存结果的影响。在许多生物医学研究中，由于随访、医院记录或研究设计的丢失，一些受试者的协变量信息往往观察不完全。例如，Dreger等人[11]研究了1394名年龄在18岁或18岁以上的复发性弥漫性大B细胞淋巴瘤（DLBCL）患者，并于2008年至2015年间进行了首次非清髓性或减密度条件异基因干细胞移植。他们比较了以下供体类型对总生存率的影响：使用移植后环磷酰胺（PTCy）的单倍体家庭供体、配对同胞供体（MSD）/配对非亲缘供体（MUD），无论T细胞缺失与否。造血细胞移植并发症指数有缺失记录。此外，PH假设对移植时的缓解状态无效。

处理这种不完整数据的一种简单但常用的方法是从分析中排除缺失的数据，这种方法称为完全捕获（CC）方法。然而，当缺失机制与结果变量相关时，CC方法可能会导致有偏参数估计。处理缺失数据的一种更合理的方法是使用基于响应概率模型的倾向得分加权。一旦估计了响应概率，则将估计响应概率的倒数用作估计相关参数的权重。

在频率学家框架下，对缺失协变量的PH模型进行了大量研究。林和英[23]提出了一种伪似然记分函数，用于处理缺失协变量在缺失完全随机假设下的情况。周和佩佩[44]还有陈和利特尔[5]分别提出了利用辅助协变量和非参数极大似然方法估计偏似然的方法。Pugh等人[29]提出了鲁宾意义下缺失机制随机缺失时的逆概率加权（IPW）估计方程[31]. 王和陈[39]Xu等人[41]考虑了一种增广逆概率加权（AIPW）方案[30]根据MAR假设。海岭和易卜拉欣[14]和Herring等人[15]引入蒙特卡罗期望最大化算法，分别处理MAR假设和不可忽略缺失下的缺失协变量。还探讨了PH模型的多重插补[24,40,三]. 然而，所有这些方法都局限于非分层PH模型。因为一些协变量通常不满足PH假设[11,38,27]或分层抽样用于数据采集[18,19]因此，研究缺失数据的分层PH模型至关重要。此外，许多现有的方法依赖于泰勒展开来研究估计量的渐近性质，因此在实践中获得估计量的方差估计可能很复杂。

除了频率统计方法外，还提出了几种贝叶斯方法来处理生存数据中缺失的协变量。Chen等人[6]针对包含治愈分数的半参数生存模型，提出了一类一般的信息先验。Yoo和Lee[42]扩展了Sharef等人的贝叶斯自适应B样条估计方法[34]缺失协变量的成簇生存数据。荷明和赫顿[13]考虑马尔可夫链蒙特卡罗（MCMC）处理MAR假设下加速失效时间模型的缺失协变量。对于PH模型，Ibrahim等人[17]和Bradshaw等人[4]分别研究了MAR假设下的变量选择和不可忽略的时变协变量缺失。Chen等人[8]考虑与检测限相关的协变量。一般来说，当前关于PH模型缺失协变量的贝叶斯文献需要复杂的MCMC算法来生成相关样本和老化期。在实践中，寻找简单且计算量较小的方法来处理缺失数据的生存结果是可取的。此外，与前面讨论的频率统计方法一样，这些贝叶斯方法没有考虑分层PH模型。

桑和金[32]最近提出了一种近似贝叶斯方法来处理单位对结果的无响应。他们的贝叶斯方法被校准为频率学家推断，因为从后验分布获得的可信区域渐近匹配频率学家置信区间。虽然他们的方法是基于分数函数的渐近正态性的近似方法，但由于其简单性和良好的参数估计性能，在实践中很有吸引力。更具体地说，他们的算法为参数的后验分布生成独立样本，并且不需要MCMC进行后验计算。

生存数据通常有多个缺失的协变量。例如，Pidala等人[26]研究了DPB1 T细胞表位匹配对白血病和骨髓增生异常综合征患者造血细胞移植结果的影响。缺失值有两个重要变量：DPB1 T细胞表位匹配和Karnofsky性能评分（KPS）。现有文献考虑了一种缺失机制来处理这两个缺失的协变量。然而，DPB1 T细胞表位匹配的缺失机制可能与KPS不同。此外，两个变量中都有缺失值的情况可能与两个变量之一中缺失值的情形有不同的缺失机制。在当前的文献中，这一重要方面在很大程度上被忽视了。

由桑和金激励[32]，我们提出了一种用于缺失协变量生存数据的近似贝叶斯方法。我们考虑分层PH模型，以便它甚至可以用于具有非比例风险结构的数据。该方法使用两个分数方程，一个来自分层PH模型，另一个来自响应模型，来构造后验分布的似然部分。在平坦先验的情况下，后验分布的可信区间与频域IPW方法的置信区间渐近匹配。与频域法相比，该方法不涉及泰勒展开。从后验分布中采样很容易实现。我们还提出了考虑多个协变量缺失模式的新方法。研究了具有已知和未知缺失机制的分层PH模型在频率推断中IPW估计的渐近性质。Dreger等人的数据模拟研究和应用[11]和Pidala等人[26]还提供了。

2.模型和估计

2.1. 模型定义和假设

假设整个队列包括n个主题和有L（左）地层，其中L（左）已修复。让 ${T型}_{我我}$ 是故障时间， ${C类}_{我我}$ 可能的审查时间，以及 $Z_{我我} = {(Z_{我我 1}, \dots, Z_{我我第页})}^{T型}$ 成为 $第页 \times 1$ 受试者的时间无关协变量向量我在地层中 $我$ 对于 $我 = 1, \dots, L（左）$ , $我 = 1, \dots, {n个}_{我}$ ，其中n个_我是地层中的主体数量 $我$ .让 ${X（X）}_{我我} = 最小值 ({T型}_{我我}, {C类}_{我我})$ 表示整个队列中的观察时间，以及 $Δ_{我我} = 我 ({T型}_{我我} \leq {C类}_{我我})$ 成为事件指示器。研究期为 $[0, τ]$ 。我们考虑分层PH模型：对于受试者我在地层中我，危险函数 $λ_{我我} (\cdot)$ 与关联Z_锂是

λ_{我 我} (t吨 ∣ Z_{我 我}) = λ_{0 我} (t吨) {e（电子）}^{β_{0}^{T型} Z_{我 我}},

(1)

哪里 $λ_{0 我} (t吨)$ 是地层的基准危险函数 $我$ 和 $β_{0}$ 是未知参数向量。我们假设 ${T型}_{我我}$ 独立于 ${C类}_{我我}$ 鉴于 $Z_{我我}$ [9,10].

接下来，我们介绍缺失协变量的符号和假设。让 $Z_{我我} = (Z_{我我}^{c（c）}, Z_{我我}^{米})$ ，其中 $Z_{我我}^{c（c）}$ 和 $Z_{我我}^{米}$ 是受试者的完全协变量向量和缺失协变量向量我在地层中我分别为。让 $ξ_{我我}$ 是学科的观察指标我在地层中 $我 : ξ_{我我} = 1$ 如果 $Z_{我我}$ 得到充分观察 $ξ_{我我} = 0$ 如果某些元素 $Z_{我我}$ 缺少。假设 $({T型}_{我我}, {C类}_{我我}, Z_{我我}, ξ_{我我})$ 对于 $我 = 1, \dots, {n个}_{我}$ 地层内 $我$ 独立且一致分布。此外， $({T型}_{我我}, {C类}_{我我}, Z_{我我}, ξ_{我我})$ 和 $({T型}_{我^{'} 我^{'}}, {C类}_{我^{'} 我^{'}}, Z_{我^{'} 我^{'}}, ξ_{我^{'} 我^{'}})$ 假设在以下情况下是独立的 $我 \neq 我^{'}$ .地层观测数据 $我$ 是 $({X（X）}_{我我}, Δ_{我我}, Z_{我我}^{c（c）}, ξ_{我我})$ 对于 $我 = 1, \dots, {n个}_{我}$ .定义 ${W公司}_{我我} = ({X（X）}_{我我}, Δ_{我我}, Z_{我我}^{c（c）})$ 对于 $我 = 1, \dots, {n个}_{我}$ 和 $我 = 1, \dots, L（左）$ 。我们假设 $Z_{我我}^{米}$ 随机缺失，因为观测缺失协变量的概率与 $Z_{我我}^{米}$ 鉴于 ${W公司}_{我我}$ .让 ${N个}_{我我} (t吨) = 我 ({X（X）}_{我我} \leq t吨, Δ_{我我} = 1)$ 是观察到的故障时间的计数过程，以及 ${Y（Y）}_{我我} (t吨) = 我 ({X（X）}_{我我} \geq t吨)$ 表示受试者的风险指标我地层中我，哪里 $我 (\cdot)$ 是一个指示函数。

2.2. 逆概率加权估计

基于Horvitz和Thompson的逆概率加权（IPW）估计[16]使用响应概率的倒数作为权重来调整缺失的协变量[39,41]. 我们假设 $ξ_{我我}$ 地层内我由伯努利分布独立生成，并允许每个地层有不同的截距：

π_{我 我} = 公共关系 (ξ_{我 我} = 1 ∣ {W公司}_{我 我}) = \frac{经验 (ϕ^{T型} ω_{我 我})}{1 + 经验 (ϕ^{T型} ω_{我 我})},

(2)

哪里 $ω_{我我} = {(1, 我 (我 = 2), \dots, 我 (我 = L（左）), {W公司}_{我我}^{T型})}^{T型}$ .让 $ϕ_{0}$ 是的真实参数向量 $ϕ$ 。为了获得IPW估计量，我们考虑

{U型}_{1, n个} (β, ϕ) = \frac{1}{n个} \sum_{我 = 1}^{L（左）} \sum_{我 = 1}^{{n个}_{我}} \frac{ξ_{我 我}}{π_{我 我}} {\int^{​}}_{0}^{τ} {Z_{我 我} - \frac{秒_{我}^{(1)} (β, t吨)}{秒_{我}^{(0)} (β, t吨)}} d日 {N个}_{我 我} (t吨) = 0,

(3)

{U型}_{2, n个} (ϕ) = \frac{1}{n个} \sum_{我 = 1}^{L（左）} \sum_{我 = 1}^{{n个}_{我}} {ξ_{我 我} - π_{我 我}} ω_{我 我}^{T型} = 0,

(4)

哪里 $秒_{我}^{(d日)} (β, t吨) = {n个}^{- 1} \sum_{我 = 1}^{{n个}_{我}} ξ_{我我} π_{我我}^{- 1} {Y（Y）}_{我我} (t吨) Z_{我我}^{\otimes d日} {e（电子）}^{β^{T型} Z_{我我}}$ 对于 $d日 = 0, 1$ 和 $一^{\otimes 0} = 1$ , $一^{\otimes 1} = 一$ , $一^{\otimes 2} = 一一^{T型}$ .这两个功能 ${U型}_{1, n个} (β, ϕ)$ 和 ${U型}_{2, n个} (ϕ)$ 分别是分层PH模型和logistic回归的得分函数。对于MAR假设下的频率学家IPW方法，首先估计响应概率 $π_{我我} ’ 秒$ 通过求解(4)然后插入估计值 $π_{我我} ’ 秒$ 进入之内(3)估计β.让解决方案(3)是 $\hat{β}$ 在实践中，我们依赖泰勒展开来获得 $\hat{β}$ [41].

2.3. 近似贝叶斯方法

在本节中，我们提出了一种近似贝叶斯方法。定义 $θ = {(β^{T型}, ϕ^{T型})}^{T型}$ 和 ${U型}_{n个} (θ) = {({U型}_{1, n个}^{T型} (β, ϕ), {U型}_{2, n个}^{T型} (ϕ))}^{T型}$ .让 $\hat{θ}$ 成为解决方案 ${U型}_{n个} (θ) = 0$ .而不是直接生成后验分布 $第页 (θ | 数据)$ 类似于Soubeyrand和Haon-Lastortes[35]，我们使用近似值 $第页 (θ | 数据)$ 也就是说， $第页 (θ | \hat{θ})$ 如下：

第页 (θ ∣ \hat{θ}) \propto 第页 (\hat{θ} ∣ θ) 第页 (θ),

哪里 $第页 (\hat{θ} | θ)$ 是的抽样分布 $\hat{θ}$ 和 $第页 (θ)$ 是的优先分布 $θ$ 然而，学习 $第页 (\hat{θ} | θ)$ 需要泰勒展开，如定理1所示。

为了避免泰勒展开，而不是从 $第页 (θ | \hat{θ})$ ，我们也可以考虑

第页 (θ ∣ {U型}_{n个}) \propto 第页 ({U型}_{n个} (θ) ∣ θ) 第页 (θ),

(5)

哪里 $第页 ({U型}_{n个} (θ) | θ)$ 是的抽样分布 ${U型}_{n个} (θ)$ 。要从中生成样本(5)，我们考虑一对一转换 $T型 : θ \to η$ 这样的话 $η = 电子 ({U型}_{n个} | θ)$ 然后，我们生成 $η^{*}$ 从 $第页 (η | {U型}_{n个})$ 并获得 $θ^{*} = {T型}^{- 1} (η^{*})$ 作为后验分布的样本(5)和下一节一样，在某些正则性条件下 ${U型}_{n个}$ 是

\sqrt{n个} {{U型}_{n个} (θ) - η (θ)} ∣ θ \overset{d日}{\to} N个 (0, Σ),

(6)

哪里 $\overset{d日}{\to}$ 分布趋同 $Σ$ 是联合得分函数的渐近协方差矩阵。自转型以来 $T型 : θ \to η$ 是一对一的，(6)等于

\sqrt{n个} {{U型}_{n个} ({T型}^{- 1} η) - η} ∣ η \overset{d日}{\to} N个 (0, Σ) .

(7)

然后η鉴于U型_n个是

第页 (η ∣ {U型}_{n个}) \propto 第页 ({U型}_{n个} ∣ η) 第页 (η),

(8)

哪里 $第页 ({U型}_{n个} | η)$ 是极限分布的密度(7).方程式（8）显示了频率学家IPW方法和贝叶斯方法之间的重要关系。在公寓前 $第页 (η)$ 以及(7)，我们可以近似后验分布 $第页 (η | {U型}_{n个})$ 如下：

第页 (η ∣ {U型}_{n个}) \sim N个 ({U型}_{n个}, Σ / n个) .

(9)

如所示附录，的估计量Σ, $\hat{Σ}$ ，可通过以下方式获得

\frac{\hat{Σ}}{n个} = (\begin{matrix} \hat{V（V） 一 第页} ({U型}_{1}) & \hat{C类 哦 v（v）} ({U型}_{1}, {U型}_{2}) \\ \hat{C类 哦 v（v）} ({U型}_{1}, {U型}_{2}) & \hat{V（V） 一 第页} ({U型}_{2}) \end{matrix}), \hat{V（V） 一 第页} {{U型}_{1} (β, ϕ)} = \frac{1}{{n个}^{2}} \sum_{我 = 1}^{L（左）} \sum_{我 = 1}^{{n个}_{我}} \frac{ξ_{我 我}}{π_{我 我}^{2}} \int_{0}^{τ} {[{Z_{我 我} - \frac{秒_{我}^{(1)} (β, t吨)}{秒_{我}^{(0)} (β, t吨)}} \hat{{M（M）}_{我 我}} (t吨)]}^{\otimes 2}, \hat{V（V） 一 第页} ({U型}_{2}) = \frac{1}{{n个}^{2}} \sum_{我 = 1}^{L（左）} \sum_{我 = 1}^{{n个}_{我}} π_{我 我} (1 - π_{我 我}) ω_{我 我} ω_{我 我}^{T型}, d日 {\hat{Λ}}_{0 我} (t吨) = \sum_{我 = 1}^{{n个}_{我}} d日 {N个}_{我 我} (t吨) / {{n个}_{我} 秒_{我}^{(0)} (β, t吨)}, \hat{C类 哦 v（v）} ({U型}_{1}, {U型}_{2}) = \frac{1}{{n个}^{2}} \sum_{我 = 1}^{L（左）} \sum_{我 = 1}^{{n个}_{我}} \frac{ξ_{我 我} (1 - π_{我 我})}{π_{我 我}} \int_{0}^{τ} {Z_{我 我} - \frac{秒_{我}^{(1)} (β, t吨)}{秒_{我}^{(0)} (β, t吨)}} d日 {M（M）}_{我 我} (t吨) \times ω_{我 我}^{T型}, {\hat{Σ}}_{c（c）} = \hat{V（V） 一 第页} ({U型}_{1}) - \hat{C类 哦 v（v）} ({U型}_{1}, {U型}_{2}) {\hat{V（V） 一 第页}}^{- 1} ({U型}_{2}) \hat{C类 哦 v（v）} {({U型}_{1}, {U型}_{2})}^{T型}, d日 {\hat{M（M）}}_{我 我} (t吨) = d日 {N个}_{我 我} (t吨) - {Y（Y）}_{我 我} (t吨) {e（电子）}^{β^{T型} Z_{锂}} d日 {\hat{Λ}}_{0 我} (t吨) .

在公寓下面 $第页 (η)$ ，我们提出以下算法来从后验分布生成样本 $第页 (θ | \hat{θ})$ 如下：

生成 $η_{2}^{*}$ 从近似后验分布 $第页 (η_{2} | {U型}_{2, n个} = 0)$ 也就是说， $N个 (0, \hat{V（V）一第页} ({U型}_{2}))$ .
解决 ${U型}_{2, n个} (ϕ) = η_{2}^{*}$ 关于 $ϕ$ 以获得 $ϕ^{*}$ .
生成 $η_{1}^{*}$ 从近似后验分布 $第页 (η_{1} | {U型}_{1, n个} (ϕ^{*}) = 0)$ 也就是说， $N个 (0, {\hat{Σ}}_{c（c）})$ .
解决 ${U型}_{1, n个} (β) = η_{1}^{*}$ 关于 $β$ 以获得 $β^{*}$ .
重复上述步骤。

可以使用Newton-Raphson算法或根查找算法来求解 ${U型}_{n个} (θ) = η^{*}$ 在步骤2和步骤4中。因此，该算法易于实现。根据我们的模拟结果，1000次重复似乎足以进行统计推断。使用上述算法，从近似后验分布中独立样本 $第页 (θ | \hat{θ})$ 因此没有老化期。

2.4. 具有多个缺失协变量模式的估计

中的方法第2.2节和2.3考虑一个缺失的机制。当存在具有不同缺失模式的多个缺失协变量时，这并不直接适用。在本节中，我们提出了具有多个缺失模式的生存数据的估计量。为了简单起见，我们描述了具有两个缺失协变量和两个层的分层PH模型的所提方法。假设有两个协变量， $Z_{1 我}^{米}$ 和 $Z_{2 我}^{米}$ ，个人可能会丢失我.让 $η_{k个我} = 1$ 如果 $Z_{k个我}^{米}$ 被观察到并且 $η_{k个我} = 0$ 如果 $Z_{k个我}^{米}$ 缺少的k个= 1, 2. 表示 $Z = {(Z_{1}^{米}, Z_{2}^{米})}^{T型}$ 和 $O（运行） = {(Δ, X（X）, {(Z^{c（c）})}^{T型})}^{T型}$ ，其中 $Z^{c（c）}$ 是一个完全观测到的协变量向量。我们将数据分为4组：i）两组 $Z_{1}^{米}$ 和 $Z_{2}^{米}$ 观察到；ii） $Z_{1}^{米}$ 被观察到并且 $Z_{2}^{米}$ 缺少；iii） $Z_{1}^{米}$ 缺少，并且 $Z_{2}^{米}$ 观察到；和iv）两者 $Z_{1}^{米}$ 和 $Z_{2}^{米}$ 缺少。让 $ω_{10} = {(1, Z_{1}^{米}, {O（运行）}^{T型})}^{T型}$ , $ω_{01} = {(1, Z_{2}^{米}, {O（运行）}^{T型})}^{T型}$ 、和 $ω_{00} = {(1, {O（运行）}^{T型})}^{T型}$ 因此， $ω_{10}$ , $ω_{01}$ 、和 $ω_{00}$ 分别对应于ii）、iii）和iv）。定义

\begin{matrix} {第页}_{11} (Z, O（运行）) = 1, 如果 η_{1} = 1, η_{2} = 1, \\ {第页}_{10} (Z, O（运行）) = 经验 (ϕ_{10}^{T型} ω_{10}), 如果 η_{1} = 1, η_{2} = 0, \\ {第页}_{01} (Z, O（运行）) = 经验 (ϕ_{01}^{T型} ω_{01}), 如果 η_{1} = 0, η_{2} = 1, \\ {第页}_{00} (Z, O（运行）) = 经验 (ϕ_{00}^{T型} ω_{00}), 如果 η_{1} = 0, η_{2} = 0, \end{matrix}

(10)

哪里

ϕ_{10}^{T型} ω_{10} = ϕ_{10, 0} + ϕ_{10, 1} Z_{1}^{米} + ϕ_{10, 2} Δ + ϕ_{10, 三} X（X） + ϕ_{10, 4}^{T型} Z^{c（c）} + ϕ_{10, 5}^{T型} 我 (地层 = 2), ϕ_{01}^{T型} ω_{01} = ϕ_{01, 0} + ϕ_{01, 1} Z_{2}^{米} + ϕ_{01, 2} Δ + ϕ_{01, 三} X（X） + ϕ_{01, 4}^{T型} Z^{c（c）} + ϕ_{01, 5}^{T型} 我 (地层 = 2), ϕ_{00}^{T型} ω_{00} = ϕ_{00, 0} + ϕ_{00, 1} Δ + ϕ_{00, 2} X（X） + ϕ_{00, 三}^{T型} Z^{c（c）} + ϕ_{00, 4}^{T型} 我 (地层 = 2) .

方程式（10）满足MAR假设。模型(10)是失踪概率与基线之比的模型：

{第页}_{一 b条} (Z, O（运行）) = \frac{P（P） (η_{1} = 一, η_{2} = b条 ∣ Z, O（运行）)}{P（P） (η_{1} = 1, η_{2} = 1 ∣ Z, O（运行）)} .

Sun和Tchetgen-Tchetgen也考虑过类似的想法[36]. 那么，倾向得分是

π_{一 b条} = P（P） (η_{1} = 一, η_{2} = b条 ∣ Z, O（运行）) = \frac{{第页}_{一 b条} (Z, O（运行）)}{\sum_{一 = 0}^{1} \sum_{b条 = 0}^{1} {第页}_{一 b条} (Z, O（运行）)} .

让 $ϕ_{0}$ 是的真实参数向量 $ϕ = {(ϕ_{10}^{T型}, ϕ_{01}^{T型}, ϕ_{00}^{T型})}^{T型}$ 。为了获得IPW估计量，我们考虑

{U型}_{1, n个}^{米} (β_{米}, ϕ) = \frac{1}{n个} \sum_{我 = 1}^{L（左）} \sum_{我 = 1}^{{n个}_{我}} \frac{ξ_{我 我}}{π_{11, 我 我}} \int_{0}^{τ} {Z_{我 我} - \frac{秒_{我, 米}^{(1)} (β_{米}, t吨)}{秒_{我, 米}^{(0)} (β_{米}, t吨)}} d日 {N个}_{我 我} (t吨) = 0,

(11)

{U型}_{2, n个}^{米} (ϕ) = {{U型}_{10, n个}^{T型} (ϕ_{10}), {U型}_{01, n个}^{T型} (ϕ_{01}), {U型}_{00, n个}^{T型} (ϕ_{00})}^{T型} = 0,

(12)

{U型}_{一 b条, n个} (ϕ_{一 b条}) = \frac{1}{{N个}_{一 b条}} \sum_{我 = 1}^{L（左）} \sum_{我 = 1}^{{n个}_{我}} η_{一 b条, 我 我} {ξ_{我 我} - \frac{π_{11, 我 我}}{π_{11, 我 我} + π_{一 b条, 我 我}}} ω_{一 b条, 我 我}^{T型},

哪里 $ξ_{我我} = 我 (η_{1} = 1, η_{2} = 1)$ , $η_{一 b条, 我我} = 我 (η_{1 我我} = 一, η_{2 我我} = b条或 η_{1 我我} = 1, η_{2 我我} = 1)$ , $秒_{我, 米}^{(k个)} (β_{米}, t吨) = {n个}_{我}^{- 1} \sum_{我 = 1}^{{n个}_{我}} ξ_{我我} π_{11, 我我}^{- 1} {Y（Y）}_{我我} (t吨) Z_{我我}^{\otimes k个} {e（电子）}^{β_{我, 米}^{T型} Z_{我我}}$ 、和 ${N个}_{一 b条}$ 是子组样本量 $η_{1} = 一$ 和 $η_{2} = b条$ .让解决方案(11)是 ${\hat{β}}_{米}$ 。类似于第2.3节，的估计量 $Σ^{米}$ , ${\hat{Σ}}^{米}$ ，可通过以下方式获得

\frac{{\hat{Σ}}^{米}}{n个} = (\begin{matrix} \hat{V（V） 一 第页} ({U型}_{1}^{米}) & \hat{C类 哦 v（v）} ({U型}_{1}^{米}, {U型}_{2}^{米}) \\ \hat{C类 哦 v（v）} ({U型}_{1}^{米}, {U型}_{2}^{米}) & \hat{V（V） 一 第页} ({U型}_{2}^{米}) \end{matrix}), \hat{V（V） 一 第页} {{U型}_{1}^{米} (β, ϕ)} = \frac{1}{{n个}^{2}} \sum_{我 = 1}^{L（左）} \sum_{我 = 1}^{{n个}_{我}} \frac{ξ_{我 我}}{π_{11, 我 我}^{2}} \int_{0}^{τ} {[{Z_{我 我} - \frac{秒_{我, 米}^{(1)} (β, t吨)}{秒_{我, 米}^{(0)} (β, t吨)}} d日 {\hat{M（M）}}_{我 我} (t吨)]}^{\otimes 2}, \hat{V（V） 一 第页} ({U型}_{一 b条}) = \frac{1}{{N个}_{一 b条}^{2}} \sum_{我 = 1}^{L（左）} \sum_{我 = 1}^{{n个}_{我}} η_{一 b条, 我 我} {(ξ_{我 我} - \frac{π_{11, 我 我}}{π_{11, 我 我} + π_{一 b条, 我 我}})}^{2} ω_{一 b条, 我 我} ω_{一 b条, 我 我}^{T型}, d日 {\hat{Λ}}_{我 0} (t吨) = \sum_{我 = 1}^{{n个}_{我}} d日 {N个}_{我 我} (t吨) / {n个 秒_{我, 米}^{(0)} (β, t吨)}, d日 {\hat{M（M）}}_{我 我} (t吨) = d日 {N个}_{我 我} (t吨) - {Y（Y）}_{我 我} (t吨) {e（电子）}^{β^{T型} Z_{锂}} d日 {\hat{Λ}}_{我 0} (t吨) \hat{C类 哦 v（v）} ({U型}_{1}^{米}, {U型}_{2}^{米}) = {{U型}_{1, n个}^{米}}^{T型} {U型}_{2, n个}^{米} .

中的步骤1-步骤5第2.3节可以类似地适用于多个缺失模式的近似贝叶斯方法。

3.渐近性质

我们现在研究 $第页 (θ | \hat{θ})$ 在本节中。为了建立分层PH模型IPW估计的一致性和渐近正态性，我们假设以下条件：

C1类 $P（P） {{Y（Y）}_{我我} (t吨) = 1} > 0$ 对于 $t吨 \in [0, τ]$ , $我 = 1, \dots, L（左）$ 和 $我 = 1, \dots, {n个}_{我}$ ;

指挥与控制 $| Z_{我我 k个} (0) | + \int_{0}^{τ} | d日 Z_{我我 k个} (t吨) | < {D类}_{z（z）} < \infty$ , $我 = 1, \dots, L（左）$ , $我 = 1, \dots, {n个}_{我}$ 和 $k个 = 1, \dots, 第页$ 几乎可以肯定在哪里 ${D类}_{z（z）}$ 是一个常数；

C3用于d日=0，1，2，存在邻域 $B类$ 属于 $β_{0}$ 这样的话 $秒_{我}^{(d日)} (β, t吨)$ 是连续的，并且 ${啜饮}_{t吨 \in [0, τ], β \in B类} ‖ 秒_{我}^{(d日)} (β, t吨) - 秒_{我}^{(d日)} (β, t吨) ‖ \overset{第页}{\to} 0$ 对于 $我 = 1, \dots, L（左）$ ，其中 $\overset{第页}{\to}$ 表示概率收敛；

C4矩阵 $我_{我} (β) = \int_{0}^{τ} {v（v）}_{我} (β, t吨) 秒_{我}^{(0)} (β, t吨) λ_{0 我} (t吨) d日 t吨$ 为正定 $我 = 1, \dots, L（左）$ ，其中 ${v（v）}_{我} (β, t吨) = 秒_{我}^{(2)} (β, t吨) / 秒_{我}^{(0)} (β, t吨) - {e（电子）}_{我} {(β, t吨)}^{\otimes 2}$ 和 ${e（电子）}_{我} (β, t吨) = 秒_{我}^{(1)} (β, t吨) / 秒_{我}^{(0)} (β, t吨)$ ;

C5矩阵 ${V（V）}_{我}^{ϕ}$ 是正定的，并且 $π_{我我} \geq ϵ > 0$ 对于 $我 = 1, \dots, {n个}_{我}$ 和 $我 = 1, \dots, L（左）$ ，其中 ${V（V）}_{我}^{ϕ} = 电子 {(ξ_{我 1} - π_{我 1}) ω_{我 1}^{T型}}^{\otimes 2}$ ;

C6适用于所有人 $β \in B类$ , $t吨 \in [0, τ]$ , $秒_{我}^{(1)} (β, t吨) = \partial 秒_{我}^{(0)} (β, t吨) / \partial β$ 、和 $秒_{我}^{(2)} (β, t吨) = \partial^{2} 秒_{我}^{(0)} (β, t吨) / \partial β \partial β^{T型}$ ，其中 $秒_{我}^{(d日)} (β, t吨)$ , $d日 = 0, 1, 2$ 是的连续函数 $β \in B类$ 均匀地 $t吨 \in [0, τ]$ 和在上有界 $B类 \times [0, τ]$ , $秒_{我}^{(0)}$ 在上远离零 $B类 \times [0, τ]$ ;

抄送7 $\int_{0}^{τ} λ_{0 我} (t吨) d日 t吨 < \infty$ 对于 $我 = 1, \dots, L（左）$ ;

抄送8 $林_{n个 \to \infty} {n个}_{我} / n个 = {q个}_{我}$ ，其中 ${q个}_{我} \in (0, 1)$ 为所有人 $我 = 1, \dots, L（左）$ ;

C9组件 $n个 \to \infty$ , ${啜饮}_{θ \in Θ} ‖ {U型}_{n个} (θ) - η (θ) ‖ \overset{第页}{\to} 0$ ，其中 $Θ$ 是参数空间；

C10地图 $θ \mapsto {U型}_{n个} (θ)$ 是连续的，正好有一个零 $\hat{θ}$ 概率为1；

C11方程式 $η (θ) = 0$ 正好有一个根位于 $θ = θ_{0}$ ;

C12有一个邻居 $θ_{0}$ ，表示为 ${J型}_{n个} (θ_{0})$ ，概率为1 ${U型}_{n个} (θ)$ 连续可微和雅可比矩阵 $\partial {U型}_{n个} (θ) / \partial θ$ 一致收敛到非随机极限，该极限是非奇异的。在这里， ${J型}_{n个} (θ_{0})$ 是一个有中心的球 $θ_{0}$ 和半径 ${第页}_{n个}$ 满足 ${第页}_{n个} \to \infty$ 和 ${第页}_{n个} \sqrt{n个} \to \infty$ ;

C13适用于任何 $θ \in {J型}_{n个} (θ_{0})$ ，给定 $θ$ :

\sqrt{n个} {{U型}_{n个} (θ) - η (θ)} \overset{d日}{\to} N个 (0, Σ (θ))

保留一些 $Σ (θ) = V（V）一第页 {\sqrt{n个} {U型}_{n个} (θ) | θ}$ 它是正定的并且独立于n.（名词）。

条件C1–C8是一致性和渐近正态性的标准条件 $\hat{β}$ [1,41]. 联合IPW估计量的渐近性质需要条件C9–C13。更具体地说，只要样本满足某些力矩条件，条件C9就成立。条件C10和C11确保 ${U型}_{n个} = 0$ 条件C12规定了 ${U型}_{n个}$ 并确保其协方差收敛。条件C13为估计方程提供了渐近分布。C13的证明可以在Yuan和Jennrich（1998）的定理6中找到[43]其中Yuan和Jennrich（1998）[43]研究了在非常一般的假设下，由非同分布样本生成的估计量的大样本性质，包括估计量的存在性、强相合性和渐近正态性。在条件C1-C13下，我们可以显示 $\hat{θ}$ 是的一致估计量 $θ$ 平均值渐近正态分布0和协方差矩阵 ${B类}^{- 1} (θ_{0}) Σ (θ_{0}) {B类}^{- 1} (θ_{0})$ 哪里 $B类 (θ) = \partial η (θ) / \partial θ$ .

跟随桑和金[32]，我们假设以下条件来建立后验一致性和渐近正态性。

C14优先 $η \mapsto π (η)$ 在参数空间上为正且Lipschitz连续；

C15用于 $θ \in {J型}_{n个} (θ_{0})$ ，方差估计量 $\hat{Σ} (θ)$ 满足 $\hat{Σ} (θ) = Σ (θ) {1 + 哦_{第页} (1)}$ 哪里 $\hat{Σ} (θ)$ 提供于附录;

C16适用于任何 $θ \in {J型}_{n个} (θ_{0})$ ，映射 $θ \mapsto {| Σ (θ) |}^{- 1}$ Lipschitz连续。此外，映射 $θ \mapsto {x个}^{T型} {Σ (θ)}^{- 1} x个$ 利普希茨是连续的吗，因为存在一个常数 $C类 (x个)$ 令人满意的 $‖ {x个}^{T型} {Σ (θ_{1})}^{- 1} x个 - {x个}^{T型} {Σ (θ_{2})}^{- 1} x个 ‖ \leq C类 (x个) ‖ θ_{1} - θ_{2} ‖$ ，对于任何 $θ_{1}, θ_{2} \in {J型}_{n个} (θ_{0})$ ，对于所有人 $x个 \in {R（右）}^{第页}$ ，其中 $第页 = d日我米 (Z)$ .和 $C类 (x个)$ 也是Lipschitz连续的；

第17页 $θ \mapsto {U型}_{n个} (θ)$ 和 $θ \mapsto η (θ)$ 对于任何 $θ \in {J型}_{n个} (θ_{0})$ 。此外 $θ \mapsto η (θ)$ Lipschitz连续。

条件C14是先验的标准假设，平坦先验满足此条件。条件C15意味着协方差估计值应该是一致的。条件C16到C17是用该方法近似后验分布的充分条件。Soubeyrand和Haon Lasportes[35]还使用了与C14和C16类似的条件来证明其近似贝叶斯计算方法的合理性。如果我们假设协方差估计量在θ具有Sang和Kim中讨论的有界特征值[32].

类似于Xu等人[41]，我们可以建立以下渐近性质 $\hat{β}$ 在分层PH模型下：

定理1 假设条件C1-C8 in 第3节.

1.假设 $π_{我我}$ 未知且指定正确。然后, $\hat{β}$ 是一致的 $β$ 、和 $\sqrt{n个} (\hat{β} - β_{0})$ 以平均值渐近正态分布 0 和协方差矩阵

{V（V）}_{β} = {我 (β_{0})}^{- 1} {Σ^{β_{0}} - Σ^{ϕ_{0} β_{0}}} {我 (β_{0})}^{- 1},

(13)

哪里

我 (β) = \sum_{我 = 1}^{L（左）} {q个}_{我} 我_{我} (β), 我_{我} (β) = \int_{0}^{τ} {v（v）}_{我} (β, t吨) 秒_{我}^{(0)} (β, t吨) λ_{0 我} (t吨) d日 t吨, {v（v）}_{我} (β, t吨) = 秒_{我}^{(2)} (β, t吨) / 秒_{我}^{(0)} (β, t吨) - {e（电子）}_{我} {(β, t吨)}^{\otimes 2}, {e（电子）}_{我} (β, t吨) = 秒_{我}^{(2)} (β, t吨) / 秒_{我}^{(0)} (β, t吨), 秒_{我}^{(d日)} (β, t吨) = 电子 {秒_{我}^{(d日)} (β, t吨)} （f） 哦 第页 d日 = 0, 1, 2, Σ^{β} = \sum_{我 = 1}^{L（左）} {q个}_{我} 电子 {[\frac{ξ_{我 1}}{π_{我 1}} \int_{0}^{τ} {Z_{我 1} - {e（电子）}_{我 1} (β, t吨) d日 {M（M）}_{我 1} (t吨)}]}^{\otimes 2}, Σ^{ϕ β} = \sum_{我 = 1}^{L（左）} {q个}_{我} {V（V）}_{我}^{ϕ β} {V（V）}_{我}^{ϕ} {({V（V）}_{我}^{ϕ β})}^{T型}, {V（V）}_{我}^{ϕ β} = 电子 [\frac{ξ_{我 1}}{π_{我 1}^{2}} \int_{0}^{τ} {Z_{我 1} - {e（电子）}_{我 1} (β, t吨) d日 {M（M）}_{我 1} (t吨)} \frac{\partial}{\partial ϕ^{T型}} π_{我 1}], {V（V）}_{我}^{ϕ} = 电子 {(ξ_{我 1} - π_{我 1}) ω_{我 1}^{T型}}^{\otimes 2}, d日 {M（M）}_{我 我} (t吨) = d日 {N个}_{我 我} (t吨) - {Y（Y）}_{我 我} (t吨) 经验 (β^{T型} Z_{我 我}) d日 Λ_{0 我} (t吨), \underset{n个 \to \infty}{林} {n个}_{我} / n个 = {q个}_{我} .

2.如果π_锂已知, $\sqrt{n个} (\hat{β} - β_{0})$ 以平均值渐近正态分布 0 和协方差矩阵 ${我 (β_{0})}^{- 1} Σ^{β_{0}} {我 (β_{0})}^{- 1}$ .

其证明是Xu等人定理2的直接推广[41]分层PH模型，因此省略。使用(13)，可以开发一个插入式方差估计器 $\hat{β}$ ，但它可能需要进行大量计算。

接下来，我们得到了分层PH模型中估计量的以下渐近性质，其中两个缺失协变量具有多个缺失模式，如第2.4节.

定理2 假设条件C1-C8 in 第3节.

1.假设 $π_{一 b条, 我我}$ 未知且指定正确。然后， ${\hat{β}}_{米}$ 是一致的 $β_{米}$ 、和 $\sqrt{n个} ({\hat{β}}_{米} - β_{米 0})$ 以平均值渐近正态分布 0 和协方差矩阵

{V（V）}_{β}^{米} = {我_{米} (β_{米 0})}^{- 1} {Σ_{米}^{β_{米 0}} - Σ_{米}^{ϕ_{米 0} β_{米 0}}} {我_{米} (β_{米 0})}^{- 1},

哪里

我_{米} (β) = \sum_{我 = 1}^{L（左）} {q个}_{我} \int_{0}^{τ} {v（v）}_{我 米} (β, t吨) 秒_{我, 米}^{(0)} (β, t吨) λ_{我 0} (t吨) d日 t吨, {v（v）}_{我 米} (β, t吨) = 秒_{我, 米}^{(2)} (β, t吨) / 秒_{我, 米}^{(0)} (β, t吨) - {e（电子）}_{我, 米} {(β, t吨)}^{\otimes 2}, {e（电子）}_{我, 米} (β, t吨) = 秒_{我, 米}^{(1)} (β, t吨) / 秒_{我, 米}^{(0)} (β, t吨), 秒_{我, 米}^{(d日)} (β, t吨) = 电子 {秒_{我, 米}^{(d日)} (β, t吨)} （f） 哦 第页 d日 = 0, 1, 2, Σ_{米}^{β} = \sum_{我 = 1}^{L（左）} {q个}_{我} 电子 {[\frac{ξ_{我 1}}{π_{11, 我 1}} \int_{0}^{τ} {Z_{我 1} - {e（电子）}_{我, 米} (β, t吨) d日 {M（M）}_{我 1} (t吨)}]}^{\otimes 2}, Σ_{米}^{ϕ β} = {V（V）}_{米}^{ϕ β} {V（V）}_{米}^{ϕ} {({V（V）}_{米}^{ϕ β})}^{T型}, {V（V）}_{米}^{ϕ β} = ({V（V）}_{10}^{ϕ β^{T型}}, {V（V）}_{01}^{ϕ β^{T型}}, {V（V）}_{00}^{ϕ β^{T型}})^{T型}, {V（V）}_{一 b条}^{ϕ β} = \sum_{我 = 1}^{L（左）} {q个}_{我} 电子 [\frac{ξ_{我 1}}{π_{11, 我 1}} \int_{0}^{τ} {Z_{我 1} - {e（电子）}_{我, 米} (β, t吨) d日 {M（M）}_{我 1} (t吨)} δ_{一 b条, 我 1} {ξ_{我 1} - \frac{π_{11, 我 1}}{π_{11, 我 1} + π_{一 b条, 我 1}}} ω_{一 b条, 我 1}^{T型}], {V（V）}_{米}^{ϕ} = (\begin{matrix} {V（V）}_{10, 10}^{ϕ} & {V（V）}_{10, 01}^{ϕ} & {V（V）}_{10, 00}^{ϕ} \\ {V（V）}_{01, 10}^{ϕ} & {V（V）}_{01, 01}^{ϕ} & {V（V）}_{01, 00}^{ϕ} \\ {V（V）}_{00, 10}^{ϕ} & {V（V）}_{00, 01}^{ϕ} & {V（V）}_{00, 00}^{ϕ} \end{matrix}), {V（V）}_{一 b条, 一^{'} {b条}^{'}}^{ϕ} = \sum_{我 = 1}^{L（左）} {q个}_{我} 电子 (δ_{一 b条, 我 1} δ_{一^{'} {b条}^{'}, 我 1} {ξ_{我 1} - \frac{π_{11, 我 1}}{π_{11, 我 1} + π_{一 b条, 我 1}}} {ξ_{我 1} - \frac{π_{11, 我 1}}{π_{11, 我 1} + π_{一^{'} {b条}^{'}, 我 1}}} \times ω_{一 b条, 我 1}^{T型} ω_{一^{'} {b条}^{'}, 我 1}), d日 {M（M）}_{我 我} (t吨) = d日 {N个}_{我 我} (t吨) - {Y（Y）}_{我 我} (t吨) 经验 (β^{T型} Z_{我 我}) d日 Λ_{我 0} (t吨), {q个}_{我} = \underset{n个 \to \infty}{林} {n个}_{我} / n个 .

2.如果 $π_{一 b条, 我}$ 已知, $\sqrt{n个} ({\hat{β}}_{米} - β_{米 0})$ 以平均值渐近正态分布 0 和协方差矩阵 ${我_{米} (β_{米 0})}^{- 1} Σ_{米}^{β_{米 0}} {我_{米} (β_{米 0})}^{- 1}$ .

定理2的证明类似于定理1的证明，因此被省略。可以类似地建立两个以上缺失协变量的渐近性。现在我们有了关于 $第页 (θ | \hat{θ})$ 如下：

定理3 让 $\hat{θ}$ 成为解决方案 ${U型}_{n个} (θ) = 0$ .在条件C1-C17下，后验分布 $第页 (θ | \hat{θ})$ ,由上述两步方法生成，满足

第页 (θ ∣ \hat{θ}) \to ψ_{\hat{θ}, V（V） 一 第页 (\hat{θ})} (θ),

(14)

第页 (林_{n个 \to \infty} \int_{{J型}_{n个} (θ_{0})} ψ_{\hat{θ}, V（V） 一 第页 (\hat{θ})} (θ) d日 θ) = 1,

(15)

哪里 $ψ_{\hat{θ}, V（V）一第页 (\hat{θ})} (\cdot)$ 是具有平均值的正态分布密度 $\hat{θ}$ 和方差 $V（V）一第页 (\hat{θ})$ .

其证明类似于Sang和Kim定理4.1的证明[32]因此省略。结果(14)和(15)分别表明后验分布收敛于正态分布和后验一致性。特别地，(14)暗示了所提出的贝叶斯方法的置信区域与基于渐近正态性的频率计置信区域渐近等价θ因此，我们提出的贝叶斯方法被校准为频率推理。

提出的贝叶斯估计ϕ和β可以通过从近似后验分布中提取的中值来获得。根据定理3，由于后验分布近似正态，因此可以使用等尾可信区间（ETI）或水平构造置信区域-α贝叶斯高后验密度可信域 ${j个}^{*}$ 定义为 ${C类}^{*} (α) = {θ : P（P） (θ | \hat{θ}) \geq {j个}^{*} (α)}$ [7].

4.仿真

我们对分层数据进行了两次模拟研究，以研究近似贝叶斯方法和IPW方法的有限样本特性。我们将其与CC方法进行了比较。

在第一个模拟中，我们考虑了具有两层的分层PH模型，即。，L（左）= 2. 每个阶层都产生了两个协变量：Z₁₁概率为0.4的伯努利分布Z₁₂从第1层的标准正态分布；Z₂₁概率为0.6的伯努利分布Z₂₂正态分布的平均值为1，标准差为0.7。事件时间是基于分层PH模型生成的(1)。我们考虑了 $λ_{10} (t吨) = 4 {t吨}^{三}$ 对于地层1和 $λ_{20} (t吨) = 2 / 三 {t吨}^{- 2 / 三}$ 对于地层2。我们设置了 $β = {(β_{1}, β_{2})}^{T型} = {日志 (2), 日志 (2)}^{T型}$ 独立于事件时间，审查时间由均匀分布生成。研究了两种总体事件概率：50%和70%。的一些值 $Z_{我 1}$ 失踪 $Z_{我 2}$ 对于我=1,2已完全观察到。观察指示器 $ξ_{我我} ’ 秒$ 由伯努利分布独立生成，概率为 $π_{我我} = 经验 {ϕ_{0} + ϕ_{1} 我 (我 = 2) + ϕ_{2} Z_{我 2} + ϕ_{三} Δ_{我我}} / {1 + 经验 (ϕ_{0} + ϕ_{1} 我 (我 = 2) + ϕ_{2} Z_{我 2} + ϕ_{三} Δ_{我我}}$ 对于 $我 = 1, 2$ ，其中 ${(ϕ_{0}, ϕ_{1}, ϕ_{2}, ϕ_{三})}^{T型} = {(1.2, - 1.5, 0.5, - 1)}^{T型}$ 第1层和第2层的缺失率分别约为60%和40%。因此，总体缺失率为50%。

考虑了四种样本大小：n个=500、1000和2000。表1总结了基于B类=1000个蒙特卡洛样本。对于所建议的方法，我们获得了1000个后中位数，并计算了1000个中位数的平均偏差及其标准偏差(标准偏差)，以及95%ETI包含真实参数的平均百分比(CR公司_电子).s对于IPW、CC方法，平均值偏差及其标准误差平均值(东南方)和95%的覆盖率(CR公司)进行了计算。如中所示表1近似贝叶斯方法的后验中位数平均值和IPW估计值的平均值与真实值接近。近似贝叶斯方法的所有标准偏差都接近IPW方法标准误差的平均值。95%ETI包含真实参数的平均百分比范围和IPW方法的覆盖率在93%至96%之间。这些结果与定理3一致。事件率越低或样本量越小，标准偏差和标准误差平均值越大。相反，CC方法有偏差，对于完全观察到的协变量，低覆盖率从71%到90%不等Z^c（c）远低于95%。此外，随着样本量的增加，这种现象变得更加严重。

表1

分层生存数据的模拟结果

		事件	建议的方法			IPW方法			CC方法
	n个	率	偏差	标准偏差	CR公司_电子	偏差	东南方	CR公司	偏差	东南方	CR公司
Z^米	500	50%	0.010	0.238	0.95	0.007	0.231	0.95	0.076	0.247	0.95
		70%	0.003	0.200	0.95	0.003	0.197	0.94	0.055	0.200	0.95
	1000	50%	0.009	0.165	0.95	0.008	0.162	0.95	0.077	0.172	0.94
		70%	0	0.139	0.94	0	0.138	0.94	0.052	0.139	0.93
	2000	50%	0.003	0.114	0.94	0.002	0.113	0.95	0.070	0.120	0.92
		70%	0	0.097	0.95	0	0.096	0.96	0.050	0.097	0.92
Z^c（c）	500	50%	0.027	0.175	0.93	0.025	0.169	0.93	0.115	0.177	0.90
		70%	0.015	0.133	0.93	0.016	0.130	0.93	0.097	0.130	0.88
	1000	50%	0.006	0.121	0.94	0.005	0.118	0.94	0.094	0.122	0.88
		70%	0.001	0.092	0.95	0.001	0.091	0.95	0.085	0.090	0.85
	2000	50%	0.005	0.085	0.94	0.004	0.083	0.94	0.090	0.085	0.82
		70%	0.003	0.065	0.95	0.003	0.064	0.95	0.085	0.063	0.71

在单独的窗口中打开

标准偏差，标准偏差；东南方，标准误差平均值；CR公司_电子：等尾可信区间置信域；CR公司，95%的覆盖率；IPW，逆概率加权；CC，完整外壳。

我们还对相关协变量进行了模拟β和缺失率。表S1的补充材料总结了类似于表1.当β越大，漏检率越高，CC法的表现越差。

在第二个模拟中，我们考虑了分层PH模型(L（左）=2）有两个缺失的协变量。我们比较了第2.4节里面有那些第2.3节和CC方法。两个协变量，Z₁和Z₂由贝努利分布独立生成，第1层概率为0.4和0.5，第2层概率为0.6和0.4。一个协变量Z_三是根据[0，1]上的均匀分布生成的。事件时间由分层PH模型生成(1).我们考虑了持续基线风险 $λ_{10} (t吨) = 1$ 对于地层1和 $λ_{20} (t吨) = 2$ 用于第2层。我们设置了 $β = {(β_{1}, β_{2})}^{T型} = {(0.3, 0.3, - 0.3)}^{T型}$ 和（0.7、0.7、−0.7）^T型独立于事件时间，审查时间由均匀分布生成。总体事件概率为55%：第一层为47%，第二层为63%。两个协变量Z₁和Z₂可能会失踪。定义η₁和η₂作为观察指标Z₁和Z₂分别为。有四种可能的缺失类别：1）完全观察到两个协变量 $({v（v）}_{11} = 我 (η_{1} = 1, η_{2} = 1)), 2)$ 只有Z₂缺少 $({v（v）}_{10} = 我 (η_{1} = 1, η_{2} = 0)), 三)$ 只有Z₁缺少 $({v（v）}_{01} = 我 (η_{1} = 0, η_{2} = 1))$ ，4）两者Z₁和Z₂都不见了 $({v（v）}_{00} = 我 (η_{1} = 0, η_{2} = 0))$ .指示器缺失v（v）_ab公司的是由概率多项式分布独立生成的 $π_{一 b条, 我} = 经验 {ϕ_{一 b条}^{T型} ω_{一 b条}} / (1 + \sum_{一 = 0}^{1} \sum_{b条 = 0}^{1} 经验 {ϕ_{一 b条}^{T型} ω_{一 b条}})$ 对于 $一, b条 = 0, 1$ ，其中 $ϕ_{10} = {(ϕ_{10, 0}, ϕ_{10, 1}, ϕ_{10, 2}, ϕ_{10, 三}, ϕ_{10, 4})}^{T型} = {(- 三, 2, 三, - 2, - 2)}^{T型}$ , $ϕ_{01} = {(ϕ_{01, 0}, ϕ_{01, 1}, ϕ_{01, 2}, ϕ_{01, 三}, ϕ_{01, 4})}^{T型} = {(- 1.2, - 2, 2, - 0.2, 0.1)}^{T型}$ , $ϕ_{00} = {(ϕ_{00, 0}, ϕ_{00, 1}, ϕ_{00, 2}, ϕ_{00, 三})}^{T型} = {(0.3, - 1.5, - 0.9, 0.1)}^{T型}$ , $ω_{10} = {(1, Δ, Z_{1}, Z_{三}, 我 (我 = 2))}^{T型}$ , $ω_{01} = {(1, Δ, Z_{2}, Z_{三}, 我 (我 = 2))}^{T型}$ 、和 $ω_{00} = {(1, Δ, Z_{三}, 我 (我 = 2))}^{T型}$ 然后 ${v（v）}_{11}$ , ${v（v）}_{10}$ , ${v（v）}_{01}$ 、和 ${v（v）}_{00}$ 分别为17%、13%、20%和50%：地层1为17%、14%、29%和40%，地层2为17%、11%、12%和60%。检查了两种样本大小：n个=1000和1500。

表2结果表明，对于多个缺失模式，所提出的近似贝叶斯方法和IPW方法的估计是近似无偏的。95%ETI的平均百分比和IPW方法的覆盖率接近标称水平95%。然而，单一缺失模式的CC方法和近似贝叶斯方法/IPW存在偏差，其中缺失协变量的覆盖率 $Z_{1}^{米}$ 和 $Z_{2}^{米}$ 为60%至87%。当样本量增加时，覆盖率会降低，并进一步远离95%。

表2

多个缺失模式的模拟结果

			MM建议方法			MM IPW公司			CC方法
n个	β	协变量	偏差	标准偏差	CR公司_电子	偏差	东南方	CR公司	偏差	东南方	CR公司
1000	0.3	$Z_{1}^{米}$	0.001	0.118	0.95	0.001	0.118	0.95	−0.122	0.103	0.78
	0.3	$Z_{2}^{米}$	0.005	0.117	0.95	0.005	0.116	0.95	0.048	0.099	0.93
	−0.3	Z^c（c）	−0.006	0.207	0.93	−0.006	0.199	0.93	0.041	0.171	0.94
	0.7	$Z_{1}^{米}$	0.007	0.121	0.94	0.007	0.119	0.94	−0.144	0.106	0.72
	0.7	$Z_{2}^{米}$	0.012	0.119	0.94	0.012	0.118	0.94	0.015	0.102	0.96
	−0.7	Z^c（c）	−0.012	0.207	0.94	−0.012	0.200	0.94	0.067	0.174	0.92
1500	0.3	$Z_{1}^{米}$	0.003	0.095	0.94	0.003	0.097	0.95	−0.123	0.084	0.69
	0.3	$Z_{2}^{米}$	0.002	0.097	0.94	0.002	0.096	0.94	0.047	0.081	0.91
	−0.3	Z^c（c）	−0.005	0.166	0.95	−0.005	0.164	0.96	0.041	0.138	0.94
	0.7	$Z_{1}^{米}$	0.004	0.100	0.93	0.004	0.098	0.94	−0.148	0.086	0.60
	0.7	$Z_{2}^{米}$	0.002	0.099	0.94	0.002	0.097	0.94	0.012	0.083	0.94
	−0.7	Z^c（c）	−0.012	0.172	0.94	−0.011	0.165	0.94	0.067	0.141	0.92

在单独的窗口中打开

			SM建议的方法			SM IPW公司
n个	β	协变量	偏差	标准偏差	CR公司_电子	偏差	东南方	CR公司
1000	0.3	$Z_{1}^{米}$	−0.150	0.115	0.72	−0.150	0.113	0.75
	0.3	$Z_{2}^{米}$	0.102	0.111	0.83	0.101	0.107	0.84
	−0.3	Z^c（c）	0.069	0.197	0.99	0.069	0.186	0.92
	0.7	$Z_{1}^{米}$	−0.143	0.115	0.74	−0.143	0.114	0.75
	0.7	$Z_{2}^{米}$	0.085	0.109	0.88	0.085	0.107	0.87
	−0.7	Z^c（c）	0.063	0.194	0.99	0.063	0.186	0.92
1500	0.3	$Z_{1}^{米}$	−0.151	0.093	0.61	−0.151	0.093	0.63
	0.3	$Z_{2}^{米}$	0.102	0.090	0.78	0.102	0.088	0.79
	−0.3	Z^c（c）	0.072	0.155	0.99	0.072	0.152	0.91
	0.7	$Z_{1}^{米}$	−0.146	0.096	0.64	−0.147	0.093	0.64
	0.7	$Z_{2}^{米}$	0.081	0.090	0.85	0.080	0.088	0.84
	−0.7	Z^c（c）	0.067	0.159	0.99	0.067	0.152	0.92

在单独的窗口中打开

MM，多个缺失图案；SM，单一缺失模式；IPW，逆概率加权；CC，完整版；标准偏差，标准偏差；东南方，标准误差平均值；CR公司_电子：等尾可信区间置信域；CR公司95%的覆盖率。

5.真实数据应用

我们将提出的近似贝叶斯方法和IPW方法应用于以下两个注册数据集：1）Dreger等人的干细胞移植（HCT）数据[11]分析研究DLBCL患者；2） Pidala等人[26]研究骨髓增生异常综合征（MDS）患者。DLBCL数据和MDS数据分别用于具有单个缺失协变量和两个缺失协变量的分层PH模型。因此，我们应用了第2.2节和2.3DLBCL数据，我们使用了第2.4节用于MDS数据。

5.1. 具有单个缺失协变量的分层PH模型

DLBCL数据[11]共有1394名成人患者。总体生存率是分析的结果。死亡和被审查的患者数量分别为725（52%）和669（48%）。在1394名患者中，有127名患者（9%）患有（单倍型HCT）；509例（37%）MSD患者；488例（28%）MUD患者伴有T细胞耗竭；370名MUD患者（26%）没有T细胞耗竭。在HCT研究中，临床医生通常对评估HCT（完全性、部分性、难治性）、年龄组（18–49、50–59、>60）、移植年份（2008–2010、2011–2012、2013–2015）、造血细胞移植并发症指数（HCT-CI）（0、1–2、≥3）、，由于其临床重要性，Karnofsky绩效得分（<90，≥90）[21]，Papanicolaou等人[25]和Ustun等人[37]). 因此，我们调整了模型中的这五个协变量。484名患者（35%）在HCT-CI中有缺失值。我们通过测试对数系数是否t吨×Z每个变量都等于零[20]. 移植时的缓解状态在显著水平0.05上不满足PH假设(第页-值=0.0047）。因此，我们根据病情缓解情况对PH模型进行分层。

我们对logistic回归进行拟合，通过允许不同的截距来获得倾向得分。六个变量，包括地层变量、移植年份、年龄组、供体类型、死亡指标和死亡时间，在统计学上具有显著性水平0.05。我们使用这六个变量来计算倾向得分。我们拟合了近似贝叶斯方法、IPW方法和CC方法。

表3报告分析结果，包括i）后中位 ${\tilde{β}}^{米}$ 近似贝叶斯方法为95%ETI（ETI）；ii） $\hat{β}$ IPW方法和CC方法的95%置信区间。正如预期的那样，近似贝叶斯方法和IPW方法的结果相似。然而，IPW方法的95%置信区间略宽于近似贝叶斯方法的95%ETI。另一方面，近似贝叶斯方法和IPW方法对供体组、HCT-CI评分和Karnofsky评分的影响与CC方法相似。然而，移植年份的影响是不同的：根据近似贝叶斯方法和IPW方法，2008年至2010年HCT患者在HCT后死亡的可能性高于2013年至2015年HCT的患者。近似贝叶斯/IPW方法和CC方法的结果因供体组和移植年份而异。特别是，尽管移植年份在CC方法的模型中没有达到统计显著性，但2008-2012年的参数估计值为负数。因此，CC方法的结果表明，近年（2013-2015年）接受移植的患者的生存率低于前几年（2008-2012年）。DLBCL研究中常见的是，近年来接受HCT治疗的患者的进展优于早年接受HCT的患者[22,2,33]. 因此，CC方法的移植年份结果是相反的。与此相反，近似贝叶斯方法和IPW方法得出的移植效果年份与当前医学文献一致。移植年份和HCT-CI的影响与当前的HCT文献相矛盾。

表3

单个缺失协变量分层生存数据的干细胞移植数据分析

	近似贝叶斯		IPW方法		CC方法
变量	${\tilde{β}}^{米}$	95%ETI	$\hat{β}$	95%置信区间	$\hat{β}$	95%置信区间
捐赠者团体
HD（参考）	0		0		0
材料安全数据	−0.141	( −0.434 , 0.193 )	−0.143	( −0.450 , 0.164 )	−0.134	( −0.400 , 0.132 )
泥浆WTD	0.052	( −0.262 , 0.401 )	0.053	( −0.282 , 0.387 )	0.038	( −0.236 , 0.313 )
泥浆WOTD	−0.092	( −0.385 , 0.252 )	−0.088	( −0.411 , 0.235 )	−0.132	( −0.407 , 0.144 )
移植年份
2013-2015（参考文献）	0		0		0
2008-2010	0.231	( 0.012 , 0.443 )	0.222	( 0.009 , 0.435 )	−0.036	( −0.222 , 0.150 )
2011-2012	0.158	( −0.070 , 0.378 )	0.152	( −0.076 , 0.381 )	−0.043	( −0.232 , 0.146 )
年龄组
18-49（参考）	0		0		0
50-59	0.104	( −0.127 , 0.336 )	0.105	( −0.130 , 0.339 )	0.130	( −0.055 , 0.316 )
>60	0.202	( −0.027 , 0.436 )	0.202	( −0.028 , 0.433 )	0.205	( 0.014 , 0.396 )
HCT-CI公司
0（参考）	0		0		0
1-2	0.029	( −0.204 , 0.270 )	0.030	( −0.207 , 0.267 )	0.041	( −0.178 , 0.259 )
≥ 3	0.215	( 0.001 , 0.441 )	0.217	( −0.004 , 0.438 )	0.244	( 0.032 , 0.455 )
卡诺夫斯基得分
≥90（参考）	0		0		0
< 90	0.198	( 0.010 , 0.387 )	0.199	( 0.013 , 0.385 )	0.274	( 0.120 , 0.429 )

在单独的窗口中打开

IPW，逆概率加权；CC，完整版；ref，参照组；ETI，等尾可信区间；HD，单倍体捐赠者；MSD，匹配兄弟捐赠者；MUD WTD，匹配T细胞缺失的无关供体；MUD WOTD，无T细胞耗竭的匹配无关供体。

我们通过检查各种倾向评分模型来进行敏感性分析，以调查遗漏非随机假设。我们观察到，近年来接受HCT治疗的患者的病情进展不如早年接受HCT的患者，这与当前的HCT文献不一致。因此，MAR假设对于该数据集似乎是合理的。

5.2. 两个缺失协变量的分层PH模型

MDS数据[26]该分析由787名诊断为MDS的成人或儿童组成，他们在1999年至2011年间接受了第一次清髓性无关骨髓或外周血干细胞移植。这项分析的结果是总体生存率。事件数量和审查数量分别为418（53%）和369（47%）。根据T细胞表位分组（HLAD）和KPS进行HLA-DPB1分类的两个协变量有缺失值。Pidala等人的原始分析[26]进行了排除HLAD缺失患者的分析。HLAD和KPS、仅HLAD和仅KPS缺失值的患者数量分别为17、330和45。总缺失率约为50%（=392/787×100）。787例患者中，有64例（8%）HLAD完全匹配；229例（29%）HLAD患者；67例（9%）GvH非允许性HLAD患者；80例（10%）HvG非允许性HLAD患者；347名患者（44%）HLAD缺失。感兴趣的协变量包括移植物类型（骨髓、外周血）、种族（白种人、其他）、年龄组（<20、20-49、>50）、移植年份（1999-2002、2003-2006、2007-2011）和KPS（<90、≥90）。我们通过测试对数系数来测试每个协变量的PH假设t吨×Z每个变量都等于零[20]. 移植类型和移植年份不符合PH假设，显著水平为0.05。因此，我们拟合了分层PH模型。我们使用近似贝叶斯方法/IPW方法来处理第2.4节并与近似贝叶斯方法/IPW方法进行了比较第2.2节和2.3和CC方法。虽然对于1）只有KPS缺失的两个缺失类别，没有任何协变量显著；2） HLAD和KPS在倾向评分模型中的显著性水平均为0.05，移植年份、死亡指标和死亡时间三个变量在倾向评分模式中仅对HLAD缺失具有显著性。因此，对多个缺失模式应用该方法似乎比对单个缺失模式使用该方法更合适。

表4报告分析结果，包括i）后中位 ${\tilde{β}}^{米}$ 对于具有多个缺失模式和单个缺失模式的近似贝叶斯方法，其95%的ETI（ETI）；ii） $\hat{β}$ IPW方法和CC方法的95%置信区间。KPS和种族具有多个缺失模式和单个缺失模式的近似贝叶斯/IPW方法的结果相似。然而，HLAD和年龄组在多个缺失模式和单个缺失模式的方法之间显示出不同的结果。虽然允许分类组与完全匹配分类组相比，对于多个缺失模式，近似贝叶斯/IPW方法的效果是积极的，但对于单个缺失模式，其效果是消极的。多个缺失模式的近似贝叶斯/IPW方法的结果表明，考虑单个缺失模式时，20-49岁组的95%CI和ETI不包含0。CC方法的结果显示，种族其他组的95%CI和ETI不包含0，而多个缺失模式的近似贝叶斯/IPW方法的结果包含0。

表4

干细胞移植中多种缺失模式的数据分析

	MM近似贝叶斯		MM IPW方法		CC方法
变量	${\tilde{β}}^{米}$	95%环氧乙烷	$\hat{β}$	95%置信区间	$\hat{β}$	95%置信区间
HLAD公司
完全匹配（参考）	0		0		0
许可	0.076	( −0.297 , 0.536 )	0.081	( −0.317 , 0.480 )	−0.049	( −0.445 , 0.347 )
GvH非许可	0.354	( −0.182 , 0.845 )	0.344	( −0.151 , 0.839 )	0.286	( −0.182 , 0.753 )
HvG非许可	0.080	( −0.465 , 0.595 )	0.081	( −0.419 , 0.581 )	0.063	( −0.396 , 0.522 )
卡诺夫斯基得分
90-100%（参考）	0		0		0
< 90%	0.450	( 0.123 , 0.738 )	0.446	( 0.136 , 0.755 )	0.443	( 0.157 , 0.728 )
比赛
高加索人	0		0		0
其他	0.440	( −0.235 , 0.898 )	0.438	( −0.088 , 0.963 )	0.483	( 0.018 , 0.948 )
年龄组
<20（参考）	0		0		0
20-49	0.520	( 0.085 , 1.079 )	0.522	( 0.054 , 0.990 )	0.582	( 0.122 , 1.042 )
> 50	1.039	( 0.627 , 1.606 )	1.034	( 0.546 , 1.522 )	1.058	( 0.586 , 1.530 )

在单独的窗口中打开

	SM近似贝叶斯		SM IPW方法
变量	${\tilde{β}}^{米}$	95%ETI	$\hat{β}$	95%置信区间
HLAD公司
完全匹配（参考）	0		0
许可	−0.014	( −0.506 , 0.582 )	−0.036	( −0.580 , 0.509 )
GvH非许可	0.270	( −0.369 , 0.997 )	0.309	( −0.348 , 0.965 )
HvG非许可	0.061	( −0.791 , 0.723 )	0.062	( −0.608 , 0.732 )
卡诺夫斯基得分
90-100%（参考）	0		0
< 90%	0.454	( 0.107 , 0.782 )	0.446	( 0.023 , 0.870 )
比赛
高加索人	0		0
其他	0.537	( −0.553 , 1.062 )	0.466	( −0.272 , 1.205 )
年龄组
<20（参考）	0		0
20-49	0.558	( −0.072 , 1.174 )	0.560	( −0.024 , 1.145 )
> 50	1.099	( 0.491 , 1.692 )	1.035	( 0.408 , 1.661 )

在单独的窗口中打开

MM，多个缺失图案；SM，单一缺失模式；IPW，逆概率加权；CC，完整版；ETI，等尾可信区间；TX，移植；根据T细胞表位分组进行HLAD、DPB1分类；参考，参考组。

6.结束语

对于不完全协变量信息的分层PH模型，我们提出了新的近似贝叶斯方法和IPW方法。特别是，我们研究了多个缺失模式，这在当前的文献中大多被忽视。利用平坦先验知识，所提出的贝叶斯方法与使用泰勒线性化的频域IPW推理渐近等价。如果先验信息丰富，所提出的贝叶斯方法可以提高其性能。在这种情况下，它可能比频率学家IPW方法更有效。近似贝叶斯方法可以通过在分层PH模型的得分函数中添加一个与Wang和Chen相似的增广项来进一步改进[39]Xu等人[41].

所提出的方法的方案也可以应用于竞争风险数据。探索特定原因危害模型[28]和比例子分布风险模型[12]这将是一个有趣的研究课题。在本文中，我们只研究了缺失的协变量。在HCT研究中，一部分时间到事件或结果指标也缺失是很常见的。处理这些结果中的缺失将是一个重要的研究问题。对于因果推断，IPW方法被广泛用于调整观察性研究中的治疗分配概率。将所提出的贝叶斯方法应用于因果推理将是一个值得研究的未来课题。提出的方法需要正确指定倾向得分模型。可以考虑使用非参数回归进行倾向得分估计或双重稳健估计[30]用于稳健估计。追求这一方向将是未来的一个重要研究课题。

补充材料

1782160_上传信息

单击此处查看。^{（105K，pdf）}

致谢

我们要感谢副主编和两位审稿人提出的建设性意见，这些意见大大改进了论文。这项工作得到了威斯康星医学院癌症中心、促进威斯康星更健康基金会（项目号5520461）和美国国家癌症研究所（U24CA076518）的部分支持。

附录

我们推导Σ及其估计量附录.让 $d日 {M（M）}_{我我} (t吨) = d日 {N个}_{我我} (t吨) - {Y（Y）}_{我我} (t吨) 经验 {β^{T型} Z_{我我}} d日 Λ_{我} (t吨)$ 后部分布为

第页 (η ∣ {U型}_{n个}) \sim N个 [(\begin{array}{l} 0 \\ 0 \end{array}), \frac{Σ}{n个} = (\begin{matrix} V（V） 一 第页 ({U型}_{1}) & C类 哦 v（v） ({U型}_{1}, {U型}_{2}) \\ C类 哦 v（v） ({U型}_{1}, {U型}_{2}) & V（V） 一 第页 ({U型}_{2}) \end{matrix})],

(16)

哪里

V（V） 一 第页 {{U型}_{1} (β, ϕ)} = V（V） 一 第页 [{n个}^{- 1} \sum_{我 = 1}^{L（左）} \sum_{我 = 1}^{{n个}_{我}} \frac{ξ_{我 我}}{π_{我 我}} \int_{0}^{τ} {Z_{我 我} - \frac{秒_{我}^{(1)} (β, t吨)}{秒_{我}^{(0)} (β, t吨)}} d日 {M（M）}_{我 我} (t吨)] = V（V） 一 第页 [{n个}^{- 1} \sum_{我 = 1}^{L（左）} \sum_{我 = 1}^{{n个}_{我}} \frac{ξ_{我 我}}{π_{我 我}} \int_{0}^{τ} {Z_{我 我} - {e（电子）}_{我} (β, t吨)} d日 {M（M）}_{我 我} (t吨)] = 电子 {[{n个}^{- 2} \sum_{我 = 1}^{L（左）} \sum_{我 = 1}^{{n个}_{我}} \frac{ξ_{我 我}}{π_{我 我}} \int_{0}^{τ} {Z_{我 我} - {e（电子）}_{我} (β, t吨)} d日 {M（M）}_{我 我} (t吨)]}^{\otimes 2} .

我们可以估计 $V（V）一第页 {{U型}_{1} (β, ϕ)}$ 鉴于 $β$ 和 $ϕ$ 如下：

\hat{V（V） 一 第页} {{U型}_{1} (β, ϕ)} = \frac{1}{{n个}^{2}} \sum_{我 = 1}^{L（左）} \sum_{我 = 1}^{{n个}_{我}} \frac{ξ_{我 我}}{π_{我 我}^{2}} \int_{0}^{τ} {[{Z_{我 我} - \frac{秒_{我}^{(1)} (β, t吨)}{秒_{我}^{(0)} (β, t吨)}} {d日 {N个}_{我 我} (t吨) - d日 {\hat{Λ}}_{0 我} (t吨)}]}^{\otimes 2},

哪里 $d日 {\hat{Λ}}_{0 我} (t吨) = \sum_{我 = 1}^{{n个}_{我}} d日 {N个}_{我我} (t吨) / {n个}_{我} 秒_{我}^{(0)} (β, t吨)$ .

我们可以获得 $\hat{V（V）一第页} ({U型}_{2})$ 鉴于 $β$ 和 $ϕ$ 如下：

\hat{V（V） 一 第页} ({U型}_{2}) = \frac{1}{{n个}^{2}} \sum_{我 = 1}^{L（左）} \sum_{我 = 1}^{{n个}_{我}} π_{我 我} (1 - π_{我 我}) ω_{我 我} ω_{我 我}^{T型} .

接下来， $C类哦 v（v） ({U型}_{1}, {U型}_{2})$ 鉴于 $β$ 和 $ϕ$ 可以通过以下方式进行估算

\hat{C类 哦 v（v）} ({U型}_{1}, {U型}_{2}) = \hat{C类 哦 v（v）} [\frac{1}{n个} \sum_{我 = 1}^{L（左）} \sum_{我 = 1}^{{n个}_{我}} \frac{ξ_{我 我}}{π_{我 我}} \int_{0}^{τ} {Z_{我 我} - \frac{秒_{我}^{(1)} (β, t吨)}{秒_{我}^{(0)} (β, t吨)}} d日 {M（M）}_{我 我} (t吨), \frac{1}{n个} \sum_{我 = 1}^{L（左）} \sum_{我 = 1}^{{n个}_{我}} {ξ_{我 我} - π_{我 我}} ω_{我 我}^{T型}] = \frac{1}{{n个}^{2}} \sum_{我 = 1}^{L（左）} \sum_{我 = 1}^{{n个}_{我}} \frac{ξ_{我 我} (1 - π_{我 我})}{π_{我 我}} \int_{0}^{τ} {Z_{我 我} - \frac{秒_{我}^{(1)} (β, t吨)}{秒_{我}^{(0)} (β, t吨)}} d日 {M（M）}_{我 我} (t吨) \times ω_{我 我}^{T型} .

估计员 $\hat{Σ}$ 是

\frac{\hat{Σ}}{n个} = (\begin{matrix} \hat{V（V） 一 第页} ({U型}_{1}) & \hat{C类 哦 v（v）} ({U型}_{1}, {U型}_{2}) \\ \hat{C类 哦 v（v）} ({U型}_{1}, {U型}_{2}) & \hat{V（V） 一 第页} ({U型}_{2}) \end{matrix}) .

(17)

脚注

出版商免责声明：本AM是同行评审后接受出版的手稿的PDF文件，但不反映验收后的改进或任何更正。本AM的使用受出版商禁运期和AM使用条款的约束。

补充材料

我们在补充材料.

利益冲突

提交人声明他们没有利益冲突。

参与者信息

Soyoung Kim，威斯康星州密尔沃基威斯康星医学院生物统计学系，邮编：53226-0509。

金在光，爱荷华州州立大学统计系，2438 Osborn Dr Ames，IA 50011-1090。

Kwang Woo Ahn，威斯康星州密尔沃基威斯康星医学院生物统计学系，邮编：53226-0509。

工具书类

1安达信PK，吉尔RD：计数过程的考克斯回归模型：一项大样本研究.统计年鉴第1100-1120页（1982年）[谷歌学者]

2巴赫尔·U、克柳什尼科夫·E、勒·拉德马赫·J、卡雷拉斯·J、阿尔芒·P、主教M、布雷德森·C、开罗·M、芬斯克·T、弗雷茨·CO、盖尔·R、吉布森·J、伊索拉·L、内向·D、拉波特·G、拉扎勒斯·H、马齐亚兹·R、威尼克·P、肖滕·H、斯拉文·S、史密斯·S、沃斯·J、沃勒·E、哈里·P：弥漫性大B细胞淋巴瘤同种异体移植的预处理方案：清髓还是降低强度？血液 120(20), 4256–62 (2012)[PMC免费文章][公共医学][谷歌学者]

三。Bartlett JW、Seaman SR、White IR、Carpenter JR、Initiative*ADN:通过完全条件规范对协变量进行多重插补：适应实体模型.医学研究中的统计方法 24(4), 462–487 (2015)[PMC免费文章][公共医学][谷歌学者]

4Bradshaw PT、Ibrahim JG、Gammon MD：具有不可忽略缺失时变协变量的贝叶斯比例风险回归模型.医学统计学 29(29), 3017–3029 (2010)[PMC免费文章][公共医学][谷歌学者]

5陈H，小R：缺失协变量的比例风险回归.美国统计协会杂志 94, 896–908 (1999)[谷歌学者]

6Chen MH、Ibrahim JG、Lipsitz SR：治愈率模型中缺失协变量的贝叶斯方法.寿命数据分析 8(2), 117–146 (2002) [公共医学][谷歌学者]

7Chen MH、Shao QM：贝叶斯可信区间和HPD区间的蒙特卡罗估计.计算与图形统计杂志 8(1), 69–92 (1999)[谷歌学者]

8Chen Q、Wu H、Ware LB、Koyama T：Cox比例风险模型的贝叶斯方法.国际医学研究统计杂志三(1), 32 (2014)[PMC免费文章][公共医学][谷歌学者]

9考克斯DR：回归模型和生命表.英国皇家统计学会杂志：B辑（方法学） 34(2), 187–202 (1972)[谷歌学者]

10考克斯DR：部分可能性.生物特征 62, 269 (1975)[谷歌学者]

11Dreger P、Sureda A、Ahn KW、Eapen M、Litovich C、Finel H、Boumendil A、Gopal A、Herrera AF、Schmid C等：基于PTCy的DLBCL半相合与匹配相关或无关供体减密度条件反射移植.血液进展三(三), 360–369 (2019)[PMC免费文章][公共医学][谷歌学者]

12精细JP，灰色RJ：竞争风险细分的比例风险模型.美国统计协会杂志 94(446), 496–509 (1999)[谷歌学者]

13Hemming K、Hutton JL：生存数据分析中缺失协变量的贝叶斯敏感性模型.临床实践评估杂志 18(2), 238–246 (2012) [公共医学][谷歌学者]

14Herring AH、Ibrahim JG：Cox比例风险模型中缺失协变量的似然方法.美国统计协会杂志 96(453), 292–302 (2001)[谷歌学者]

15Herring AH、Ibrahim JG、Lipsitz SR：生存分析中不可忽视的缺失协变量数据：一项国际乳腺癌研究小组试验的病例研究.英国皇家统计学会杂志：C辑（应用统计学） 53(2), 293–310 (2004)[谷歌学者]

16Horvitz DG、Thompson DJ：有限宇宙无替换抽样的推广.美国统计协会杂志 47(260), 663–685 (1952)[谷歌学者]

17易卜拉欣J、陈M、金S：缺失协变量Cox回归模型的贝叶斯变量选择.寿命数据分析 14, 496–520 (2008)[PMC免费文章][公共医学][谷歌学者]

18Kim S、Cai J、Couper D：提高多疾病分层病例队列设计加性风险模型的估计效率.医学统计学 35(2), 282–293 (2016)[PMC免费文章][公共医学][谷歌学者]

19Kim S、Zeng D、Cai J：广义病例组设计中的多重生存事件分析.生物计量学 74(4), 1250–1260 (2018)[PMC免费文章][公共医学][谷歌学者]

20Klein JP，莫西伯格ML：生存分析：截尾和截尾数据的技术纽约州纽约市斯普林格。(2003)[谷歌学者]

21Kumar AJ、Kim S、Hemmer MT、Arora M、Spellman SR、Pidala JA、Couriel DR、Alousi AM、Aljurf MD、Cahn JY等：男性非亲缘供者与未经手术的女性同胞供者移植受者的移植物抗宿主病比较.血液进步 2(9), 1022–1031 (2018)[PMC免费文章][公共医学][谷歌学者]

22.Lazarus HM、Zhang M、Carreras J、Hayes-Latin BM、Ataergin AS、Bitran J、Bolwell BJ、Freytes CO、Gale RP、Goldstein SC、Hale GA、Inwards DJ、Klumpp TR、Marks DI、Maziarz RT、McCarthy P、Pavlovsky S、Rizzo J、Shea T、Schouten H、Slavin S、Winter JN、Besien K.v.、Vose JM、Hari PN：HLA-同种异基因与自体移植治疗弥漫性大B细胞淋巴瘤的比较：CIBMTR报告.血液和骨髓移植生物学 16(1), 35–45 (2010)[PMC免费文章][公共医学][谷歌学者]

23.林德英Z：不完全协变量测量下的Cox回归.美国统计协会杂志 88(424), 1341–1349 (1993)[谷歌学者]

24Paik MC：具有缺失协变量的Cox比例风险模型的多重插补.寿命数据分析三(三), 289–298 (1997) [公共医学][谷歌学者]

25.佐治亚州帕帕尼科劳、乌斯顿C、杨JAH、陈M、金S、吴安科、科曼杜里K、林德曼斯C、奥莱塔JJ、里奇斯ML等：万古霉素耐药肠球菌引起的血流感染与急性白血病和骨髓增生异常综合征造血细胞移植后死亡率增加有关：一项多中心回顾性队列研究.临床传染病 69(10), 1771–1779 (2019)[PMC免费文章][公共医学][谷歌学者]

26Pidala J、Lee SJ、Ahn KW、Spellman S、Wang HL、Aljurf M、Askar M、Dehn J、Fernandez Viña M、Gratwohl a等：非允许性hla-dpb1错配增加非清髓无关异基因造血细胞移植后的死亡率.《血液》，美国血液学会杂志 124(16), 2596–2606 (2014)[PMC免费文章][公共医学][谷歌学者]

27Pidala J、Lee SJ、Ahn KW、Spellman S、Wang HL、Aljurf M、Askar M、Dehn J、Viña MF、Gratwohl a等：HLA匹配的供体-受体对之间的非允许性DPB1错配导致血液恶性肿瘤非清髓无关异基因造血细胞移植后总死亡率增加.血液 124, 2596–2606 (2014)[PMC免费文章][公共医学][谷歌学者]

28Prentice RL、Kalbfleisch JD Jr.、A.V.P.、Flournoy N、告别VT、Breslow NE：存在竞争风险时的故障时间分析.生物计量学 34, 541–554 (1978) [公共医学][谷歌学者]

29Pugh MG、Robins J、Lipsitz S、Harrington D：Cox比例风险模型中缺失协变量数据的推断.哈佛大学公共卫生学院博士论文，马萨诸塞州波士顿：（1993）[谷歌学者]

30.Robins JM、Rotnitzky A、Zhao LP：不总是观察到某些回归时的回归系数估计.美国统计协会杂志 89(427), 846–866 (1994)[谷歌学者]

31鲁宾数据库：推断和缺失数据.生物特征 63(三), 581–592 (1976)[谷歌学者]

32Sang H，Kwang Kim J：单位无响应下倾向得分估计的近似贝叶斯推断.加拿大统计杂志(2017)[谷歌学者]

33Shah NN、Ahn KW、Litovich C、Sureda A、Kharfan-Dabaja MA、Awan FT、Ganguly S、Gergis U、Inwards D、Karmali R等：65岁以上老年非霍奇金淋巴瘤患者异基因移植的时间趋势分析.血癌杂志 9(12), 1–10 (2019)[PMC免费文章][公共医学][谷歌学者]

34Sharef E、Strawderman R、Ruppert D、Cowen M、Halasyamani L：比例风险脆弱性模型中的贝叶斯自适应B样条估计.电子统计杂志 4, 606–642 (2010)[谷歌学者]

35.Soubeyrand S、Haon-Lastportes E：基于最大伪似然估计的后验条件的弱收敛性及其在ABC中的应用.统计与概率信件 107, 84–92 (2015)[谷歌学者]

36Sun B、Tchetgen Tchetgen-EJ：随机数据非单调缺失的逆概率加权.美国统计协会杂志 113, 369–379 (2018)[PMC免费文章][公共医学][谷歌学者]

37Ustun C、Kim S、Chen M、Beitinjaneh AM、Brown VI、Dahi PB、Daly A、Diaz MA、Freytes CO、Ganguly S等人。cr1中aml患者行清髓异基因hct后总体感染和细菌感染增加.血液进步三(17), 2525–2536 (2019)[PMC免费文章][公共医学][谷歌学者]

38Verneris MR、Lee SJ、Ahn KW、Wang HL、Battiwalla M、Inamoto Y、Fernandez-Vina MA、Gajewski J、Pidala J、Munker R等：国际血液和骨髓移植研究中心的一项分析显示，HLA错配与非亲缘供者减密度预处理造血细胞移植后的不良结局相关.血液和骨髓移植生物学 21(10), 1783–1789 (2015)[PMC免费文章][公共医学][谷歌学者]

39Wang C，Chen HY：Cox缺失协变量回归的增广逆概率加权估计.生物计量学 57(2), 414–419 (2001) [公共医学][谷歌学者]

40白色IR，罗伊斯顿P：为Cox模型计算缺失的协变量值.医学统计学 28(15), 1982–1998 (2009)[PMC免费文章][公共医学][谷歌学者]

41Xu Q、Paik MC、Luo X、Tsai WY：缺失协变量Cox回归的重加权估计.美国统计协会杂志 104(487), 1155–1167 (2009)[谷歌学者]

42Yoo H、Lee JW：基于贝叶斯自适应B样条估计的聚类生存数据缺失方法比较.统计应用和方法通信 25(2), 159–172 (2018)[谷歌学者]

43Yuan KH、Jennrich RI：自然条件下估计方程的渐近性.多元分析杂志 65(2), 245–260 (1998)[谷歌学者]

44Zhou H，Pepe理学硕士：故障时间回归中的辅助协变量数据.生物特征 82(1), 139–149 (1995)[谷歌学者]