Ultrahigh-dimensional sufficient dimension reduction for censored data with measurement error in covariates

Li-Pang Chen

doi:10.1080/02664763.2020.1856352

J应用统计。2022; 49(5): 1154–1178.

2020年12月8日在线发布。数字对象标识：10.1080/02664763.2020.1856352

预防性维修识别码：第9126296页

PMID：35707506

协变量中具有测量误差的删失数据的超高维充分降维

陈立邦

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 补充数据.pdf
CJAS_A_1856352_SM8473.pdf（203K）
GUID:017C7E8F-8BA9-4A93-98F8-8117BA1D0293

摘要

本文考虑协变量中删失数据和测量误差的超高维充分降维。我们首先提出了基于删失数据和受测量误差影响的协变量的特征筛选方法。通过适当的误测量纠正，所提出的特征筛选程序检测到的错误污染变量与真正重要的变量相同。基于选定的活动变量，我们发展了SDR方法，以估计中心子空间和结构维数，同时考虑了删失数据和测量误差。建立了该方法的理论结果。通过仿真研究评估了该方法的性能。将该方法应用于NKI乳腺癌数据。

关键词：累积平均值估计、降维、距离相关、特征筛选、测量误差、生存数据、超高维

2010年数学学科分类：62N01、62N02

1 介绍

本文主要研究基于该模型的充分降维

T型 X（X） | {B类}^{⊤} X（X） ，

(1)

其中' 保存图片、插图等的外部文件。对象名称为CJAS_A_1856352_ILM0001.jpg “代表统计独立性，X（X）是对-协变量的维向量，T型>0是响应，并且B类是一个基础。让 $S公司 (B类)$ 表示由列向量跨越的SDR子空间B类.厨师[6]表明所有这些的交叉点 $S公司 (B类)$ 存在。因此，这样的交叉口称为中心子空间（CS）用于回归T型在X（X）.让 ${S公司}_{T型 | X（X）}$ 用结构尺寸表示CS $d日 = 昏暗的 ({S公司}_{T型 | X（X）})$ 这通常是未知的。在这个意义上，我们表示一个基 $B类 = (β_{1} ， \dots ， β_{d日})$ 作为 $对 \times d日$ 参数矩阵 $β_{j个}$ 成为对-的维度向量 $j个 = 1 ， \dots ， d日$ .如果B类然后可以基于低维变量进行后续分析 ${T型， {B类}^{⊤} X（X）}$ 而不会丢失信息。已经提出了几种估算方法B类和中心子空间，包括逆回归[12，14，38]，最小平均方差估计[31，32，35，39]，和半参数框架[20，21]. 一些细节也可以在Cook中找到[7]和李[11].

然而，数据集中可能会出现一些复杂的特征，传统的SDR方法无法直接应用。第一个功能是不完全响应，这经常出现在具有右偏感的生存数据中。在存在右偏感时，直接实施常规方法可能无法估计B类并恢复中心子空间。为了估计生存数据的CS，Li等。[15]首先检查分段逆回归（SIR）来估计CS。夏等。[33]开发了生存数据的半参数估计方法。卢（Lue）等。[19]针对截尾生存数据，提出了一种基于主Hessian方向（PHD）的迭代插补样条方法。纳德卡尼等。[23]提出了逆回归方法。卢和李[17]考虑了反加权方法。

第二个重要特征是协变量中的测量误差如卡罗尔所述等。[三]，在分析中忽略误差影响可能会导致估计器的巨大偏差。有一些方法可以处理误差影响。例如，卡罗尔和李[2]提出了对测量误差进行校正的SIR方法。卢（Lue）[18]开发了具有测量误差的PHD方法。李和尹[13]为纠正计量错误提供了一种通用形式。张等。[37]扩展了朱提出的累积切片估计等。[38]对测量误差进行适当修正。然而，同时纳入生存数据和测量误差的估计程序尚不明确，也未充分探讨。

虽然已经提出了许多处理截尾响应的SDR方法，但这些方法都是基于协变量的维数小于样本大小的情况n个，即。对<n个然而，在实践中，高维数据变得比以往任何时候都更容易访问超高维( $对 ≫ n个$ )这个问题是一个重要但富有挑战性的话题，值得认真研究。当维数为对高于样本量n个部分原因是协变量的协方差矩阵X（X），说吧 $Σ_{X（X）}$ ，通常是单数，因为 $对 ≫ n个$ 此外，正如卢和李所评论的那样[17]，基于核的半参数估计（例如[23，33])当协变量的数量很大时，可能会遭受维数灾难。处理此问题的一个有用方法是特征筛选方法。特征筛选的基本思想是选择依赖于响应的活动变量，从而降低检测变量的维数，使其小于样本大小。在生存分析中，提出了一些有效的方法。举几个例子，宋等。[26]提出了审查等级独立性筛选。雁鸣声等。[34]提出了斯皮尔曼秩相关筛选。陈等。[4]开发了基于距离相关的鲁棒特征筛选。陈等。[5]考虑了无模型生存条件特征筛选。然而，在存在测量误差的情况下，尚不清楚这些现有方法是否能够确定协变量替代版本的“正确”特征。

因此，在本文中，我们旨在开发SDR方法，并探讨超高维生存数据中出现测量误差的一个重要问题。具体来说，我们扩展了累积平均估计（CUME）来处理截尾响应和协变量测量误差，因为（a）CUME方法比SIR或PHD方法需要更少的条件（例如[37（第1343页），数值结果表明CUME方法优于SIR方法（例如[38]); （b）而一些SDR方法已被应用于处理审查数据，如SIR[15]和博士[19]方法，在生存数据中似乎还没有探索CUME方法。此外，由于协方差矩阵的可逆性，CUME方法是在低维的基础上发展起来的。当协变量的维数大于样本量时，协方差矩阵不再可逆，这也是CUME方法的一个挑战。为了解决这个问题，我们开发了有效的特征筛选程序来处理这个问题。

其余部分组织如下。在节中2介绍了生存数据和测量误差模型，并简要回顾了距离相关方法。在节中三首先，我们提出了调整后的特征筛选来选择被测量误差污染的活动变量，然后提出了一种有效的估计方法来纠正测量错误，并估计中心子空间和结构维数。第节提供了实证研究，包括模拟结果和实际数据分析4。我们在第节中讨论了这篇文章5.

2 符号和型号

2.1. 生存数据

让T型定义于(1)表示故障时间。在生存分析中，T型由于主题的审查时间的存在，通常是不完整的，表示为C类.条件启用X（X），独立性T型和C类假设，即，

T型 ⫫ C类 | X（X） .

(2)

让 $Y（Y） = 最小值 {T型， C类}$ 和 $δ = 我 (T型 \leq C类)$ ，其中 $我 (\cdot)$ 是指示器功能。假设我们有一个n个主题和主题 $我 = 1 ， \dots ， n个$ ， ${{Y（Y）}_{我} ， δ_{我} ， {X（X）}_{我}}$ 具有与相同的分布 ${Y（Y）， δ ， X（X）}$ 。在这里，我们重点关注 $对 ≫ n个$ .

我们有兴趣找到CS， ${S公司}_{T型 | X（X）}$ ，研究故障时间之间的关系T型和协变量X（X）然而，在生存分析中，我们只观察到Y（Y）由于审查时间的存在。直接对观测变量实施SDR方法Y（Y）和X（X）等同于学习 ${S公司}_{Y（Y） | X（X）}$ ，通常不等于 ${S公司}_{T型 | X（X）}$ （例如[17，33])。此外，基于(2)、Huang和Chan[10]进一步指出 ${S公司}_{Y（Y） | X（X）} \subseteq {S公司}_{T型 | X（X）} + {S公司}_{C类 | X（X）}$ ，其中 ${S公司}_{1} + {S公司}_{2}$ ，表示为两个线性子空间的和 ${S公司}_{1}$ 和 ${S公司}_{2}$ ，定义为 ${秒_{1} + 秒_{2} : 秒_{1} \in {S公司}_{1} ，秒_{2} \in {S公司}_{2}}$ 因此，使用现有的SDR方法对观测变量Y（Y）没有调整就无法恢复 ${S公司}_{T型 | X（X）}$ 这就是我们最感兴趣的中心子空间。

2.2。测量误差模型

对于 $我 = 1 ， \dots ， n个$ ，让 ${X（X）}_{我}^{*}$ 表示的替代变量或观察到的协变量 ${X（X）}_{我}$ .让 $Σ_{{X（X）}^{*}}$ 和 $Σ_{X（X）}$ 成为 $对 \times 对$ 协方差矩阵 ${X（X）}_{我}^{*}$ 和 ${X（X）}_{我}$ 分别是。在本文中，我们重点关注以下测量误差模型[三，第1章]

{X（X）}_{我}^{*} = {X（X）}_{我} + ϵ_{我} ，

(3)

哪里 $ϵ_{我}$ 独立于 ${{X（X）}_{我} ， {T型}_{我} ， {C类}_{我}}$ ， $ϵ_{我}$ 遵循均值为零且协方差矩阵为正态分布 $Σ_{ϵ}$ ，说吧 $N个 (0 ， Σ_{ϵ})$ 此外，我们假设 ${X（X）}_{我}$ 遵循正态分布。在本文中，我们允许 $Σ_{ϵ}$ 为未知矩阵，可以通过以下两个附加信息进行估计：

案例A：可重复测量时。
由于我们重复测量，因此测量误差模型(三)成为
${X（X）}_{我第页}^{*} = {X（X）}_{我} + ϵ_{我第页}$
对于 $我 = 1 ， \dots ， n个$ 和第页 = 1、2，其中 ${X（X）}_{我第页}^{*}$ 代表第页第次重复测量 ${X（X）}_{我}$ ， $ϵ_{我第页} \sim N个 (0 ， Σ_{ϵ})$ 并且独立于 ${X（X）}_{我}$ 很容易看出 $Σ_{ϵ}$ 可以通过以下方式进行估算
${\hat{Σ}}_{ϵ} = \frac{\sum_{我 = 1}^{n个} \sum_{j个 = 1}^{2} ({X（X）}_{我第页}^{*} - {\bar{X（X）}}_{我}^{*}) {({X（X）}_{我第页}^{*} - {\bar{X（X）}}_{我}^{*})}^{⊤}}{\sum_{我 = 1}^{n个} ({n个}_{我} - 1)} ，$
哪里 ${\bar{X（X）}}_{我}^{*} = \frac{1}{2} \sum_{第页 = 1}^{2} {X（X）}_{我第页}^{*}$ .
案例B：验证数据可用时。
假设 $M（M）$ 主要研究的主题集包含n个主题和 $V（V）$ 外部验证研究的主题集是否包含米受试者。假设 $M（M）$ 和 $V（V）$ 不要重叠。因此，可用数据包含测量值 ${({T型}_{我} ， {C类}_{我} ， δ_{我} ， {X（X）}_{我}^{*}) : 我 \in M（M）}$ 从主要研究和 ${({X（X）}_{我} ， {X（X）}_{我}^{*}) : 我 \in V（V）}$ 来自验证样本。因此，对于测量误差模型，我们有
${X（X）}_{我}^{*} = {X（X）}_{我} + ϵ_{我}$
对于 $我 \in M（M） \cup V（V）$ ，其中 $ϵ_{我} \sim N个 (0 ， Σ_{ϵ})$ 和独立于 ${X（X）}_{我}$ .
自
$\begin{aligned} v（v）一第页 ({X（X）}_{我}^{*}) & = E类 \{v（v）一第页 ({X（X）}_{我}^{*} | {X（X）}_{我})\} + v（v）一第页 \{E类 ({X（X）}_{我}^{*} | {X（X）}_{我})\} \\ = E类 (Σ_{ϵ}) + v（v）一第页 ({X（X）}_{我}) \\ = Σ_{ϵ} + Σ_{X（X）} ， \end{aligned}$
然后 $Σ_{ϵ}$ 可以通过以下方式进行估算
${\hat{Σ}}_{ϵ} = {\hat{Σ}}_{{X（X）}^{*}} - {\hat{Σ}}_{X（X）} ，$
哪里 ${\hat{Σ}}_{{X（X）}^{*}} = \frac{1}{| V（V） |} \sum_{我 \in V（V）} ({X（X）}_{我}^{*} - {\bar{X（X）}}_{我}^{*}) ({X（X）}_{我}^{*} - {\bar{X（X）}}_{我}^{*})^{⊤}$ 和 ${\hat{Σ}}_{X（X）} = \frac{1}{| V（V） |} \sum_{我 \in V（V）} ({X（X）}_{我} - {\bar{X（X）}}_{我}) ({X（X）}_{我} - {\bar{X（X）}}_{我})^{⊤}$ 、和 ${\bar{X（X）}}_{我}^{*} = \frac{1}{| V（V） |} \sum_{我 \in V（V）} {X（X）}_{我}^{*}$ .

正如卡罗尔和李建议的那样[2]、李、尹[13]和张等。[37]，我们认为

{U型}_{我} = L（左） {X（X）}_{我}^{*}

(4)

作为“校正的”协变量 ${X（X）}_{我}^{*}$ ，其中 $L（左） = c（c） o（o） v（v） ({X（X）}_{我} ， {X（X）}_{我}^{*}) Σ_{{X（X）}^{*}}^{- 1} = Σ_{X（X）} Σ_{{X（X）}^{*}}^{- 1}$ 此外，假设 ${X（X）}_{我}$ 和 $ϵ_{我}$ 遵循正态分布，Li和Yin[13]显示了不变性定律在这个意义上

T型 X（X） | {B类}^{⊤} X（X） ⟺ T型 U型 | {B类}^{⊤} U型 .

(5)

一般来说(5)也表示更换 ${X（X）}_{我}$ 通过 ${U型}_{我}$ 仍然保留CS ${S公司}_{T型 | X（X）}$ 因此，我们 ${S公司}_{T型 | X（X）} = {S公司}_{T型 | U型}$ .

注意到L（左）如果协方差矩阵未知 $Σ_{X（X）}$ 和 $Σ_{{X（X）}^{*}}$ 在里面L（左）未知。估计L（左），我们需要其他信息，例如验证数据或重复测量如卡罗尔和李所述[2]. 此外，另一个挑战是 $Σ_{{X（X）}^{*}}$ 和 $Σ_{X（X）}$ 可以是单数，如果 $对 ≫ n个$ ，这意味着L（左）英寸(4)不再有效。

2.3. 距离相关法综述

在本节中，我们简要回顾了Székely首次提出的距离相关（DC）方法等。[28].

让 $ϕ_{μ} (\cdot)$ 和 $ϕ_{ν} (\cdot)$ 表示两个随机向量的特征函数μ和ν，并让 $ϕ_{μ ， ν} (\cdot)$ 是的联合特征函数μ和ν.让 $∥ ϕ (\cdot) ∥^{2} = ϕ (\cdot) \bar{ϕ} (\cdot)$ 对于任何复杂函数 $ϕ (\cdot)$ ，其中 $\bar{ϕ} (\cdot)$ 是的共轭 $ϕ (\cdot)$ . The距离协方差之间μ和ν定义为

d日 c（c） o（o） v（v） (μ ， ν) = \int_{{R（右）}^{{d日}_{μ} + {d日}_{ν}}} {∥ϕ_{μ ， ν} (第页 ， 秒) - ϕ_{μ} (第页) ϕ_{ν} (秒)∥}^{2} w个 (第页 ， 秒) d日 第页 d日 秒 ，

哪里 ${d日}_{μ}$ 和 ${d日}_{ν}$ 尺寸为μ和ν分别为和

w个 (第页 ， 秒) = {\{{c（c）}_{{d日}_{μ}} {c（c）}_{{d日}_{ν}} {∥第页∥}_{{d日}_{μ}}^{1 + {d日}_{μ}} {∥秒∥}_{{d日}_{ν}}^{1 + {d日}_{ν}}\}}^{- 1}

具有 ${c（c）}_{d日} = π^{(1 + d日) / 2} / Γ {(1 + d日) / 2}$ 和伽马函数 $Γ (\cdot)$ 、和 $∥ 一 ∥_{d日}$ 是任何向量的欧几里德范数 $一 \in {R（右）}^{d日}$ 因此，DC定义为

d日 c（c） o（o） 第页 第页 (μ ， ν) = \frac{d日 c（c） o（o） v（v） (μ ， ν)}{\sqrt{d日 c（c） o（o） v（v） (μ ， μ) d日 c（c） o（o） v（v） (ν ， ν)}} .

(6)

塞凯利等。[28]显示了两个随机向量μ和ν是独立的当且仅当 $d日 c（c） o（o）第页第页 (μ ， ν) = 0$ 这一特性促使我们进行特征筛选，并确定依赖于响应的协变量（例如[16]).

三。建议的方法

在本节中，我们首先提出了一种有效的特征筛选程序，以基于生存数据和受测量误差影响的协变量来选择主动变量。接下来，我们提出了基于活动变量的中心子空间估计方法。此外，我们还提供了确定结构尺寸的方法d日最后，我们给出了该方法的理论结果。

3.1. 超高维设置和特征筛选

提出建议的具有测量误差的特征筛选程序的思路X（X），我们从一个简单的设置开始，假装X（X）精确测量，不存在审查Y（Y） = T型.让τ表示支持故障时间的最大值，并让

我 = \{k个 : {X（X）}_{k个} 取决于生存时间 T型 \in [0 ， τ]\}

表示活动集包含响应的所有相关协变量T型具有 $q个 = | 我 |$ 和q个<n个.定义 $我^{c（c）}$ 作为的补充 $我$ 包含所有与响应无关的协变量T型.

假设活动集 $我$ 下定决心，然后我们让 ${X（X）}_{我} = {{X（X）}_{k个} : k个 \in 我}$ 表示q个-包含所有活动协变量的维向量，并让 ${X（X）}_{我^{c（c）}} = {{X（X）}_{k个} : k个 \in 我^{c（c）}}$ 是包含所有无关协变量的向量。自 ${X（X）}_{我}$ 取决于响应，所以我们有关系[16，36]

T型 X（X） | {X（X）}_{我} o（o） 第页 T型 {X（X）}_{我^{c（c）}} | {X（X）}_{我} .

(7)

让 $B类 = (β_{k个 j个})$ 表示 $对 \times d日$ 的矩阵 $j个 = 1 ， \dots ， d日$ 和 $k个 = 1 ， \dots ，对$ 具有 $对 ≫ n个$ 在SDR框架中，我们重点关注 $T型 X（X） | {B类}^{⊤} X（X）$ ，然后组合(7)给出了那个

\sum_{j个 = 1}^{d日} |β_{k个 j个}| > 0 我 （f） k个 \in 我 o（o） 第页 \sum_{j个 = 1}^{d日} |β_{k个 j个}| = 0 我 （f） k个 \in 我^{c（c）} .

(8)

等效，如果 $k个 \in 我$ ，然后T型必须依赖于 ${X（X）}_{k个}$ 通过至少一个d日线性组合；如果 $k个 \in 我^{c（c）}$ ，则不存在任何包含k个[36]. 此外，基于 $我$ ，考虑SDR问题就足够了

T型 {X（X）}_{我} | {B类}_{我}^{⊤} {X（X）}_{我} ，

哪里 ${B类}_{我}$ 是 $q个 \times d日$ 基于活动集的矩阵 $我$ 此外，让 ${S公司}_{T型 | {X（X）}_{我}}$ 表示CS，它是跨越的SDR子空间的交集 ${B类}_{我}$ 因此， ${S公司}_{T型 | {X（X）}_{我}} \subseteq {S公司}_{T型 | X（X）}$ 因此，我们使用基于活动集的协变量 $我$ 估计 ${B类}_{我}$ 以及CS。

3.1.1. 距离相关性调整

关键目标是确定活动集 $我$ 注意，当响应完成且协变量没有测量误差时，我们只需应用(6)用于功能筛选。然而，我们无法直接使用(6)因为响应不完整Y（Y）和容易出错的协变量X（X）因此，有必要对DC方法进行一些修改。

我们首先处理不完整的响应。自Y（Y）我们插补说，由于存在右偏的感觉，是不完整的Y（Y）通过

{Y（Y）}^{*} = δ Y（Y） + (1 - δ) E类 (T型 | δ = 0) ，

(9)

表明 $E类 ({Y（Y）}^{*}) = E类 (T型)$ [22第151页]。实施前(9)，我们需要估计 $E类 (T型 | δ = 0)$ 根据补充材料附录A中的条件（C1）和“Buckley-James型估计器”的精神[1，27], $E类 (T型 | δ = 0)$ 可以重写为

\begin{aligned} E类 (T型 | δ = 0) & = E类 (T型 | τ > T型 > Y（Y）) \\ = \int_{Y（Y）}^{τ} t吨 \frac{{（f）}_{T型} (t吨)}{P（P） (τ > T型 > Y（Y）)} d日 t吨 \\ = \int_{Y（Y）}^{τ} \frac{t吨 {（f）}_{T型} (t吨)}{1 - {如果}_{T型} (Y（Y）)} d日 t吨 \\ = \frac{1}{1 - {如果}_{T型} (Y（Y）)} [\{τ - Y（Y） {如果}_{T型} (Y（Y）)\} - \int_{Y（Y）}^{τ} {如果}_{T型} (t吨) d日 t吨] ， \end{aligned}

(10)

哪里 ${（f）}_{T型} (\cdot)$ 和 ${如果}_{T型} (\cdot)$ 是的概率密度函数和累积分布函数T型分别是。

此外， ${如果}_{T型} (\cdot)$ 可以通过以下方式进行估算

{\hat{如果}}_{T型} (年) = \frac{1}{n个} \sum_{我 = 1}^{n个} \frac{δ_{我}}{\hat{G公司} ({Y（Y）}_{我})} 我 ({Y（Y）}_{我} \leq 年) ，

哪里 $\hat{G公司} (年)$ 是Kaplan-Meier估计量 $G公司 (年) = P（P） (C类 \geq 年)$ 因此 $E类 (T型 | δ = 0)$ ，表示为 $\tilde{E类} (T型 | δ = 0)$ ，由给出(10)带有 ${如果}_{T型} (年)$ 替换为 ${\hat{如果}}_{T型} (年)$ 因此，对于 $我 = 1 ， \dots ， n个$ 我们有

{\tilde{Y（Y）}}_{我}^{*} = δ_{我} {Y（Y）}_{我} + (1 - δ_{我}) \tilde{E类} ({T型}_{我} | δ_{我} = 0) .

除了调整不完全响应外，还需要校正直流法中的测量误差。让 $ϕ_{{Y（Y）}^{*}} (第页) = E类 {经验 (我第页 {Y（Y）}^{*})}$ 表示的特征函数 ${Y（Y）}^{*}$ ，其中 $我$ 是一个复数 $我^{2} = - 1$ 。对于k个未观察到的协变量 ${X（X）}_{k个}$ ，定义

ϕ_{{X（X）}_{k个}} (秒) = E类 \{经验 (我 秒 {X（X）}_{k个})\} 一 n个 d日 ϕ_{{Y（Y）}^{*} ， {X（X）}_{k个}} (第页 ， 秒) = E类 \{经验 (我 第页 {Y（Y）}^{*} + 我 秒 {X（X）}_{k个})\} ，

然后根据第节中的定义2.3，之间的距离协方差 ${Y（Y）}^{*}$ 和 ${X（X）}_{k个}$ 由提供

d日 c（c） o（o） v（v） ({Y（Y）}^{*} ， {X（X）}_{k个}) = \int_{{R（右）}^{1 + 1}} {∥ϕ_{{Y（Y）}^{*} ， {X（X）}_{k个}} (第页 ， 秒) - ϕ_{{Y（Y）}^{*}} (第页) ϕ_{{X（X）}_{k个}} (秒)∥}^{2} w个 (第页 ， 秒) d日 第页 d日 秒 ，

因此，通过(6)，DC基于 ${Y（Y）}^{*}$ 和k个未观察到的协变量 ${X（X）}_{k个}$ 由提供

ω_{k个} ≜ d日 c（c） o（o） 第页 第页 ({Y（Y）}^{*} ， {X（X）}_{k个}) = \frac{d日 c（c） o（o） v（v） ({Y（Y）}^{*} ， {X（X）}_{k个})}{\sqrt{d日 c（c） o（o） v（v） ({Y（Y）}^{*} ， {Y（Y）}^{*}) d日 c（c） o（o） v（v） ({X（X）}_{k个} ， {X（X）}_{k个})}} .

(11)

然而， ${X（X）}_{k个}$ 未被观察到，但我们只有 ${X（X）}_{k个}^{*}$ 。为了纠正错误影响，我们考虑

ϕ_{{X（X）}_{k个}^{*}}^{*} (秒) = E类 \{经验 (我 秒 {X（X）}_{k个}^{*})\} 经验 (\frac{1}{2} 秒^{2} σ_{ϵ ， k个 k个})

和

ϕ_{{Y（Y）}^{*} ， {X（X）}_{k个}^{*}}^{*} (第页 ， 秒) = E类 \{经验 (我 第页 {Y（Y）}^{*} + 我 秒 {X（X）}_{k个}^{*})\} 经验 (\frac{1}{2} 秒^{2} σ_{ϵ ， k个 k个}) ，

哪里 $σ_{ϵ ， k个 k个}$ 是一个k个第个对角线入口 $Σ_{ϵ}$ 接下来，我们定义

{d日 c（c） o（o） v（v）}^{*} ({Y（Y）}^{*} ， {X（X）}_{k个}^{*}) = \int_{{R（右）}^{1 + 1}} {∥ϕ_{{Y（Y）}^{*} ， {X（X）}_{k个}^{*}}^{*} (第页 ， 秒) - ϕ_{{Y（Y）}^{*}} (第页) ϕ_{{X（X）}_{k个}^{*}}^{*} (秒)∥}^{2} w个 (第页 ， 秒) d日 第页 d日 秒

(12)

作为已修改（或“已更正”）距离协方差。最后，根据类似的定义(11)，的修改（或“更正”）DC由提供

ω_{k个}^{*} ≜ {d日 c（c） o（o） 第页 第页}^{*} ({Y（Y）}^{*} ， {X（X）}_{k个}^{*}) = \frac{{d日 c（c） o（o） v（v）}^{*} ({Y（Y）}^{*} ， {X（X）}_{k个}^{*})}{\sqrt{{d日 c（c） o（o） v（v）}^{*} ({Y（Y）}^{*} ， {Y（Y）}^{*}) {d日 c（c） o（o） v（v）}^{*} ({X（X）}_{k个}^{*} ， {X（X）}_{k个}^{*})}}

（13）

对于 $k个 = 1 ， \dots ，对$ ，相应的估计量为

\begin{aligned} {\hat{ω}}_{k个}^{*} & = \hat{{d日 c（c） o（o） 第页 第页}^{*}} ({\tilde{Y（Y）}}^{*} ， {X（X）}_{k个}^{*}) \\ = \frac{\hat{{d日 c（c） o（o） v（v）}^{*}} ({\tilde{Y（Y）}}^{*} ， {X（X）}_{k个}^{*})}{\sqrt{\hat{{d日 c（c） o（o） v（v）}^{*}} ({\tilde{Y（Y）}}^{*} ， {\tilde{Y（Y）}}^{*}) \hat{{d日 c（c） o（o） v（v）}^{*}} ({X（X）}_{k个}^{*} ， {X（X）}_{k个}^{*})}} ， \end{aligned}

(14)

哪里 $\hat{{d日 c（c） o（o） v（v）}^{*}} ({\tilde{Y（Y）}}^{*} ， {X（X）}_{k个}^{*}) = {\hat{J型}}_{1 ， k个}^{*} + {\hat{J型}}_{2 ， k个}^{*} - 2 {\hat{J型}}_{三， k个}^{*}$ 具有

\begin{aligned} {\hat{J型}}_{1 ， k个}^{*} & = \frac{1}{{n个}^{2} σ_{ϵ ， k个 k个}} \sum_{我 = 1}^{n个} \sum_{j个 = 1}^{n个} {∥{\tilde{Y（Y）}}_{我}^{*} - {\tilde{Y（Y）}}_{j个}^{*}∥}_{1} {∥{X（X）}_{k个 ， 我}^{*} - {X（X）}_{k个 ， j个}^{*}∥}_{1} ， \\ {\hat{J型}}_{2 ， k个}^{*} & = \frac{1}{{n个}^{2}} \sum_{我 = 1}^{n个} \sum_{j个 = 1}^{n个} {∥{\tilde{Y（Y）}}_{我}^{*} - {\tilde{Y（Y）}}_{j个}^{*}∥}_{1} \frac{1}{{n个}^{2} σ_{ϵ ， k个 k个}} \sum_{我 = 1}^{n个} \sum_{j个 = 1}^{n个} {∥{X（X）}_{k个 ， 我}^{*} - {X（X）}_{k个 ， j个}^{*}∥}_{1} ， \\ {\hat{J型}}_{三 ， k个}^{*} & = \frac{1}{{n个}^{三} σ_{ϵ ， k个 k个}} \sum_{我 = 1}^{n个} \sum_{j个 = 1}^{n个} \sum_{我 = 1}^{n个} {∥{\tilde{Y（Y）}}_{我}^{*} - {\tilde{Y（Y）}}_{我}^{*}∥}_{1} {∥{X（X）}_{k个 ， j个}^{*} - {X（X）}_{k个 ， 我}^{*}∥}_{1} ， \end{aligned}

${X（X）}_{k个，我}^{*}$ 是k个的第个分量 ${X（X）}_{我}^{*}$ 对于我第th个主题。的详细推导 $\hat{{d日 c（c） o（o） v（v）}^{*}} ({\tilde{Y（Y）}}^{*} ， {X（X）}_{k个}^{*})$ 见补充材料附录B。如果 $σ_{ϵ ， k个 k个}$ ，或 $Σ_{ϵ}$ ，则我们通过重复测量或验证数据进行估算，如第节所述2.2.

如李所述等。[16]，让阈值为 $c（c） {n个}^{- ζ}$ 对于某些常数c（c）和ζ，则估计的活动集由下式给出

\hat{我} = \{k个 : {\hat{ω}}_{k个}^{*} \geq c（c） {n个}^{- ζ} ， k个 = 1 ， \dots ， 对\} .

(15)

实际上，正如Yan所建议的那样等。[34]，陈等。[5]除其他外，我们可以指定活动集的大小 $我$ 成为 $q个 = [\frac{n个}{三日志 (n个)}]$ ，其中 $[\cdot]$ 代表楼层功能。

3.1.2. “校正”协变量的测定

由于活动集是在第节中确定的3.1.1，我们有q个-基于活动集的观测和未观测协变量的维向量，表示为 ${X（X）}_{我}^{*}$ 和 ${X（X）}_{我}$ 分别是。假设我们有一个样本n个科目和科目 $我 = 1 ， \dots ， n个$ ， ${{X（X）}_{我，我} ， {X（X）}_{我，我}^{*}}$ 具有与相同的分布 ${{X（X）}_{我} ， {X（X）}_{我}^{*}}$ .

类似于(三)，我们可以建模 ${X（X）}_{我，我}^{*}$ 和 ${X（X）}_{我，我}$ 通过

{X（X）}_{我 ， 我}^{*} = {X（X）}_{我 ， 我} + ϵ_{我 ， 我} ，

(16)

哪里 $ϵ_{我，我} \sim N个 (0 ， Σ_{ϵ_{我}})$ 使用 $q个 \times q个$ 协方差矩阵 $Σ_{ϵ_{我}}$ 和 $ϵ_{我，我}$ 独立于 ${{X（X）}_{我，我} ， {T型}_{我} ， {C类}_{我}}$ .

由于尺寸 ${X（X）}_{我，我}^{*}$ 减少并小于样本量，则 $q个 \times q个$ 协方差矩阵 $Σ_{{X（X）}_{我} {X（X）}_{我}^{*}} = c（c） o（o） v（v） ({X（X）}_{我，我} ， {X（X）}_{我，我}^{*})$ 和 $Σ_{{X（X）}_{我}^{*}} = v（v）一第页 ({X（X）}_{我，我}^{*})$ 因此是可逆的q个<n个因此，类似于(4)，基于活动集的“校正”协变量建议为

{U型}_{我 ， 我} = {L（左）}_{我} {X（X）}_{我 ， 我}^{*}

(17)

对于 $我 = 1 ， \dots ， n个$ ，其中 ${L（左）}_{我} = Σ_{{X（X）}_{我} {X（X）}_{我}^{*}} Σ_{{X（X）}_{我}^{*}}^{- 1}$ 如第节所述2.2，我们需要讨论 ${L（左）}_{我}$ 通过以下三种场景。

场景一： $Σ_{ϵ_{我}}$ 已知。
在这种情况下， ${L（左）}_{我}$ 是已知矩阵。因此我们可以直接应用(17).
场景二： $Σ_{ϵ_{我}}$ 未知，可重复测量。
假设 ${{X（X）}_{我第页}^{*} ， {X（X）}_{我}}$ 对于 $我 = 1 ， \dots ，米$ 和第页 = 1，2是外部数据米<n个，活动集下具有重复测量的测量误差模型为
${X（X）}_{我第页，我}^{*} = {X（X）}_{我，我} + ϵ_{我第页，我}$
对于 $我 = 1 ， \dots ，米$ 和第页 = 1、2，其中 $ϵ_{我第页，我} \sim N个 (0 ， Σ_{ϵ_{我}})$ 、和
${L（左）}_{我} = (Σ_{{X（X）}_{我}^{*}} - Σ_{ϵ_{我}}) Σ_{{X（X）}_{我}^{*}}^{- 1}$
(18)
具有 $Σ_{ϵ_{我}} = \frac{1}{2} v（v）一第页 ({X（X）}_{我 1 ，我}^{*} - {X（X）}_{我 2 ，我}^{*})$ 和 $Σ_{{X（X）}_{我}^{*}} = \frac{1}{4} {v（v）一第页 ({X（X）}_{我 1 ，我}^{*} + {X（X）}_{我 2 ，我}^{*}) - v（v）一第页 ({X（X）}_{我 1 ，我}^{*} - {X（X）}_{我 2 ，我}^{*})}$ 因此， ${L（左）}_{我}$ 可以通过以下方式进行估算
${\hat{L（左）}}_{我} = ({\hat{Σ}}_{{X（X）}_{我}^{*}} - {\hat{Σ}}_{ϵ_{我}}) {\hat{Σ}}_{{X（X）}_{我}^{*}}^{- 1} ，$
（19）
哪里 ${\hat{Σ}}_{{X（X）}_{我}^{*}}$ 和 ${\hat{Σ}}_{ϵ_{我}}$ 是的经验估计值 $Σ_{{X（X）}_{我}^{*}}$ 和 $Σ_{ϵ_{我}}$ 分别是。
场景三： $Σ_{ϵ_{我}}$ 未知，验证数据可用。
如果验证数据可用，那么对于大小的附加信息米(米<n个)在活动集下，我们有
${X（X）}_{我，我}^{*} = {X（X）}_{我，我} + ϵ_{我，我} ，我 = 1 ， \dots ，米，$
因此 ${L（左）}_{我}$ 可以通过以下方式进行估算
${\hat{L（左）}}_{我} = {\hat{Σ}}_{{X（X）}_{我} {X（X）}_{我}^{*}} {\hat{Σ}}_{{X（X）}_{我}^{*}}^{- 1} ，$
(20)
哪里 ${\hat{Σ}}_{{X（X）}_{我}^{*}}^{- 1} = \frac{1}{米} \sum_{我 = 1}^{米} ({X（X）}_{我，我}^{*} - {\bar{X（X）}}_{我}^{*}) ({X（X）}_{我，我}^{*} - {\bar{X（X）}}_{我}^{*})^{⊤}$ 和 ${\hat{Σ}}_{{X（X）}_{我} {X（X）}_{我}^{*}} = \frac{1}{米} \sum_{我 = 1}^{米} ({X（X）}_{我，我} - {\bar{X（X）}}_{我}) ({X（X）}_{我，我}^{*} - {\bar{X（X）}}_{我}^{*})^{⊤}$ 具有 ${\bar{X（X）}}_{我} = \frac{1}{米} \sum_{我 = 1}^{米} {X（X）}_{我，我}$ 和 ${\bar{X（X）}}_{我}^{*} = \frac{1}{米} \sum_{我 = 1}^{米} {X（X）}_{我，我}^{*}$ .

3.2. 估算

在本小节中，我们现在讨论生存数据的CS估计和基于活动集的测量误差。

请注意 ${Y（Y）}^{*}$ 定义于(9)只用于调整不完全响应，然后检测信息协变量。当激活集 $我$ 得到“校正的”协变量(17)给予

T型 {X（X）}_{我} | {B类}_{我}^{⊤} {X（X）}_{我} ⟺ T型 {U型}_{我} | {B类}_{我}^{⊤} {U型}_{我} .

另一方面，因为(9)是的函数T型，根据Li中的定理2.3[11，第25页]，我们只有 ${S公司}_{{Y（Y）}^{*} | {X（X）}_{我}} \subseteq {S公司}_{T型 | {X（X）}_{我}}$ ，建议使用 ${Y（Y）}^{*}$ SDR方法可能会丢失以下信息 ${S公司}_{T型 | {X（X）}_{我}}$ （例如[7第115页）。因此，而不是使用(9)为了发展SDR方法，我们提出了逆加权方法来解决CS估计时的右偏调整问题。

让 ${N个}_{Y（Y）} = 我 (Y（Y） \leq 年)$ .定义 ${G公司}_{U型} (\cdot) = P（P） (C类 \geq \cdot | {U型}_{我})$ 通过一些推导，我们得到了

\begin{aligned} E类 \{\frac{δ {N个}_{Y（Y）}}{{G公司}_{U型} (Y（Y）)}| {U型}_{我}\} & = E类 \{\frac{δ 我 (Y（Y） \leq 年)}{P（P） (C类 \geq Y（Y） | {U型}_{我})}| {U型}_{我}\} \\ = E类 [E类 \{\frac{我 (T型 \leq C类) 我 (T型 \leq 年)}{P（P） (C类 \geq T型 | {U型}_{我})}| T型 ， {U型}_{我}\}| {U型}_{我}] \\ = E类 \{我 (T型 \leq 年)| {U型}_{我}\} . \end{aligned}

(21)

实际上(21)是逆加权法夏也应用了类似的想法等。[33]还有Lu和Li[17]. 身份(21)允许我们研究期望 $E类 {我 (T型 \leq 年) | {U型}_{我}}$ 对于故障时间T型通过使用观察到的时间Y（Y），其中的反权重 ${G公司}_{U型} (\cdot)$ 是为了纠正审查效果而强加的。

对于 ${G公司}_{U型} (\cdot)$ ，表示为 ${\hat{G公司}}_{U型} (\cdot)$ ，我们遵循Lu和Li的想法[17]由于比例风险（PH）模型的简单性，采用了半参数方法。补充材料附录A中规定了一个必要的假设。

因此，本着朱提出的累积平均估计（CUME）的精神等。[38]，我们认为

{M（M）}_{我} = E类 \{M（M） ({Y（Y）}^{'}) {M（M）}^{⊤} ({Y（Y）}^{'})\} ，

(22)

哪里

M（M） (年) = c（c） o（o） v（v） \{\frac{δ_{我}}{{G公司}_{U型} ({Y（Y）}_{我})} 我 ({Y（Y）}_{我} \leq 年) ， {U型}_{我 ， 我}\} = {L（左）}_{我} c（c） o（o） v（v） \{\frac{δ_{我}}{{G公司}_{U型} ({Y（Y）}_{我})} 我 ({Y（Y）}_{我} \leq 年) ， {X（X）}_{我 ， 我}^{*}\}

和 ${Y（Y）}^{'}$ 是的独立副本Y（Y）事实上(21)，很容易看出 $M（M） (年)$ 等于 $c（c） o（o） v（v） {我 ({T型}_{我} \leq 年) ， {U型}_{我，我}}$ 此外，通过张中命题1的类似推导等。[37]，我们可以确认 ${U型}_{我，我}$ 对纠正错误测量和估计CS有效。此外，通过(22)和朱中定理1的结果等。[38]，我们有

秒 对 一 n个 \{Σ_{{U型}_{我}}^{- 1} {M（M）}_{我} = Σ_{{U型}_{我}}^{- 1} E类 \{M（M） ({Y（Y）}^{'}) {M（M）}^{⊤} ({Y（Y）}^{'})\} : {Y（Y）}^{'} > 0\} \subseteq {S公司}_{T型 | {X（X）}_{我}} ，

(23)

哪里 $Σ_{{U型}_{我}} = v（v）一第页 ({U型}_{我，我})$ 因此，根据CUME方法的精神，考虑 $Σ_{{U型}_{我}}^{- 1} {M（M）}_{我}$ 因为它的谱分解本质上推断 ${S公司}_{T型 | {X（X）}_{我}}$ 通过与非零特征值相关联的特征向量。

让 $β_{1}^{*} ， \dots ， β_{d日}^{*}$ 表示的特征向量 $Σ_{{U型}_{我}}^{- 1} {M（M）}_{我}$ 对应于其d日非零特征值。因此， $秒对一 n个 (β_{1}^{*} ， \dots ， β_{d日}^{*})$ 可用于表示 ${S公司}_{T型 | {X（X）}_{我}}$ 其次，关键问题是对 $β_{j个}^{*}$ 具有 $j个 = 1 ， \dots ， d日$ .让 ${N个}_{我} = E类 {N个 ({Y（Y）}^{'}) {N个}^{⊤} ({Y（Y）}^{'})}$ 具有 $N个 (年) = c（c） o（o） v（v） {\frac{δ_{我}}{{G公司}_{U型} ({Y（Y）}_{我})} 我 ({Y（Y）}_{我} \leq 年) ， {X（X）}_{我，我}^{*}}$ .的经验估计 ${N个}_{我}$ 具有 $我$ 正在由估算(15)由提供

{\hat{N个}}_{\hat{我}} = \frac{1}{n个} \sum_{我 = 1}^{n个} \hat{N个} ({Y（Y）}_{我}) {\hat{N个}}^{⊤} ({Y（Y）}_{我}) ，

哪里

\hat{N个} (年) = \frac{1}{n个} \sum_{我 = 1}^{n个} ({X（X）}_{我 ， \hat{我}}^{*} - {\bar{X（X）}}_{\hat{我}}^{*}) \frac{δ_{我}}{{\hat{G公司}}_{U型} ({Y（Y）}_{我})} 我 ({Y（Y）}_{我} \leq 年)

和 ${\bar{X（X）}}_{\hat{我}}^{*} = \frac{1}{n个} \sum_{我 = 1}^{n个} {X（X）}_{我， \hat{我}}^{*}$ 因此， $M（M） (年)$ 和 ${M（M）}_{我}$ 可分别通过以下公式进行估算

\hat{M（M）} (年) = {L（左）}_{\hat{我}} \hat{N个} (年)

和

{\hat{M（M）}}_{\hat{我}} = {L（左）}_{\hat{我}} {\hat{N个}}_{\hat{我}} {L（左）}_{\hat{我}}^{⊤} .

因此 $β_{1}^{*} ， \dots ， β_{d日}^{*}$ ，表示为 ${\hat{β}}_{1}^{*} ， \dots ， {\hat{β}}_{d日}^{*}$ ，可以由 ${\hat{Σ}}_{{U型}_{\hat{我}}}^{- 1} {\hat{M（M）}}_{\hat{我}}$ .让 ${\hat{B类}}_{\hat{我}} = ({\hat{β}}_{1}^{*} ， \dots ， {\hat{β}}_{d日}^{*})$ 因此， $秒对一 n个 ({\hat{B类}}_{\hat{我}})$ 可用于估算 ${S公司}_{T型 | {X（X）}_{我}}$ 此外，如中所示(8)，对于中的无关协变量 ${\hat{我}}^{c（c）}$ ，我们有 $(对 - q个) \times d日$ 矩阵，表示为 ${\hat{B类}}_{{\hat{我}}^{c（c）}}$ ，所有条目均为零。因此，当估算 ${\hat{B类}}_{\hat{我}}$ 得到，则估计值为B类定义于(1)通过合并给出 ${\hat{B类}}_{\hat{我}}$ 和 ${\hat{B类}}_{{\hat{我}}^{c（c）}}$ ，即。 $\hat{B类} = ({\hat{B类}}_{\hat{我}}^{⊤} ， {\hat{B类}}_{{\hat{我}}^{c（c）}}^{⊤})^{⊤}$ 因此，CS ${S公司}_{T型 | X（X）}$ 可以通过以下方式进行估算 $秒对一 n个 (\hat{B类})$ .

此外，如果 ${L（左）}_{\hat{我}}$ 未知，则估计值 ${\hat{L（左）}}_{\hat{我}}$ 可以通过以下方式确定(19)或(20). 因此，更换 ${L（左）}_{\hat{我}}$ 英寸(17)由 ${\hat{L（左）}}_{\hat{我}}$ 给予

{\hat{U型}}_{我 ， \hat{我}} = {\hat{L（左）}}_{\hat{我}} {X（X）}_{我 ， \hat{我}}^{*} ，

和中心子空间 ${S公司}_{T型 | {X（X）}_{我}}$ 可以通过相同的程序进行估算 ${U型}_{我， \hat{我}}$ 替换为 ${\hat{U型}}_{我， \hat{我}}$ .

3.3. 结构尺寸的确定d日

最后，请注意结构尺寸d日通常是未知的。为了估计它，我们采用了朱提出的BIC标准等。[38]，则估计的结构尺寸由以下公式确定

\hat{d日} = \underset{1 \leq k个 \leq q个}{argmin（最小值）} ψ (k个) ，

哪里

ψ (k个) = \frac{\sum_{我 = 1}^{k个} {\hat{λ}}_{我}^{2}}{\sum_{我 = 1}^{q个} {\hat{λ}}_{我}^{2}} - {C类}_{n个} \frac{k个 (k个 + 1)}{2} ，

${\hat{λ}}_{1} ， \dots ， {\hat{λ}}_{q个}$ 是的特征值 ${\hat{Σ}}_{{U型}_{\hat{我}}}^{- 1} {\hat{M（M）}}_{\hat{我}}$ 、和 ${C类}_{n个} = 2 {n个}^{三 / 4}$ 如朱所建议等。[38].

3.4. 理论结果

在第一个定理中，我们证明了特征筛选准则的有效性(13)在某种意义上，为 ${X（X）}_{我}^{*}$ 和 ${X（X）}_{我}$ 都是一样的。

定理3.1

基于的活动功能 ${X（X）}^{*}$ 和X（X）都是一样的。那就是，

d日 c（c） o（o） 第页 {第页}^{*} ({Y（Y）}^{*} ， {X（X）}_{k个}^{*}) > 0 ⟺ d日 c（c） o（o） 第页 第页 ({Y（Y）}^{*} ， {X（X）}_{k个}) > 0

或

d日 c（c） o（o） 第页 {第页}^{*} ({Y（Y）}^{*} ， {X（X）}_{k个}^{*}) = 0 ⟺ d日 c（c） o（o） 第页 第页 ({Y（Y）}^{*} ， {X（X）}_{k个}) = 0 ，

哪里 $d日 c（c） o（o）第页第页 ({Y（Y）}^{*} ， {X（X）}_{k个})$ 和 $d日 c（c） o（o）第页 {第页}^{*} ({Y（Y）}^{*} ， {X（X）}_{k个}^{*})$ 定义于(11)和(13)分别是。

当协变量X（X）可用，我们使用 $d日 c（c） o（o）第页第页 ({Y（Y）}^{*} ， X（X）)$ 选择信息协变量；虽然X（X）不可观察，我们只有代理版本 ${X（X）}^{*}$ ，然后 ${d日 c（c） o（o）第页第页}^{*} ({Y（Y）}^{*} ， {X（X）}^{*})$ 当测量误差发生时，我们能够检测出真正信息丰富的协变量。定理3.1暗示了所提出的DC方法 ${d日 c（c） o（o）第页第页}^{*} ({Y（Y）}^{*} ， {X（X）}^{*})$ 成功地纠正了误差效应，然后检测到真正有信息的协变量，这些协变量与 $d日 c（c） o（o）第页第页 ({Y（Y）}^{*} ， X（X）)$ 此外，由于 ${Y（Y）}^{*}$ 定义于(9)可以被视为伪故障时间，并具有与T型，根据定理3.1，我们可以进一步得出以下结论 $d日 c（c） o（o）第页第页 (T型， X（X）)$ 和 ${d日 c（c） o（o）第页第页}^{*} ({Y（Y）}^{*} ， {X（X）}^{*})$ 选择相同的协变量。换句话说，估计的活动集由 ${d日 c（c） o（o）第页第页}^{*} ({Y（Y）}^{*} ， {X（X）}^{*})$ 与由确定的估计活动集匹配 $d日 c（c） o（o）第页第页 (T型， X（X）)$ .

确定后 $\hat{我}$ ，我们接下来展示活动集的属性 $我$ 和 $\hat{我}$ .

定理3.2

根据补充材料附录A中的条件（C3）和（C4） $n个 \to \infty$ ，

P（P） (我 \subseteq \hat{我}) \to 1

事实上，定理3.2也是众所周知的确定屏蔽性能[9]，这确保了依赖于响应的协变量可以通过特征筛选过程检测出来。

让 $∥ \cdot ∥$ 表示Frobenius范数的意义是 $∥ A类 ∥ = \sqrt{\sum_{k个 = 1}^{q个} \sum_{j个 = 1}^{d日} | {A类}_{k个 j个} |^{2}}$ 带有任何 $q个 \times d日$ 矩阵 $A类 = ({A类}_{k个 j个})$ 。基于活动集中选定的功能 $我$ ，所提出的估计量具有以下理论结果。

定理3.3

假设补充材料附录A中的条件（C5）–（C7）成立，那么

$∥ {\hat{Σ}}_{{U型}_{我}}^{- 1} {\hat{M（M）}}_{我} - Σ_{{U型}_{我}}^{- 1} {M（M）}_{我} ∥ = o（o） (q个日志 (n个) / \sqrt{n个})$ 如果 ${L（左）}_{我}$ 已知；
$∥ {\hat{Σ}}_{{U型}_{我}}^{- 1} {\hat{M（M）}}_{我} - Σ_{{U型}_{我}}^{- 1} {M（M）}_{我} ∥ = o（o） (q个日志 (米) / \sqrt{米})$ 如果 ${L（左）}_{我}$ 未知。

一般来说，定理3.3表明，在活动集下 $Σ_{{U型}_{我}}^{- 1} {M（M）}_{我}$ 它的估计量足够小。它还意味着估计的特征向量 ${\hat{β}}_{j个}^{*}$ 接近特征向量 $β_{j个}^{*}$ 对于每个 $j个 = 1 ， \dots ， d日$ 因此，它验证了 $秒对一 n个 ({\hat{β}}_{1}^{*} ， \dots ， {\hat{β}}_{d日}^{*})$ 适合估算 ${S公司}_{T型 | {X（X）}_{我}}$ .

4 数值研究

4.1. 模拟设置

让n个 = 400或800表示样本量。让X（X）成为对-协变量的维数向量对 = 2000，由均值为零的正态分布和协方差矩阵生成 $Σ_{X（X）}$ 对角元素为1，非对角元素为0.5。

故障时间由以下三个模型生成：

M1中：
$T型 = 经验 ({X（X）}_{1} + {X（X）}_{2} - {X（X）}_{三} + η)$ ；
M2：
$T型 = 经验 {罪 ({X（X）}_{1} + {X（X）}_{2}) + ({X（X）}_{三} + {X（X）}_{4})^{2} + 2 η}$ ；
立方米：
$T型 = 经验 {\frac{{X（X）}_{1} + {X（X）}_{2}}{1 + ({X（X）}_{三} + {X（X）}_{4} + {X（X）}_{5})^{2}} + 4 η}$ .

指定错误项的分布η给出了一些常用的生存模型。本文考虑比例风险（PH）模型的极值分布、比例赔率（PO）模型的逻辑分布和标准正态分布。此外，M1的结构尺寸为d日 = 1，而M2和M3的结构尺寸为d日 = 2.对于参数的真实值， ${B类}_{0} = (1 ， 1 ， - 1 ， 0 ， 0 ， \dots ， 0)^{⊤}$ 在M1中， ${B类}_{0} = (β_{10} ， β_{20})$ 具有 $β_{10} = (1 ， 1 ， 0 ， 0 ， \dots ， 0)^{⊤}$ 和 $β_{20} = (0 ， 0 ， 1 ， 1 ， 0 ， \dots ， 0)^{⊤}$ 单位：M2，以及 ${B类}_{0} = (β_{10} ， β_{20})$ 具有 $β_{10} = (1 ， 1 ， 0 ， 0 ， \dots ， 0)^{⊤}$ 和 $β_{20} = (0 ， 0 ， 1 ， 1 ， 1 ， 0 ， \dots ， 0)^{⊤}$ 单位：M3。

审查时间C类由均匀分布生成 $U型 (0 ， τ_{C类})$ 哪里 $τ_{C类}$ 是一个常数，因此审查率为50%。因此，我们 $Y（Y） = 最小值 {T型， C类}$ 和 $δ = 我 (T型 \leq C类)$ .

对于容易出错的协变量，让 $ϵ$ 由具有均值零和协方差矩阵的正态分布生成 $Σ_{ϵ}$ 对角线入口为 $σ_{ϵ}^{2} = 0.15$ 、0.5或0.75，非对角线条目为 $σ_{ϵ ； k个，我} = σ_{ϵ}^{2} (0.5)^{(2 + | k个 - 我 |)}$ 对于 $k个，我 = 1 ， \dots ，对$ 和 $k个 \neq 我$ 然后观察到的协变量 ${X（X）}^{*}$ 由测量误差模型生成(三). 因此，对于 $我 = 1 ， \dots ， n个$ ，观察到的存活数据是 $({Y（Y）}_{我} ， δ_{我} ， {X（X）}_{我}^{*})$ .

如果 $Σ_{ϵ}$ 未知，则以下两种情况被视为附加信息：

场景1：验证数据
对于 $我 = 1 ， \dots ，米$ 具有 $米 = \frac{n个}{4}$ ， ${X（X）}_{我}$ 和 $ϵ_{我}$ 再次从生成 $N个 (0 ， Σ_{X（X）})$ 和 $N个 (0 ， Σ_{ϵ})$ 分别为和 ${X（X）}_{我}^{*}$ 由生成
${X（X）}_{我}^{*} = {X（X）}_{我} + ϵ_{我}$
对于 $我 = 1 ， \dots ，米$ .
场景2：重复测量
对于 $我 = 1 ， \dots ，米$ 具有 $米 = \frac{n个}{4}$ 和第页 = 1, 2, ${X（X）}_{我}$ 和 $ϵ_{我第页}$ 再次从生成 $N个 (0 ， Σ_{X（X）})$ 和 $N个 (0 ， Σ_{ϵ})$ 分别为和 ${X（X）}_{我第页}^{*}$ 由生成
${X（X）}_{我第页}^{*} = {X（X）}_{我} + ϵ_{我第页}$
对于 $我 = 1 ， \dots ，米$ 和第页 = 1, 2.

最后，我们在每个设置中重复模拟1000次。

4.2. 仿真结果

我们首先通过第节中提出的特征筛选方法来检查重要变量的检测3.1。为了查看错误污染的影响，我们检查了天真法通过直接替换获得 ${X（X）}_{我}$ 英寸(11)由 ${X（X）}_{我}^{*}$ 并且没有错误修正。为了评估所提方法的有限样本性能，我们遵循与其他相关文献类似的演示（例如[16])测量提取这些重要变量的频率。具体来说，让 ${P（P）}_{秒}$ 表示从1000个模拟中选择每个活动协变量的比例，并让 ${P（P）}_{一}$ 表示从1000个模拟中选择所有活动协变量的比例。基于已知的 $Σ_{ϵ}$ 在表中报告1我们省略了未知情况下的结果 $Σ_{ϵ}$ 显示与表中相似的模式1.

表1。

通过特征筛选选择真正信息丰富的协变量的比例。

				M1级				平方米					立方米
				${P（P）}_{秒}$				${P（P）}_{秒}$					${P（P）}_{秒}$
η	n个	$σ_{ϵ}^{2}$	方法	${X（X）}_{1}$	${X（X）}_{2}$	${X（X）}_{三}$	${P（P）}_{一}$	${X（X）}_{1}$	${X（X）}_{2}$	${X（X）}_{三}$	${X（X）}_{4}$	${P（P）}_{一}$	${X（X）}_{1}$	${X（X）}_{2}$	${X（X）}_{三}$	${X（X）}_{4}$	${X（X）}_{5}$	${P（P）}_{一}$
酸碱度	400	0.15	天真	0	0	0.002	0	0	0	0.001	0.001	0	0	0.001	0	0	0	0
			提议	1	0.997	0.998	0.998	1	1	0.991	0.996	0.997	1	1	0.995	0.996	0.996	0.995
		0.50	天真	0	0	0.001	0	0	0	0.001	0	0	0	0	0	0	0	0
			提议	1	0.995	0.996	0.996	1	1	0.993	0.995	0.995	0.998	1	0.994	0.994	0.995	0.994
		0.75	天真	0	0	0.001	0	0	0	0	0	0	0	0	0	0	0	0
			提议	1	0.995	0.995	0.995	1	1	0.994	0.995	0.994	0.997	0.998	0.994	0.994	0.995	0.994
	800	0.15	天真	0	0.001	0.002	0	0	0.001	0.003	0.001	0	0	0.002	0.002	0	0	0
			提议	1	0.998	1	0.997	1	1	0.997	0.997	0.997	1	1	0.996	0.997	0.998	0.996
		0.50	天真	0	0.001	0.001	0	0	0.001	0.001	0	0	0	0.002	0	0	0	0
			提议	1	0.998	0.998	0.997	1	1	0.997	0.995	0.995	1	1	0.995	0.995	0.996	0.995
		0.75	天真	0	0	0.001	0	0	0	0.001	0	0	0	0.001	0	0	0	0
			提议	1	0.998	0.996	0.996	1	0.998	0.996	0.995	0.994	1	1	0.995	0.995	0.994	0.994
人事军官	400	0.15	天真	0.001	0.001	0.002	0	0.001	0	0.001	0	0	0.001	0.001	0	0	0	0
			提议	1	0.998	0.997	0.997	1	0.999	0.996	0.996	0.996	1	1	0.997	0.995	0.996	0.996
		0.50	天真	0.001	0.001	0.001	0	0	0	0.001	0	0	0.001	0.001	0	0	0	0
			提议	1	0.996	0.996	0.997	1	0.997	0.995	0.994	0.995	1	1	0.996	0.995	0.995	0.995
		0.75	天真	0	0	0.001	0	0	0	0	0	0	0.001	0	0	0	0	0
			提议	1	0.996	0.996	0.996	1	0.996	0.995	0.994	0.994	1	0.998	0.996	0.993	0.994	0.994
	800	0.15	天真	0.003	0.002	0.002	0.001	0.002	0.001	0.002	0	0	0.001	0.002	0	0	0	0
			提议	1	0.998	0.998	0.997	1	0.999	0.997	0.998	0.997	1	1	0.997	0.996	0.997	0.996
		0.50	天真	0.001	0.001	0.002	0.001	0.001	0.001	0	0	0	0	0.002	0	0	0	0
			提议	1	0.996	0.997	0.997	1	0.997	0.996	0.997	0.997	1	1	0.996	0.996	0.995	0.996
		0.75	天真	0	0	0.001	0	0	0.001	0	0	0	0	0	0	0	0	0
			提议	0.997	0.995	0.995	0.996	0.998	0.996	0.996	0.995	0.996	0.998	1	0.995	0.996	0.995	0.995
正常	400	0.15	天真	0.002	0.003	0.002	0	0.002	0.001	0.001	0.002	0.001	0.001	0.001	0.002	0	0.002	0
			提议	1	0.998	0.998	0.997	1	0.999	1	0.997	0.997	1	1	0.997	0.996	0.997	0.996
		0.50	天真	0.002	0.002	0	0	0.001	0	0.001	0.001	0	0.001	0	0	0	0.002	0
			提议	1	0.997	0.997	0.995	1	0.999	0.998	0.996	0.996	1	1	0.995	0.995	0.996	0.995
		0.75	天真	0	0.001	0	0	0.001	0	0.001	0.001	0	0.001	0	0	0	0.002	0
			提议	1	0.997	0.997	0.995	1	0.999	0.998	0.996	0.996	1	1	0.995	0.995	0.996	0.995
	800	0.15	天真	0.004	0.006	0.003	0	0.003	0.003	0.002	0.001	0.001	0.002	0.003	0.003	0	0	0
			提议	1	1	1	1	1	0.999	1	0.998	0.998	1	1	0.997	0.997	0.998	0.997
		0.50	天真	0.002	0.004	0.002	0	0.002	0.001	0	0	0	0.001	0.002	0.002	0	0	0
			提议	1	1	0.998	0.998	1	0.997	0.997	0.996	0.996	1	0.997	0.997	0.997	0.997	0.996
		0.75	天真	0.001	0.001	0	0	0	0	0	0	0	0.001	0	0	0	0	0
			提议	1	0.998	0.997	0.997	1	0.997	0.996	0.996	0.996	1	0.997	0.997	0.996	0.996	0.996

在单独的窗口中打开

天真：用法 ${X（X）}^{*}$ 在节中3.1和3.2无误差修正；

建议：带有误差修正的建议方法。

注意M1包含 ${X（X）}_{1}$ – ${X（X）}_{三}$ ，M2包含 ${X（X）}_{1}$ – ${X（X）}_{4}$ ，M3包括 ${X（X）}_{1}$ – ${X（X）}_{5}$ .根据表中的结果1，我们观察到所提出的特征筛选方法(13)成功检测出模型M1、M2和M3中出现的真正重要的变量，比例接近1。另一方面，如果没有适当的测量误差修正，朴素方法无法检测到真正重要的变量。这些观察证明了定理3.2的正确性，并验证了测量误差会导致错误的结论。

接下来，我们检查估计的结构尺寸 $\hat{d日}$ 。对于每个设置中的1000次模拟，我们计算 $\hat{d日}$ ，即。

\frac{1}{1000} \sum_{k个 = 1}^{1000} 我 ({\hat{d日}}_{k个} = d日) （f） o（o） 第页 d日 = 0 ， 1 ， 2 ， 三 ， \dots ，

估计的结构尺寸由最大比例决定。表中总结了由原始方法和建议方法确定的结果2.我们只报告已知的情况 ${L（左）}_{我}$ 由于页面限制和其他情况的类似结果。我们观察到，无论是朴素的方法还是提出的方法都经常选择正确的结构维度。对于所有设置，选择真实尺寸的模拟比例随着样本量的增加而增加，而当 $σ_{ϵ}^{2}$ 增加。对于原始方法和建议方法的比较，建议的方法具有更高的确定比例 $\hat{d日} = 1$ 与模型M1中的朴素方法相比 $\hat{d日} = 2$ M2和M3型。

表2。

结构尺寸估算比例( $\hat{d日}$ ).

				酸碱度				人事军官				正常
模型	n个	$σ_{ϵ}^{2}$	方法	$\hat{d日} = 0$	$\hat{d日} = 1$	$\hat{d日} = 2$	$\hat{d日} \geq 三$	$\hat{d日} = 0$	$\hat{d日} = 1$	$\hat{d日} = 2$	$\hat{d日} \geq 三$	$\hat{d日} = 0$	$\hat{d日} = 1$	$\hat{d日} = 2$	$\hat{d日} \geq 三$
M1级	400	0.15	天真	0	0.985	0.010	0.005	0	0.953	0.041	0.006	0	0.950	0.041	0.009
			提议	0	1	0	0	0	1	0	0	0	0.998	0.002	0
		0.50	天真	0	0.973	0.020	0.007	0	0.950	0.044	0.006	0	0.945	0.049	0.006
			提议	0	1	0	0	0	0.997	0.003	0	0	0.997	0.003	0
		0.75	天真	0	0.978	0.017	0.005	0	0.902	0.081	0.007	0	0.943	0.049	0.008
			提议	0	1	0	0	0	0.989	0.011	0	0	0.994	0.006	0
	800	0.15	天真	0	0.990	0.007	0.003	0	0.960	0.034	0.006	0	0.966	0.031	0.003
			提议	0	1	0	0	0	1	0	0	0	0.998	0.002	0
		0.50	天真无邪	0	0.985	0.011	0.004	0	0.957	0.040	0.003	0	0.955	0.042	0.003
			提议	0	1	0	0	0	0.997	0.003	0	0	0.997	0.003	0
		0.75	天真	0	0.981	0.014	0.005	0	0.936	0.057	0.007	0	0.951	0.044	0.005
			提议	0	1	0	0	0	0.992	0.008	0	0	0.995	0.005	0
平方米	400	0.15	天真	0	0.067	0.933	0	0	0.030	0.970	0	0	0.025	0.973	0.002
			提议	0	0	1	0	0	1	0	0	0	0	1	0
		0.50	天真	0	0.050	0.950	0	0	0.032	0.960	0.008	0	0.027	0.969	0.004
			提议	0	0	1	0	0	0.002	0.998	0	0	0.005	0.995	0
		0.75	天真	0	0.087	0.903	0.010	0	0.063	0.937	0	0	0.041	0.952	0.007
			提议	0	0	1	0	0	0	1	0	0	0.010	0.990	0
	800	0.15	天真无邪	0	0.060	0.940	0	0	0.027	0.973	0	0	0.021	0.977	0.002
			提议	0	0	1	0	0	1	0	0	0	0	1	0
		0.50	天真	0	0.051	0.949	0	0	0.019	0.981	0	0	0.016	0.982	0.002
			提议	0	0	1	0	0	0.002	0.998	0	0	0.004	0.996	0
		0.75	天真	0	0.044	0.956	0	0	0.012	0.988	0	0	0.012	0.986	0.002
			提议	0	0	1	0	0	0.002	0.998	0	0	0.002	0.998	0
立方米	400	0.15	天真	0	0.070	0.928	0.002	0	0.036	0.961	0.003	0	0.028	0.970	0.002
			提议	0	0.004	0.996	0	0.004	0.996	0	0	0	0	1	0
		0.50	天真	0	0.076	0.922	0.002	0	0.045	0.950	0.005	0	0.033	0.963	0.004
			提议	0	0.007	0.993	0	0.005	0.995	0	0	0	0.003	0.996	0.001
		0.75	天真	0	0.085	0.910	0.005	0	0.066	0.929	0.005	0	0.055	0.940	0.005
			提议	0	0.009	0.991	0	0.008	0.992	0	0	0	0.005	0.995	0
	800	0.15	天真	0	0.062	0.936	0.002	0	0.022	0.975	0.003	0	0.019	0.979	0.002
			提议	0	0.004	0.996	0	0.003	0.997	0	0	0	0	1	0
		0.50	天真	0	0.063	0.935	0.002	0	0.035	0.961	0.004	0	0.026	0.970	0.004
			提议	0	0.005	0.995	0	0.004	0.996	0	0	0	0.004	0.996	0
		0.75	天真	0	0.074	0.923	0.003	0	0.058	0.938	0.004	0	0.042	0.955	0.003
			提议	0	0.006	0.994	0	0.004	0.996	0	0	0	0.002	0.998	0

在单独的窗口中打开

天真：用法 ${X（X）}^{*}$ 在节中3.1和3.2没有纠错；

建议：带有误差修正的建议方法。

最后，我们检验了估计器的性能 $\hat{B类}$ 通过使用Frobenius范数 $∥ Δ_{B类} ∥ = ∥ \hat{B类} - {B类}_{0} ∥$ 。除了建议的方法和通过直接实现获得的朴素方法之外 ${X（X）}_{我}^{*}$ 第节中的估算程序3.1和3.2在不进行误差修正的情况下，我们还估计B类通过Lu和Li提出的正则化稀疏估计方法[17，第2.3节]。尽管他们的方法没有包含协变量测量误差，但我们仍然将他们的方法作为参考，与所提出的和幼稚的方法进行比较，因为他们的方法旨在处理具有截尾响应的高维SDR。让“LuLi（2011）”表示Lu和Li提出的方法[17]使用容易出错的协变量 ${X（X）}_{我}^{*}$ .

的数值结果 $\hat{B类}$ 表中报告了通过三种不同方法获得的结果，包括朴素方法、建议方法和“LuLi（2011）”方法三–5.我们观察到 $∥ Δ_{B类} ∥$ 随着样本量的增加而减少，而 $∥ Δ_{B类} ∥$ 变大为 $σ_{ϵ}^{2}$ 增加。此外，我们可以看到，基于已知的 ${L（左）}_{我}$ 具有较小的值 $∥ Δ_{B类} ∥$ 和标准误差（S.E.） ${L（左）}_{我}$ 通过重复测量或验证数据进行估计，因为估计未知 ${L（左）}_{我}$ 需要。这些数值结果与早期参考相似（例如[37])也反映了定理3.3。

表4。

估计量的模拟结果B类未知的 ${L（左）}_{我}$ 通过重复测量进行估计。

				酸碱度		人事军官		正常
模型	$(n个，米)$	$σ_{ϵ}^{2}$	方法	$\| Δ_{B类} \|$	瑞典。	$\| Δ_{B类} \|$	瑞典。	$\| Δ_{B类} \|$	瑞典。
M1级	(400, 100)	0.15	天真	1.253	0.090	1.615	0.110	1.260	0.107
			陆莉（2011）	1.430	0.094	1.722	0.116	1.433	0.115
			提议	0.091	0.098	0.095	0.120	0.087	0.122
		0.50	天真	1.261	0.094	1.669	0.118	1.368	0.115
			陆莉（2011）	1.439	0.098	1.738	0.120	1.443	0.121
			提议	0.095	0.102	0.099	0.128	0.092	0.126
		0.75	天真	1.358	0.097	1.685	0.123	1.430	0.121
			陆莉（2011）	1.492	0.104	1.746	0.126	1.477	0.129
			提议	0.099	0.107	0.103	0.133	0.096	0.132
	(800, 200)	0.15	天真无邪	1.240	0.078	1.593	0.106	1.242	0.097
			陆莉（2011）	1.421	0.082	1.710	0.112	1.415	0.101
			提议	0.082	0.088	0.086	0.115	0.081	0.110
		0.50	天真	1.252	0.084	1.648	0.111	1.340	0.110
			陆莉（2011）	1.426	0.089	1.725	0.116	1.422	0.113
			提议	0.088	0.092	0.089	0.121	0.087	0.117
		0.75	天真	1.355	0.086	1.679	0.117	1.430	0.115
			陆莉（2011）	1.463	0.093	1.734	0.122	1.463	0.119
			提议	0.093	0.097	0.094	0.125	0.091	0.123
平方米	(400, 100)	0.15	天真	2.223	0.091	2.238	0.093	2.241	0.096
			陆莉（2011）	2.278	0.094	2.293	0.098	2.330	0.103
			提议	0.085	0.098	0.080	0.106	0.092	0.107
		0.50	天真	2.244	0.096	2.246	0.095	2.255	0.099
			陆莉（2011）	2.286	0.103	2.312	0.108	2.349	0.115
			提议	0.088	0.106	0.089	0.114	0.094	0.119
		0.75	天真	2.257	0.098	2.255	0.099	2.268	0.107
			陆莉（2011）	2.298	0.109	2.326	0.112	2.353	0.118
			提议	0.089	0.112	0.094	0.118	0.099	0.126
	(800, 200)	0.15	天真	2.215	0.084	2.217	0.088	2.226	0.089
			陆莉（2011）	2.237	0.089	2.282	0.087	2.319	0.095
			提议	0.078	0.094	0.074	0.095	0.085	0.102
		0.50	天真	2.234	0.087	2.229	0.091	2.243	0.094
			陆莉（2011）	2.276	0.093	2.295	0.094	2.329	0.105
			提议	0.082	0.096	0.083	0.103	0.089	0.111
		0.75	天真	2.247	0.095	2.238	0.097	2.255	0.097
			陆莉（2011）	2.283	0.098	2.322	0.105	2.344	0.112
			提议	0.088	0.097	0.079	0.105	0.088	0.115
立方米	(400, 100)	0.15	天真	2.380	0.079	2.312	0.086	2.285	0.089
			陆力（2011）	2.442	0.085	2.373	0.091	2.334	0.097
			提议	0.078	0.094	0.074	0.098	0.088	0.109
		0.50	天真	2.388	0.085	2.326	0.089	2.291	0.095
			陆莉（2011）	2.455	0.088	2.379	0.094	2.347	0.104
			提议	0.086	0.097	0.081	0.101	0.090	0.113
		0.75	天真	2.399	0.089	2.338	0.095	2.317	0.099
			陆莉（2011）	2.513	0.094	2.411	0.106	2.367	0.113
			提议	0.094	0.108	0.088	0.108	0.094	0.117
	(800, 200)	0.15	天真	2.362	0.075	2.290	0.078	2.266	0.083
			陆莉（2011）	2.425	0.081	2.359	0.088	2.316	0.088
			提议	0.071	0.086	0.070	0.094	0.075	0.092
		0.50	天真	2.376	0.079	2.322	0.084	2.279	0.088
			陆莉（2011）	2.435	0.083	2.367	0.089	2.326	0.090
			提议	0.078	0.089	0.076	0.095	0.079	0.096
		0.75	天真	2.384	0.083	2.327	0.088	2.288	0.093
			陆莉（2011）	2.450	0.087	2.377	0.096	2.356	0.098
			提议	0.086	0.095	0.084	0.107	0.090	0.111

在单独的窗口中打开

天真：用法 ${X（X）}^{*}$ 在章节中3.1和3.2无误差修正；

陆丽（2011）：用法 ${X（X）}^{*}$ 在Lu和Li中[17];

建议：带有误差修正的建议方法。

表3。

估计量的模拟结果B类已知的 ${L（左）}_{我}$ .

				酸碱度		人事军官		正常
模型	n个	$σ_{ϵ}^{2}$	方法	$\| Δ_{B类} \|$	瑞典。	$\| Δ_{B类} \|$	瑞典。	$\| Δ_{B类} \|$	瑞典。
M1级	400	0.15	天真	1.145	0.067	1.556	0.102	1.236	0.095
			陆莉（2011）	1.386	0.070	1.647	0.108	1.335	0.098
			提议	0.074	0.075	0.073	0.114	0.079	0.106
		0.50	天真	1.239	0.075	1.644	0.112	1.337	0.108
			陆力（2011）	1.423	0.074	1.694	0.115	1.388	0.114
			提议	0.079	0.082	0.078	0.123	0.083	0.119
		0.75	天真	1.353	0.084	1.676	0.115	1.415	0.115
			陆莉（2011）	1.477	0.089	1.723	0.121	1.468	0.120
			提议	0.086	0.093	0.088	0.126	0.092	0.124
	800	0.15	天真	1.138	0.064	1.543	0.098	1.220	0.091
			陆莉（2011）	1.370	0.066	1.635	0.101	1.322	0.094
			提议	0.068	0.071	0.069	0.108	0.072	0.100
		0.50	天真	1.231	0.071	1.633	0.107	1.327	0.101
			陆力（2011）	1.418	0.072	1.685	0.111	1.359	0.107
			提议	0.072	0.079	0.075	0.115	0.076	0.110
		0.75	天真	1.345	0.078	1.661	0.111	1.408	0.110
			陆莉（2011）	1.458	0.083	1.714	0.116	1.450	0.114
			提议	0.079	0.086	0.078	0.120	0.088	0.120
平方米	400	0.15	天真无邪	2.210	0.083	2.226	0.086	2.235	0.090
			陆莉（2011）	2.266	0.089	2.289	0.092	2.317	0.096
			提议	0.076	0.094	0.071	0.097	0.085	0.100
		0.50	天真	2.235	0.085	2.229	0.086	2.248	0.094
			陆莉（2011）	2.274	0.094	2.296	0.096	2.330	0.107
			提议	0.082	0.098	0.079	0.104	0.089	0.113
		0.75	天真	2.244	0.088	2.234	0.089	2.255	0.098
			陆莉（2011）	2.286	0.099	2.311	0.107	2.345	0.115
			提议	0.086	0.106	0.083	0.112	0.092	0.121
	800	0.15	天真	2.203	0.080	2.209	0.082	2.211	0.085
			陆莉（2011）	2.224	0.086	2.277	0.087	2.308	0.092
			提议	0.072	0.090	0.068	0.091	0.077	0.098
		0.50	天真	2.226	0.081	2.221	0.083	2.235	0.089
			陆莉（2011）	2.268	0.088	2.286	0.090	2.316	0.100
			提议	0.077	0.091	0.073	0.098	0.084	0.106
		0.75	天真	2.238	0.085	2.227	0.086	2.242	0.094
			陆莉（2011）	2.279	0.091	2.300	0.098	2.331	0.106
			提议	0.082	0.097	0.079	0.105	0.088	0.115
立方米	400	0.15	天真	2.366	0.076	2.300	0.080	2.278	0.086
			陆莉（2011）	2.435	0.083	2.369	0.087	2.325	0.094
			提议	0.072	0.090	0.068	0.092	0.075	0.102
		0.50	天真无邪	2.378	0.079	2.311	0.086	2.284	0.089
			陆莉（2011）	2.449	0.085	2.373	0.090	2.336	0.097
			提议	0.078	0.094	0.074	0.096	0.081	0.108
		0.75	天真	2.386	0.083	2.325	0.089	2.296	0.093
			陆莉（2011）	2.455	0.089	2.387	0.095	2.346	0.104
			提议	0.085	0.099	0.079	0.103	0.088	0.111
	800	0.15	天真	2.350	0.070	2.284	0.073	2.255	0.079
			陆莉（2011）	2.413	0.078	2.345	0.080	2.309	0.082
			提议	0.065	0.082	0.060	0.084	0.068	0.089
		0.50	天真	2.363	0.074	2.299	0.078	2.270	0.082
			陆莉（2011）	2.427	0.081	2.355	0.086	2.320	0.087
			提议	0.071	0.086	0.067	0.090	0.075	0.093
		0.75	天真	2.379	0.079	2.311	0.085	2.284	0.088
			陆莉（2011）	2.443	0.084	2.368	0.091	2.334	0.095
			提议	0.077	0.089	0.074	0.098	0.079	0.099

在单独的窗口中打开

天真：用法 ${X（X）}^{*}$ 在节中3.1和3.2无误差修正；

陆丽（2011）：用法 ${X（X）}^{*}$ 在Lu和Li中[17];

建议：建议的方法有误差校正。

表5。

估计量的模拟结果B类未知的 ${L（左）}_{我}$ 根据验证数据进行估算。

				酸碱度		人事军官		正常
模型	$(n个，米)$	$σ_{ϵ}^{2}$	方法	$\| Δ_{B类} \|$	瑞典。	$\| Δ_{B类} \|$	瑞典。	$\| Δ_{B类} \|$	瑞典。
M1级	(400, 100)	0.15	天真	1.278	0.091	1.631	0.112	1.273	0.110
			陆莉（2011）	1.456	0.096	1.744	0.121	1.448	0.119
			提议	0.096	0.103	0.097	0.127	0.090	0.125
		0.50	天真	1.282	0.096	1.675	0.123	1.377	0.119
			陆莉（2011）	1.463	0.106	1.750	0.127	1.455	0.125
			提议	0.099	0.110	0.102	0.130	0.095	0.128
		0.75	天真	1.366	0.104	1.693	0.128	1.446	0.127
			陆莉（2011）	1.503	0.109	1.774	0.135	1.498	0.133
			提议	0.102	0.112	0.107	0.142	0.108	0.138
	(800, 200)	0.15	天真	1.255	0.085	1.620	0.109	1.258	0.101
			陆莉（2011）	1.438	0.089	1.729	0.116	1.424	0.107
			提议	0.089	0.095	0.092	0.121	0.089	0.116
		0.50	天真	1.261	0.087	1.656	0.117	1.350	0.113
			陆莉（2011）	1.448	0.094	1.737	0.124	1.447	0.119
			提议	0.094	0.099	0.097	0.126	0.091	0.123
		0.75	天真	1.361	0.095	1.688	0.121	1.439	0.117
			陆莉（2011）	1.484	0.099	1.766	0.129	1.475	0.122
			提议	0.096	0.108	0.099	0.133	0.099	0.130
平方米	(400, 100)	0.15	天真	2.240	0.095	2.251	0.095	2.256	0.099
			陆莉（2011）	2.288	0.098	2.313	0.102	2.347	0.107
			提议	0.089	0.105	0.089	0.110	0.098	0.111
		0.50	天真	2.249	0.099	2.257	0.098	2.263	0.103
			陆力（2011）	2.294	0.107	2.322	0.111	2.356	0.118
			提议	0.094	0.114	0.096	0.119	0.105	0.123
		0.75	天真无邪	2.266	0.105	2.268	0.103	2.289	0.114
			陆莉（2011）	2.320	0.113	2.340	0.116	2.379	0.125
			提议	0.097	0.117	0.099	0.122	0.109	0.130
	(800, 200)	0.15	天真	2.223	0.088	2.230	0.093	2.241	0.094
			陆力（2011）	2.256	0.093	2.296	0.097	2.330	0.099
			提议	0.084	0.097	0.087	0.099	0.092	0.107
		0.50	天真	2.240	0.093	2.241	0.095	2.255	0.098
			陆力（2011）	2.288	0.098	2.316	0.105	2.341	0.108
			提议	0.089	0.107	0.093	0.108	0.098	0.117
		0.75	天真	2.253	0.103	2.250	0.106	2.274	0.110
			陆莉（2011）	2.297	0.109	2.349	0.113	2.360	0.117
			提议	0.093	0.115	0.095	0.115	0.100	0.126
立方米	(400, 100)	0.15	天真	2.396	0.083	2.336	0.090	2.300	0.094
			陆莉（2011）	2.463	0.089	2.390	0.095	2.358	0.103
			提议	0.086	0.098	0.082	0.103	0.096	0.112
		0.50	天真	2.411	0.089	2.345	0.095	2.313	0.098
			陆莉（2011）	2.470	0.094	2.388	0.097	2.361	0.110
			提议	0.091	0.100	0.089	0.108	0.099	0.118
		0.75	天真	2.420	0.095	2.362	0.099	2.330	0.105
			陆莉（2011）	2.556	0.099	2.437	0.110	2.389	0.116
			提议	0.097	0.111	0.096	0.115	0.106	0.122
	(800, 200)	0.15	天真	2.389	0.078	2.320	0.086	2.288	0.090
			陆莉（2011）	2.455	0.084	2.379	0.090	2.344	0.095
			提议	0.079	0.088	0.079	0.093	0.082	0.102
		0.50	天真	2.395	0.086	2.333	0.090	2.293	0.093
			陆莉（2011）	2.460	0.091	2.383	0.092	2.356	0.102
			提议	0.082	0.095	0.083	0.098	0.088	0.109
		0.75	天真	2.411	0.093	2.359	0.093	2.311	0.099
			陆莉（2011）	2.486	0.097	2.408	0.099	2.378	0.106
			提议	0.090	0.101	0.094	0.103	0.095	0.115

在单独的窗口中打开

天真：用法 ${X（X）}^{*}$ 在节中3.1和3.2无误差修正；

陆丽（2011）：用法 ${X（X）}^{*}$ 在Lu和Li中[17];

建议：带有误差修正的建议方法。

在存在测量误差且无误差修正的情况下，我们可以看到，朴素方法的性能优于“LuLi（2011）”，且较小 $∥ Δ_{B类} ∥$ 和S.E.，因为他们的方法依赖于LASSO惩罚函数（例如[29])。因此，尽管“LuLi（2011）”能够使用SDR进行变量选择，但仍难以处理超高维设置。此外，我们比较了原始方法和提出的方法，以了解误差影响和相应的修正。我们观察到，所提出的方法给出了较小的 $∥ Δ_{B类} ∥$ 与naive方法相比，它表明通过适当的校正可以消除误差影响，因此B类更精确。此外，所提出的方法考虑了测量误差的影响，比朴素方法产生更大的S.E.，这是消除点估计中的偏差所付出的代价。这种现象在测量误差模型的文献中是典型的。

4.3. NKI乳腺癌数据分析

在本节中，我们将采用所建议的方法来分析荷兰癌症研究所（NKI）收集的乳腺癌数据[30]. 荷兰癌症研究所新鲜组织库收集了295名乳腺癌患者的肿瘤。这些患者的肿瘤主要是浸润性乳腺癌，约为5 直径为cm。诊断时的患者年龄为52岁或以下，诊断时间为1984年至1995年。在所有这些患者中，79名患者在研究结束前死亡，约占73.2%的审查率。对于患者的每个肿瘤，收集了大约25000个基因表达。与基因表达数据分析一致，我们将对数强度作为协变量。如Roke和Durbin所述[25]，基因表达的测量存在测量误差。该数据集的主要目的是确定信息特征，然后降低基因表达值的维数。

由于该数据集不包含表征基因表达伴随的测量误差程度的信息，因此我们进行敏感性分析，以调查测量误差对分析结果的影响。具体来说，设∑为基因表达值的协方差矩阵。对于敏感性分析，我们考虑 $Σ + Σ_{e（电子）}$ 作为测量误差模型的协方差矩阵(三)，其中 $Σ_{e（电子）}$ 是以对角元素为公共值的对角矩阵吗 $σ_{e（电子）}^{2}$ ，指定为 $σ_{e（电子）}^{2} = 0.15 ， 0.55$ 或0.75，以具有轻微、中等或严重测量误差的设置。鉴于 $σ_{e（电子）}^{2}$ ，我们实现修改后的DC(14)确定估计的活动集 $\hat{我}$ 其中包含大小为的变量 $q个 = [\frac{295}{三日志 (295)}] = 17$ ，选择的基因表达包括NM_003748号，AA555029_抄送，AL080059号，AL137718号，NM_020974，NM_002073号，NM_004994号，NM_003875号，NM_015984号，X05610型，NM_006931号，NM_002916号，NM_001282号，续2399_RC，NM_018354号，NM_003862号、和NM_000599.关于天真的方法，我们简单地使用(11)没有进行特征筛选的错误修正，检测到的基因表达包括轮廓55377_RC，连续35251_RC，NM_003748号，NM_003875号，NM_006101，NM_003882，NM_003607，AF073519型，AF052162型，NM_000849，AB037863年，AF201951型，轮廓46218_RC，康蒂格63649_抄送，轮廓55725_RC，轮廓32125_RC、和NM_000599从特征筛选结果中，我们可以看到，修改后的DC检测到的基因表达与未经纠错选择的基因表达几乎不同。

鉴于检测到的基因表达，我们在第3.2估计d日和B类.朴素方法和建议的方法具有不同的值 $σ_{e（电子）}^{2}$ 建议估算的结构尺寸由下式给出 $\hat{d日} = 1$ ，和估计器 $\hat{B类} = {\hat{β}}_{1}$ 可以获得。为了可视化，我们绘制了四个不同的散点图Y（Y）和 $β_{1}^{⊤} X（X）$ 基于不同程度的误差和图中的朴素方法1可以看出，该方法给出了具有不同误差程度的相似曲线模式，而基于naive方法的曲线更可能是线性的。

保存图片、插图等的外部文件。对象名称为CJAS_A_1856352_F0001_c.jpg

在单独的窗口中打开

图1。

存活时间散点图Y（Y）和 $β_{1}^{⊤} X（X）$ （a）–（c）基于提议的方法 $σ_{e（电子）}^{2} = 0.15 ， 0.55 ，$ 或者0.75（d）是基于天真估计器。

5 结论

分析超高维数据一直是一个富有挑战性的话题，并引起了我们的关注。此外，SDR的思想也是一个重要的工具，它可以帮助我们在不丢失信息的情况下降低维数。当协变量的维数相对较小时，已经开发了许多SDR方法来处理生存数据或测量误差。然而，当截尾响应和测量误差同时出现时，很少有人提出方法。此外，超高维数据( $对 ≫ n个$ )毫无疑问，这使得分析变得具有挑战性。

在本文中，我们探讨了具有协变量测量误差的生存数据的超高维SDR。我们提出了一种有效的特征筛选程序，确保包含真正未观察到的协变量的活动集与包含检测到的代理协变量的激活集相同。基于估计的活动集，我们接下来开发了一种有效的SDR方法来估计存在测量误差的协变量生存数据的中心子空间。理论结果也得到了证实。数值研究也表明该方法具有令人满意的性能。

如Li和Yin所示[13]，协变量正态分布的条件X（X）更换时需要 ${X（X）}^{*}$ 通过U型只有这样的条件才能使不变性定律成立。关于协变量的非正态分布，Li和Yin[13，第6节]讨论了非高斯协变量的近似不变性，该不变性基于协变量的低维投影在维数为对相当大。然而，如第节开头所述3.2，我们首先检测重要的协变量，然后检查误差修正 ${U型}_{我}$ 基于检测到的协变量。因此，如果每个检测到的协变量都是非正态的，则近似不变定律不一定成立，因为检测到的协变变量的维数可能不够大。因此，基于检测和非正态协变量的不变律是否成立是一个悬而未决的问题。此外，我们主要关注协变量X（X）是连续的。如果协变量是离散的并且被错误污染，这也被称为“错误分类'（例如[三，第2.2.7]节），那么如何纠正SDR方法中的错误分类仍然是未知的。最后，关于高维SDR问题，近年来有几项新的研究成果，例如纳入变量选择技术（例如[24])和双层辅助SDR方法[8]. 有兴趣将其作为参考，以进一步考虑测量误差问题或开发新的高维SDR方法。这些重要的研究课题将是我们未来的工作。

补充材料

补充数据.pdf：

单击此处查看其他数据文件。^{（203K，pdf）}

致谢

作者谨向主编、副主编和两位审稿人表示衷心的感谢，感谢他们提出宝贵的建议和有益的意见，使本文变得更好。

披露声明

提交人没有报告任何潜在的利益冲突。

工具书类

1Buckley J.和James I。，截尾数据线性回归，生物特征 66（1979年），第429-436页。[谷歌学者]

2Carroll R.J.和Li K.-C。，未知环节的测量误差回归：降维与数据可视化，美国统计协会。 87（1992年），第1040-1050页。[谷歌学者]

三。Carroll R.J.、Ruppert D.、Stefanski L.A.和Crainiceanu C.M。，非线性模型中的测量误差CRC出版社，纽约，2006年。[谷歌学者]

4陈曦、陈曦和王辉。，基于距离相关的超高维右删失数据稳健特征筛选，计算。统计师。数据分析。 119（2018），第118–138页。[谷歌学者]

5陈曦、张毅、陈曦和刘毅。，一种简单的无模型生存条件特征筛选，统计师。可能性。莱特。 146（2019年），第156-160页。[谷歌学者]

6库克R.D。，关于回归图的解释，美国统计协会。 89（1994），第177-189页。[谷歌学者]

7库克·R.D。，回归图形：通过图形研究回归的思路，威利，纽约，1998年。[谷歌学者]

8丁S.、钱伟、王力，双策略辅助高维删失数据的充分降维，安。统计师。 48（2020年），第2132-2154页。[谷歌学者]

9范杰、吕杰。，超高维特征空间的确定独立筛选，J.R.统计社会服务。B类 70（2008），第849–911页。[PMC免费文章][公共医学][谷歌学者]

10黄M.-Y.和Chan K.C.G，时间到事件数据的有效维数同时估计的充分降维，统计正弦。(2019). doi:10.5705/ss.202017.0550。[PMC免费文章][公共医学] [交叉参考][谷歌学者]

11李B。，充分降维：R的方法及应用，CRC出版社，纽约，2018年。[谷歌学者]

12李B.和王S。，关于降维的方向回归，美国统计协会。 102（2007），第997–1008页。[谷歌学者]

13李斌和殷X。，测量误差回归的替代降维：一个不变性定律，安。统计师。 35（2007），第2143–2172页。[谷歌学者]

14李克强。，用于降维的分段逆回归，美国统计协会。 86（1991年），第316-327页。[谷歌学者]

15Li K.-C、Wang J.-L和Chen C.-H。，删失回归数据的降维，安。统计师。 27（1999），第1-23页。[谷歌学者]

16李瑞、钟伟、朱莉。，基于距离相关学习的特征筛选，美国统计协会。 107（2012年），第1129–1139页。[PMC免费文章][公共医学][谷歌学者]

17陆伟、李磊。，删失回归的充分降维，生物识别 67（2011），第513–523页。[PMC免费文章][公共医学][谷歌学者]

18Lue H.-H。，测量误差回归的主Hessian方向，生物特征 91（2004），第409-423页。[谷歌学者]

19吕海华、陈春华、张伟华。，基于插补样条方法的截尾数据生存回归降维，生物。J。 53（2011），第426–443页。[公共医学][谷歌学者]

20马云、朱莉。，降维的半参数方法，美国统计协会。 107（2012），第168-179页。[PMC免费文章][公共医学][谷歌学者]

21马云、朱莉。，充分降维中的有效估计，安。统计师。 41（2013），第250–268页。[PMC免费文章][公共医学][谷歌学者]

22米勒·R.G。，生存分析，威利，纽约，1981年。[谷歌学者]

23Nadkarni N.V.、Zhao Y.和Kosorok M.R。，截尾数据的逆回归估计，美国统计协会。 106（2011），第178-190页。[PMC免费文章][公共医学][谷歌学者]

24钱伟、丁S.和库克R.D。，超高维同时变量选择充分降维的稀疏最小差分方法，美国统计协会。 114（2019），第1277-1290页。[谷歌学者]

25Roke D.M.和Durbin B。，基因表达阵列测量误差模型，J.计算。生物。 8（2001），第557-569页。[公共医学][谷歌学者]

26宋荣、陆伟、马S.和郑晓杰。，高维生存数据的删失秩独立筛选，生物计量学 101（2014），第799-814页。[PMC免费文章][公共医学][谷歌学者]

27Susarla V.、Tsai W.Y.和Ryzin J.V。，截尾数据均值的Buckley-James型估计，生物特征 71（1984），第624-625页。[谷歌学者]

28Székely G.J.、Rizzo M.L.和Bakirov N.K。，通过距离相关性测量和测试相关性，安。统计师。 35（2007年），第2769-2794页。[谷歌学者]

29Tibshirani R。，通过Lasso回归收缩和选择，J.R.统计社会服务。B类 58（1996），第267-288页。[谷歌学者]

30van de Vijver M.J.、He Y.D.、Dai H.、Hart A.A.M.、Voskuil D.W.、Schreiber G.J.、Peters J.L.、Roberts C.、Marton M.J.，Parrish M.、Atsma D.、Witteveen A.、Glas A.、Delahaye L.、van der Velde T.、Bartelink H.、Rodenhuis S.、Rutgers E.T.、Friend S.H.和Bernards R。，基因表达特征作为乳腺癌生存预测因子，北英格兰。医学杂志。 347（2002），第1999-2009页。[公共医学][谷歌学者]

31王宏、夏勇。，用于降维的分段回归，美国统计协会。 103（2008），第811-821页。[谷歌学者]

32夏勇。，一种估计降维方向的构造性方法，安。统计师。 35（2007），第2654–2690页。[谷歌学者]

33夏瑜、张丹、徐杰。，生存模型的降维与半参数估计，美国统计协会。 105（2010），第278-290页。[谷歌学者]

34严X、唐N、赵X。，超高维删失数据的Spearman秩相关筛选，（2017年）。可从arXiv:1702.02708v1获取。

35尹X和李B。，基于最小平均方差估计集合的充分降维，安。统计师。 39（2011），第3392–3416页。[谷歌学者]

36于忠、董毅、邵杰。，超高维无模型特征选择的边缘切片逆回归，安。统计师。 44（2016），第2594–2623页。[谷歌学者]

37张杰、朱莉、朱莉。，测量误差回归中的替代降维，统计正弦。 24（2014），第1341–1363页。[谷歌学者]

38朱莉、朱莉和冯姿。，基于累积切片估计的回归降维，美国统计协会。 105（2010），第1455-1466页。[谷歌学者]

39朱毅、曾鹏。，估计回归中中心子空间和中心平均子空间的Fourier方法，美国统计协会。 101（2006），第1638-1651页。[谷歌学者]

文章来自应用统计学杂志由以下人员提供泰勒和弗朗西斯

协变量中具有测量误差的删失数据的超高维充分降维

陈立邦

关联数据

摘要

1 介绍

2 符号和型号

2.1. 生存数据

2.2。测量误差模型

2.3. 距离相关法综述

三。 建议的方法

3.1. 超高维设置和特征筛选

3.1.1. 距离相关性调整

3.1.2. “校正”协变量的测定

3.2. 估算

3.3. 结构尺寸的确定d日

3.4. 理论结果

4 数值研究

4.1. 模拟设置

4.2. 仿真结果

表1。

表2。

表4。

表3。

表5。

4.3. NKI乳腺癌数据分析

5 结论

补充材料

致谢

披露声明

工具书类

三。建议的方法