协变量中具有测量误差的删失数据的超高维充分降维
关联数据
摘要
1 介绍
2 符号和型号
2.1. 生存数据
2.2。 测量误差模型
案例A: 可重复测量时。 由于我们重复测量,因此测量误差模型( 三 )成为 对于 和 第页 = 1、2,其中 代表 第页 第次重复测量 , 并且独立于 很容易看出 可以通过以下方式进行估算 哪里 . 案例B: 验证数据可用时。 假设 主要研究的主题集包含 n个 主题和 外部验证研究的主题集是否包含 米 受试者。 假设 和 不要重叠。 因此,可用数据包含测量值 从主要研究和 来自验证样本。 因此,对于测量误差模型,我们有 对于 ,其中 和独立于 . 自 然后 可以通过以下方式进行估算 哪里 和 、和 .
三。 建议的方法
3.1. 超高维设置和特征筛选
3.1.1. 距离相关性调整
3.1.2. “校正”协变量的测定
场景一: 已知。 在这种情况下, 是已知矩阵。因此我们可以直接应用( 17 ). 场景二: 未知,可重复测量。 假设 对于 和 第页 = 1,2是外部数据 米 < n个 ,活动集下具有重复测量的测量误差模型为 对于 和 第页 = 1、2,其中 、和 (18) 具有 和 因此, 可以通过以下方式进行估算 (19) 哪里 和 是的经验估计值 和 分别是。 场景三: 未知,验证数据可用。 如果验证数据可用,那么对于大小的附加信息 米 ( 米 < n个 )在活动集下,我们有 因此 可以通过以下方式进行估算 (20) 哪里 和 具有 和 .
3.2. 估算
3.4. 理论结果
如果 已知 ; 如果 未知。
4 数值研究
4.1. 模拟设置
M1中: ; M2: ; 立方米: .
场景1 :验证数据 对于 具有 , 和 再次从生成 和 分别为和 由生成 对于 . 场景2 :重复测量 对于 具有 和 第页 = 1, 2, 和 再次从生成 和 分别为和 由生成 对于 和 第页 = 1, 2.
4.2. 仿真结果
表1。
表2。
表4。