<trans data-src="Doubly Robust Tests of Exposure Effects under High-Dimensional Confounding">高维混淆下暴露效应的双稳健检验

基于1000次重复，5%显著性水平的I类错误：

正确的型号
方法
方法
标准天真（强制）	0.548	0.809	0.291	0.600
标准天真（非强制）	0.275	0.555	0.168	0.316
PDS（预先指定）	0.517	0.761	0.536	0.498
采购订单（预先指定）	0.508	0.748	0.519	0.482
PDS（CV）	0.074	0.074	0.068	0.072
PMLE-DR公司	0.055	0.054	0.070	0.075
巴西存托凭证	0.053	0.069	0.078	0.073

正确的型号
方法
方法
标准天真（强制）	0.548	0.809	0.291	0.600
标准天真（非强制）	0.275	0.555	0.168	0.316
PDS（预先指定）	0.517	0.761	0.536	0.498
采购订单（预先指定）	0.508	0.748	0.519	0.482
偏微分方程	0.074	0.074	0.068	0.072
PMLE-DR公司	0.055	0.054	0.070	0.075
巴西存托凭证	0.053	0.069	0.078	0.073

结果模型不正确
方法
方法
标准天真（强制）	0.368	0.586	0.210	0.425
标准天真（非强制）	0.175	0.313	0.115	0.197
PDS（预先指定）	0.319	0.634	0.345	0.327
采购订单（预先指定）	0.317	0.615	0.345	0.309
PDS（CV）	0.073	0.072	0.060	0.070
PMLE-DR公司	0.056	0.053	0.070	0.059
巴西存托凭证	0.046	0.059	0.081	0.050

结果模型不正确
方法
方法
标准天真（被迫）	0.368	0.586	0.210	0.425
标准天真（非强制）	0.175	0.313	0.115	0.197
PDS（预先指定）	0.319	0.634	0.345	0.327
采购订单（预先指定）	0.317	0.615	0.345	0.309
偏微分方程	0.073	0.072	0.060	0.070
PMLE-DR公司	0.056	0.053	0.070	0.059
巴西存托凭证	0.046	0.059	0.081	0.050

表1

基于1000次重复，5%显著性水平的I类错误：

正确的型号
方法
方法
标准天真（强制）	0.548	0.809	0.291	0.600
标准天真（非强制）	0.275	0.555	0.168	0.316
PDS（预先指定）	0.517	0.761	0.536	0.498
采购订单（预先指定）	0.508	0.748	0.519	0.482
PDS（CV）	0.074	0.074	0.068	0.072
PMLE-DR公司	0.055	0.054	0.070	0.075
巴西存托凭证	0.053	0.069	0.078	0.073

正确的型号
方法
方法
标准天真（被迫）	0.548	0.809	0.291	0.600
标准天真（非强制）	0.275	0.555	0.168	0.316
PDS（预先指定）	0.517	0.761	0.536	0.498
采购订单（预先指定）	0.508	0.748	0.519	0.482
偏微分方程	0.074	0.074	0.068	0.072
PMLE-DR公司	0.055	0.054	0.070	0.075
巴西存托凭证	0.053	0.069	0.078	0.073

结果模型不正确
方法
方法
标准天真（强制）	0.368	0.586	0.210	0.425
标准天真（非强制）	0.175	0.313	0.115	0.197
PDS（预先指定）	0.319	0.634	0.345	0.327
采购订单（预先指定）	0.317	0.615	0.345	0.309
PDS（CV）	0.073	0.072	0.060	0.070
PMLE-DR公司	0.056	0.053	0.070	0.059
巴西存托凭证	0.046	0.059	0.081	0.050

结果模型不正确
方法
方法
标准天真（强制）	0.368	0.586	0.210	0.425
标准天真（非强迫）	0.175	0.313	0.115	0.197
PDS（预先指定）	0.319	0.634	0.345	0.327
采购订单（预先指定）	0.317	0.615	0.345	0.309
偏微分方程	0.073	0.072	0.060	0.070
PMLE-DR公司	0.056	0.053	0.070	0.059
巴西存托凭证	0.046	0.059	0.081	0.050

表2

基于1000次重复，5%显著性水平的I类错误：

正确的型号
方法
方法
标准天真（强制）	0.448	0.387	0.190	0.522
标准天真（非强制）	0.178	0.164	0.100	0.193
PDS（预先指定）	0.143	0.064	0.103	0.131
采购订单（预先指定）	0.115	0.064	0.085	0.108
PDS（CV）	0.066	0.055	0.059	0.075
PMLE-DR公司	0.057	0.063	0.063	0.047
巴西存托凭证	0.043	0.049	0.051	0.046

正确的型号
方法
方法
标准天真（强制）	0.448	0.387	0.190	0.522
标准天真（非强制）	0.178	0.164	0.100	0.193
PDS（预先指定）	0.143	0.064	0.103	0.131
采购订单（预先指定）	0.115	0.064	0.085	0.108
PDS（CV）	0.066	0.055	0.059	0.075
PMLE-DR公司	0.057	0.063	0.063	0.047
巴西存托凭证	0.043	0.049	0.051	0.046

结果模型不正确
方法
方法
标准天真（被迫）	0.312	0.277	0.144	0.363
标准天真（非强制）	0.139	0.113	0.070	0.140
PDS（预先指定）	0.094	0.057	0.079	0.091
采购订单（预先指定）	0.077	0.050	0.060	0.077
PDS（CV）	0.071	0.061	0.057	0.073
PMLE-DR公司	0.063	0.057	0.060	0.056
巴西存托凭证	0.030	0.051	0.044	0.041

结果模型不正确
方法
方法
标准天真（强制）	0.312	0.277	0.144	0.363
标准天真（非强制）	0.139	0.113	0.070	0.140
PDS（预先指定）	0.094	0.057	0.079	0.091
采购订单（预先指定）	0.077	0.050	0.060	0.077
偏微分方程	0.071	0.061	0.057	0.073
PMLE-DR公司	0.063	0.057	0.060	0.056
巴西存托凭证	0.030	0.051	0.044	0.041

表2

基于1000次重复，5%显著性水平的I类错误：

正确的型号
方法
方法
标准天真（强制）	0.448	0.387	0.190	0.522
标准天真（非强制）	0.178	0.164	0.100	0.193
PDS（预先指定）	0.143	0.064	0.103	0.131
采购订单（预先指定）	0.115	0.064	0.085	0.108
PDS（CV）	0.066	0.055	0.059	0.075
PMLE-DR公司	0.057	0.063	0.063	0.047
巴西存托凭证	0.043	0.049	0.051	0.046

正确的型号
方法
方法
标准天真（强制）	0.448	0.387	0.190	0.522
标准天真（非强制）	0.178	0.164	0.100	0.193
PDS（预先指定）	0.143	0.064	0.103	0.131
采购订单（预先指定）	0.115	0.064	0.085	0.108
PDS（CV）	0.066	0.055	0.059	0.075
PMLE-DR公司	0.057	0.063	0.063	0.047
巴西存托凭证	0.043	0.049	0.051	0.046

结果模型不正确
方法
方法
标准天真（被迫）	0.312	0.277	0.144	0.363
标准天真（非强制）	0.139	0.113	0.070	0.140
PDS（预先指定）	0.094	0.057	0.079	0.091
采购订单（预先指定）	0.077	0.050	0.060	0.077
PDS（CV）	0.071	0.061	0.057	0.073
PMLE-DR公司	0.063	0.057	0.060	0.056
巴西存托凭证	0.030	0.051	0.044	0.041

结果模型不正确
方法
方法
标准天真（强制）	0.312	0.277	0.144	0.363
标准天真（非强制）	0.139	0.113	0.070	0.140
PDS（预先指定）	0.094	0.057	0.079	0.091
采购订单（预先指定）	0.077	0.050	0.060	0.077
PDS（CV）	0.071	0.061	0.057	0.073
PMLE-DR公司	0.063	0.057	0.060	0.056
巴西存托凭证	0.030	0.051	0.044	0.041

7数据分析

危重病人的血糖控制仍然是有争议的话题，就血糖水平保持最佳的最佳限度而言。在Leuven II随机试验中(范登贝尔赫等., 2001)严格的血糖控制（将血糖维持在80至110毫克每分升（mg/dL）之间）可降低死亡率。后来的多中心研究无法复制这些发现，包括NICE-SUGAR试验(芬菲尔等., 2009). 目前的指南通常建议将血糖控制在140到180 mg/dL之间。根特大学ICU（UZ Ghent ICU）采用血糖方案，目标值为80至150 mg/dL。在实践中，患者的血糖经常超出这一范围，部分原因是缺乏遵循方案的依从性。我们利用UZ Ghent ICU对一组具有代表性的重症监护患者的常规收集数据，研究血糖控制与30天死亡率之间的关系。具体而言，我们的目的是检验在ICU入住后30天内死亡随访的任何一天血糖水平（从<110到≥110 mg/dL，然后从⩽150到>150 mg/dL）变化无影响的无效假设。我们将分析范围限定为在ICU中存活至少48小时的患者，从而排除了到达ICU后立即死亡的患者。

数据来自UZ Ghent ICU的电子患者数据管理系统。潜在的混杂因素被分为入院时评估的变量和随时间收集数据的变量。对于重复测量的协变量，对于连续协变量，我们取在ICU考虑的随访日前48小时内测量的平均值，对于分类协变量，取最大值。血糖测量通常每天记录多次；所以为了创造曝光，我们在一天的前6个小时内取了测量值的平均值。在这个例子中，所有缺少暴露、结果或混杂因素数据的患者都被从数据集中删除。为了进行我们的测试，我们每天假设（在仍活着的个体中）血糖水平≥110 mg/dL（或>150 mg/dL）的概率为逻辑回归模型，以及入院后30天内死亡的逻辑模型。为了避免与时变混淆相关的问题，例如罗宾斯（1997）在每个回归模型中，我们仅对某一天血糖测量之前收集的协变量数据以及之前的暴露进行了调整。然后，我们使用了一个修订版的测试，用于第5.1.2节（使用Web附录C中描述的算法1实现），允许暴露或结果模型中的潜在错误指定。鉴于数据由每个人的多个观察结果组成t吨表示特定的一天，我们替换了具有在统计中（用于⁠). 在我们的建模中，我们包括了临床专家选择的所有混杂因素，以及连续变量的二次项和主要效应之间的所有双向交互作用。

我们获得了12105名患者进入ICU的数据；仅限于第3天仍存活的患者后，仍有10885人存活。进一步删除2013年之前进入的患者，剩下4682人，删除缺失数据后的最终数据集为4120人。考虑到患者接受了多天的评估，数据集中有24 863个观察结果；贡献观测值的中位数为3（最小值为1，最大值为28）。在最后一个队列中，768人（18.6%）在进入ICU后30天内死于医院。考虑到第3天前6小时内患者的平均血糖值，所有患者的平均值为131.6（最小值：45，最大值：492）。请注意，927（23.3%）名患者在第3天的平均血糖水平<110 mg/dL，2208（55.5%）名患者的血糖水平≥110 mg/dL~150 mg/dL和841（21.2%）名患者血糖水平>150 mg/dL。在产生相互作用后，分析中有148个协变量需要调整。观察每天从<110到≥110 mg/dL的变化，测试统计为−1.42，带有P（P）-值为.156，而从⩽150变化到>150 mg/dL，得到的测试统计数据为6.98(⁠⁠.001）。因此，在5%的水平上，我们看到了30天死亡率差异的证据，这是基于给定一天血糖水平从中度（150 mg/dL）到高（>150 mg/dL.）的变化。另一方面，在比较低血糖水平（<110 mg/dL）和高血糖水平（≥110 mg/dL）的患者时，我们没有观察到5%水平的统计学差异。

8讨论

我们提出了一个在高维环境中构造GLM参数一致有效测试的通用框架。我们希望能够澄清为什么局部双稳健方法（在本例中，在null下是双稳健方法）在文献中具有特权地位(Farrell，2015年); 如果所有的工作模型都是正确的，那么可以通过插入任何收敛速度足够快的冗余参数稀疏估计器来获得一致有效的检验。如果其中一个工作模型指定错误，那么只要对干扰参数使用特定的估计程序，仍然可以获得一致有效的推断。我们还指出了为什么分数测试在高维环境中可能更可取，因为结果模型可以在零假设下进行拟合，从而削弱稀疏性条件。

在未来的工作中，我们将把我们的程序扩展到回归参数的估计和置信区间的构造。考虑模型由限制定义

哪里是已知的链接函数。比分表示ψ的估计量，即A类在Y（Y）.让什么时候克（）是身份链接什么时候克（）是日志链接；那么ψ的估计可以基于函数

(10)

(罗宾斯等., 1992). ψ的估计基于(10)在模型下一致⁠.构建一致有效置信区间的目标可能需要修改第节中给出的条件4.2和5.2，因为我们不再在null下工作。对于哪些设置可以构造双稳健估计量，这仍然是一个悬而未决的问题。例如，目前不存在Cox比例风险模型或概率模型的双重稳健估计。在实践中，构造局部双稳健的估计量和置信区间可能更为可行，例如，在零条件下，并且在这种情况下具有本文所述测试的特性。

当ψ为多元时，方程(5)和(6)提供比未知干扰参数更多的估算方程。为了确保标准误差有效，还需要确保ψ的每个分量的估计函数与其余分量的估计功能正交。这样的发展不仅有利于测试和估计交互作用项，而且有利于在含有介质和/或时间依赖性混杂因素的高维数据中获得一致有效的推断。事实上，上述估值器是g-估计量(罗宾斯等., 1992)，为配合而开发结构嵌套模型在复杂的纵向研究中。由于事实证明，为结果正确指定序列回归模型基本上是不可能的，因此现有的高维推断建议不太可能用于测试任何治疗都没有因果效应的假设政体在Y（Y）也就是说g-null假设(罗宾斯，1997). 相反，尽管我们对结果和风险模型进行了选择（为了将相关梯度设置为零）第5节为了获得g-null的有效测试，只需要正确指定后者。

致谢

奥利弗·杜克斯（Oliver Dukes）获得了法兰德斯研究基金会（FWO）战略基础研究博士学位1S05916N的资助。Vahe Avagyan和Stijn Vansteelandt得到了FWO研究项目G016116N和特别研究基金（BOF）研究项目BOF.244.2017.0004.01的支持。作者感谢Johan Decruyenaere教授和Kirsten Colpaert教授允许使用根特大学重症监护室数据集，并感谢Bram Gadeyne和Martijn Busselen协助管理数据。

工具书类

阿瓦吉安

,

五、。

和

Vansteelandt公司

,

美国。

(

2017

)

基于惩罚偏差减少双稳健估计的模型错误指定下平均治疗效果的诚实数据自适应推断

预打印，

2017

,

arXiv公司：1708.03787

.

贝略尼

,

答：。

,

切尔诺茹科夫

,

五、。

和

汉森

,

C、。

(

2014

)

在高维对照中进行选择后对治疗效果的推断

.

经济研究综述

,

81

(

2

),

608

–

650

.

贝略尼

,

答：。

,

切尔诺茹科夫

,

五、。

和

世界环境学会

,

年。

(

2016

)

多控制广义线性模型的选择后推理

.

商业与经济统计杂志

,

34

(

4

),

606

–

619

.

切尔诺茹科夫

,

五、。

,

切特韦里科夫

,

D。

,

德米雷尔

,

M。

,

迪弗洛

,

E.公司。

,

汉森

,

C、。

,

纽伊

,

西。

和

罗宾斯

,

J。

(

2018

)

治疗和结构参数的双/脱苦机器学习

.

计量经济学杂志

,

21

(

1

),

C1类

–

第68页

.

切尔诺茹科夫

,

五、。

,

汉森

,

C、。

和

纺纱机

,

M。

(

2016

)

hdm：高维度量

.

R杂志

,

8

(

2

),

185

–

199

.

.https://doi.org/10.1177/0962280219862005

切特韦里科夫

,

D。

,

廖

,

Z.公司。

和

切尔诺茹科夫

,

五、。

(

2016

)

关于交叉验证的拉索

.预打印，

2016

,

arXiv:1605.02214

.

公爵

,

O。

和

Vansteelandt公司

,

美国。

(

2019

)

如何在倾向得分变量选择后获得有效测试和置信区间？

医学研究中的统计学方法

OpenURL占位符文本

法雷尔

,

英里/小时。

(

2015

)

使用可能比观察值更多的协变量对平均治疗效果进行稳健推断

.

计量经济学杂志

,

189

(

1

),

1

–

23

.

芬菲尔

,

美国。

,

奇托克

,

D.R.公司。

,

苏

,

S.Y.-S.公司。

,

布莱尔

,

D。

和

培养

,

D。

(

2009

)

重症患者强化与常规血糖控制

.

新英格兰医学杂志

,

360

(

13

),

1283

–

1297

.

范德格尔

,

美国。

,

布尔曼

,

第页。

,

里托夫

,

年。

和

Dezeure公司

,

R。

(

2014

)

高维模型的渐近最优置信域及其检验

.

统计年鉴

,

42

(

三

),

1166

–

1202

.

范德拉恩

,

医学博士。

和

玫瑰色

,

美国。

(

2011

)

有针对性的学习

.

纽约州纽约市

:

施普林格

.

里布

,

H。

和

普契尔

,

B.M.公司。

(

2005

)

模型选择与推理：事实与虚构

.

计量经济学理论

,

21

(

1

),

21

–

59

.

宁

,

年。

和

线路接口单元

,

H。

(

2017

)

稀疏高维模型的假设检验和置信域的一般理论

.

统计年鉴

,

45

(

1

),

158

–

195

.

罗宾斯

,

J.M.公司。

(

1997

)复杂纵向数据的因果推断。在：

贝尔坎

,

M。

（编辑），

潜在变量建模及其在因果关系中的应用

.

纽约州纽约市

:

施普林格

，第页。

69

–

117

.

罗宾斯

,

J.M.公司。

,

作记号

,

S.D.公司。

和

纽伊

,

W.K.公司。

(

1992

)

通过在混杂因素上模拟暴露条件的期望来估计暴露影响

.

生物计量学

,

48

(

2

),

479

–

495

.

罗宾逊

,

下午

(

1988

)

根N一致半参数回归

.

计量经济学

,

56

(

4

),

931

–

954

.

沙阿

,

钢筋混凝土。

和

彼得斯

,

J。

(

2019

)

条件独立性检验的困难与广义协方差测度

.

统计年鉴

.

预印本，2018，arXiv:1804.07203

.

OpenURL占位符文本

棕褐色

,

Z.公司。

(

2019

)

利用高维数据正则化校正估计进行治疗效果的模型辅助推断

.

统计年刊

预印本，2018，arXiv:1801.09817

.

OpenURL占位符文本

提比什拉尼

,

R。

(

1996

)

通过Lasso回归收缩和选择

.

英国皇家统计学会期刊。B系列（方法学）

,

58

(

1

),

267

–

288

.

范登贝尔赫

,

G.公司。

,

武泰

,

第页。

,

周末

,

F、。

,

Verwaest公司

,

C、。

,

Bruyninckx公司

,

F、。

,

Schetz公司

,

M。

,

弗拉塞拉尔斯

,

D。

,

费迪南德

,

第页。

,

劳尔斯

,

第页。

和

布伊隆

,

R。

(

2001

)

危重病人的强化胰岛素治疗

.

新英格兰医学杂志

,

345

(

19

),

1359

–

1367

.

弗默伦

,

英国。

和

Vansteelandt公司

,

美国。

(

2015

)

偏减双稳健估计

.

美国统计协会杂志

,

110

(

511

),

1024

–

1036

.

张

,

中心-中心。

和

张

,

S.S.公司。

(

2014

)

高维线性模型中低维参数的置信区间

.

英国皇家统计学会杂志：B辑（统计方法）

,

76

(

1

),

217

–

242

.