Robust inference with knockoffs

Rina Foygel Barber; Emmanuel J. Candès; Richard J. Samworth

doi:10.1214/19-AOS1852

2020年6月带有冒牌货的稳健推理

Rina Foygel理发师,伊曼纽尔·坎迪斯,理查德·桑沃思

安。统计师。 48(3): 1409-1431 （2020年6月）。 DOI:10.1214/19-AOS1852

摘要

我们考虑变量选择问题，该问题寻求从许多候选特征$X{1}、\ldots、X{p}$中找出影响响应$Y$的重要变量。我们希望这样做，同时提供关于误报选择变量$X_{j}$的分数的有限样本保证，在其他特征已知后，这些变量实际上对$Y$没有影响。当特征$p$的数量很大（可能甚至比样本大小$n$还要大），并且我们事先不知道$Y$和$X$之间的依赖类型时，尽管如此，model-X仿冒框架允许我们选择一个对错误发现率有保证约束的模型，只要特征向量$X=（X{1}，\点，X{p}）$的分布是准确的。该模型选择过程通过构建每个$p$特征的“仿冒副本”来操作，然后将其用作对照组，以确保模型选择算法不会选择太多不相关的特征。在这项工作中，我们研究了实际设置，其中$X$的分布只能估计，而不能准确地知道，因此$X_{j}$的仿冒副本的构造有些不正确。我们的结果没有任何建模假设，表明所得到的模型选择过程导致了错误发现率的膨胀，该错误发现率与我们在估计每个特征$X_{j}$的分布时的错误成正比，这些错误是以其余特征$\{X_{k}:k\neqj}$为条件的。因此，模型X仿冒框架对$X$分布的潜在假设中的错误具有鲁棒性，这使得它成为许多实际应用的有效方法，例如全基因组关联研究，其中特征$X{1}、\dots、X{p}$的潜在分布是准确估计的，但并不准确。