我们可以使用链接到您的Project Euclid帐户的电子邮件地址帮助您重置密码。
我们考虑变量选择问题,该问题寻求从许多候选特征$X{1}、\ldots、X{p}$中找出影响响应$Y$的重要变量。我们希望这样做,同时提供关于误报选择变量$X_{j}$的分数的有限样本保证,在其他特征已知后,这些变量实际上对$Y$没有影响。当特征$p$的数量很大(可能甚至比样本大小$n$还要大),并且我们事先不知道$Y$和$X$之间的依赖类型时,尽管如此,model-X仿冒框架允许我们选择一个对错误发现率有保证约束的模型,只要特征向量$X=(X{1},\点,X{p})$的分布是准确的。该模型选择过程通过构建每个$p$特征的“仿冒副本”来操作,然后将其用作对照组,以确保模型选择算法不会选择太多不相关的特征。在这项工作中,我们研究了实际设置,其中$X$的分布只能估计,而不能准确地知道,因此$X_{j}$的仿冒副本的构造有些不正确。我们的结果没有任何建模假设,表明所得到的模型选择过程导致了错误发现率的膨胀,该错误发现率与我们在估计每个特征$X_{j}$的分布时的错误成正比,这些错误是以其余特征$\{X_{k}:k\neqj}$为条件的。因此,模型X仿冒框架对$X$分布的潜在假设中的错误具有鲁棒性,这使得它成为许多实际应用的有效方法,例如全基因组关联研究,其中特征$X{1}、\dots、X{p}$的潜在分布是准确估计的,但并不准确。
Rina Foygel理发师。 伊曼纽尔·坎迪斯。 理查德·桑沃思(Richard J.Samworth)。 “带有仿冒品的稳健推理。” 安。统计师。 48 (3) 1409 - 1431, 2020年6月。 https://doi.org/10.1214/19-AOS1852