开放式访问
2020年6月 带有冒牌货的稳健推理
Rina Foygel理发师,伊曼纽尔·坎迪斯,理查德·桑沃思
安。统计师。 48(3): 1409-1431 (2020年6月)。 DOI:10.1214/19-AOS1852

摘要

我们考虑变量选择问题,该问题寻求从许多候选特征$X{1}、\ldots、X{p}$中找出影响响应$Y$的重要变量。我们希望这样做,同时提供关于误报选择变量$X_{j}$的分数的有限样本保证,在其他特征已知后,这些变量实际上对$Y$没有影响。当特征$p$的数量很大(可能甚至比样本大小$n$还要大),并且我们事先不知道$Y$和$X$之间的依赖类型时,尽管如此,model-X仿冒框架允许我们选择一个对错误发现率有保证约束的模型,只要特征向量$X=(X{1},\点,X{p})$的分布是准确的。该模型选择过程通过构建每个$p$特征的“仿冒副本”来操作,然后将其用作对照组,以确保模型选择算法不会选择太多不相关的特征。在这项工作中,我们研究了实际设置,其中$X$的分布只能估计,而不能准确地知道,因此$X_{j}$的仿冒副本的构造有些不正确。我们的结果没有任何建模假设,表明所得到的模型选择过程导致了错误发现率的膨胀,该错误发现率与我们在估计每个特征$X_{j}$的分布时的错误成正比,这些错误是以其余特征$\{X_{k}:k\neqj}$为条件的。因此,模型X仿冒框架对$X$分布的潜在假设中的错误具有鲁棒性,这使得它成为许多实际应用的有效方法,例如全基因组关联研究,其中特征$X{1}、\dots、X{p}$的潜在分布是准确估计的,但并不准确。

引用

下载引文

Rina Foygel理发师。 伊曼纽尔·坎迪斯。 理查德·桑沃思(Richard J.Samworth)。 “带有仿冒品的稳健推理。” 安。统计师。 48 (3) 1409 - 1431, 2020年6月。 https://doi.org/10.1214/19-AOS1852

问询处

收到日期:2018年1月1日;修订日期:2019年2月1日;发布日期:2020年6月
欧几里德项目首次提供:2020年7月17日

zbMATH公司:07241596
数学科学网:MR4124328
数字对象标识符:10.1214/19-AOS1852

受试者:
主要用户:62F03型,62层35,62G10型,62G35型

关键词:错误发现率,高维回归,敲除,稳健性,变量选择

版权所有©2020数学统计研究所

第48卷•第3期•2020年6月
返回页首