A tradeoff between false discovery and true positive proportions for sparse high-dimensional logistic regression

Jing Zhou; Gerda Claeskens

doi:10.1214/23-EJS2204

2024 稀疏高维logistic回归中假发现与真正比例的权衡

荆州,格尔达·克莱斯肯斯

作者关联+

电子。J.统计。 18(1): 395-428 (2024). 内政部：10.1214/23-EJS2204

摘要

逻辑回归模型是一种简单而经典的二进制分类方法，在稀疏的高维环境中，人们认为只有一小部分预测变量与具有非零回归系数的响应变量相关。我们将重点放在正则化logistic回归模型上，该分析对一大组正则化子有效，包括折叠正则化子，如MCP和SCAD。对于有限样本，通过假发现率和真阳性率评估估计系数和真非零系数之间的差异。我们证明了伪发现率可以用一个非线性幂折衷函数来描述，该函数是渐近地使用一个六参数方程组。对于未知参数，分析以“平均高于分量”的方式进行，并遵循相关领域文献的传统假设。更具体地说，我们假设一个线性增长率 $n个 ∕ 第页 \to δ > 0$ 不仅涵盖了典型的高维设置 $第页 \geq n个$ 也适用于 $n个 > 第页$ 此外，我们提出了该折衷函数的两个应用，以提高变量选择的再现性：（1）使用折衷在预先指定的错误发现率水平下实现一定幂的样本量计算过程；（2）考虑功率的变量选择错误发现率的校准。对模型X敲除进行了类似的渐近分析，该分析提供了一个具有受控错误发现率的选择，以说明如何通过比较权衡曲线来比较两种选择方法。我们使用模拟数据和实际数据来说明权衡分析及其相应的应用。