摘要
逻辑回归模型是一种简单而经典的二进制分类方法,在稀疏的高维环境中,人们认为只有一小部分预测变量与具有非零回归系数的响应变量相关。我们将重点放在正则化logistic回归模型上,该分析对一大组正则化子有效,包括折叠正则化子,如MCP和SCAD。对于有限样本,通过假发现率和真阳性率评估估计系数和真非零系数之间的差异。我们证明了伪发现率可以用一个非线性幂折衷函数来描述,该函数是渐近地使用一个六参数方程组。对于未知参数,分析以“平均高于分量”的方式进行,并遵循相关领域文献的传统假设。更具体地说,我们假设一个线性增长率不仅涵盖了典型的高维设置也适用于此外,我们提出了该折衷函数的两个应用,以提高变量选择的再现性:(1)使用折衷在预先指定的错误发现率水平下实现一定幂的样本量计算过程;(2) 考虑功率的变量选择错误发现率的校准。对模型X敲除进行了类似的渐近分析,该分析提供了一个具有受控错误发现率的选择,以说明如何通过比较权衡曲线来比较两种选择方法。我们使用模拟数据和实际数据来说明权衡分析及其相应的应用。
资金筹措表
这项工作得到了佛兰德斯研究基金会博士后奖学金和鲁汶大学内部基金C16/20/002的支持。这项工作中使用的资源和服务由佛兰德斯超级计算机中心(VSC)提供,该中心由佛兰德研究基金会(FWO)和佛兰德斯政府资助。
致谢
作者感谢编辑、副编辑和审稿人的有用评论,这些评论帮助改进了论文。
披露
提交人没有报告任何潜在的利益冲突。
引用
下载引文
荆州。
格尔达·克莱斯肯斯(Gerda Claeskens)。
“稀疏高维logistic回归在错误发现和真正比例之间进行权衡。”
电子。J.统计。
18
(1)
395 - 428,
2024
https://doi.org/10.1214/23-EJS2204
问询处
接收日期:2022年10月1日;发布日期:2024年
欧几里德项目首次推出:2024年2月6日
数字对象标识符:10.1214/23-EJS2204
学科:
主要用户:62J12型
次要:62F99型
关键词:错误发现率,FDR控制,高维数据,仿冒品,逻辑回归,稀疏度