Optimal discriminant analysis in high-dimensional latent factor models

Xin Bing; Marten Wegkamp

doi:10.1214/23-AOS2289

摘要

在高维分类问题中，一种常用的方法是首先将高维特征投影到低维空间中，然后根据得到的低维投影进行分类。在本文中，我们建立了一个具有隐藏低维结构的潜在变量模型，以证明这两步程序的合理性，并指导选择哪种投影。我们提出了一种计算效率高的分类器，它将观察到的特征的某些主成分（PC）作为投影，并以数据驱动的方式选择保留的PC数量。本文建立了一种基于任何投影的两步分类器分析的通用理论。我们推导了所提出的基于PC的分类器的超额风险的显式收敛速度。进一步证明了获得的速率在极大极小意义下达到对数因子时是最优的。我们的理论允许较低的维度随样本大小而增长，并且即使特征维度（大大）超过样本大小也有效。大量模拟证实了我们的理论发现。在三个实际数据示例上，与现有的其他判别方法相比，该方法也表现出良好的性能。

资金筹措表

Wegkamp部分得到了国家科学基金会资助DMS 2015195和DMS 2210557。Bing的部分资助来自加拿大自然科学与工程研究委员会的发现拨款。

致谢

作者感谢主编、副主编和两位审稿人的仔细阅读和非常有建设性的建议。

引用

下载引文

辛兵。马丁·维坎普（Marten Wegkamp）。 “高维潜在因素模型中的最佳判别分析。” 安。统计师。 51 （3） 1232 - 1257, 2023年6月。 https://doi.org/10.1214/23-AOS2289

信息

收到日期：2022年8月1日;修订日期：2023年3月1日;发布日期：2023年6月

欧几里德项目首次推出：2023年8月20日

数学科学网：4630947令吉

zbMATH公司：07732746

数字对象标识符：10.1214/23-AOS2289

学科：

主要用户：62甲12，62J07型

关键词：尺寸缩减，判别分析，高维分类，潜在因素模型，最佳收敛速度，主成分回归

摘要

资金筹措表

致谢

引用

信息

关键词/短语

出版物标题：

出版年份