An ℓp theory of PCA and spectral clustering

Emmanuel Abbe; Jianqing Fan; Kaizheng Wang

doi:10.1214/22-AOS2196

摘要

主成分分析（PCA）是统计学和机器学习中的一种强大工具。虽然现有的主成分分析研究侧重于主成分及其相关特征值的恢复，但很少有对单个主成分得分进行精确表征，从而产生低维嵌入样本。这妨碍了各种光谱方法的分析。在本文中，我们首先开发了一个 ${\ell _{p}}$ Hilbert空间中空心PCA的扰动理论，在异方差噪声的存在下，该理论改进了vanilla PCA。通过一本小说 ${\ell _{p}}$ 通过对特征向量的分析，我们研究了主成分得分向量的入口行为，并表明它们可以用Gram矩阵的线性泛函来近似 ${\ell _{p}}$ 规范，包括 ${\ell _{2}}$ 和 ${\ell _{\infty }}$ 作为特殊情况。对于亚高斯混合模型对给出最佳边界取决于信噪比，这进一步保证了频谱聚类的最佳性。对于上下文社区检测 ${\ell _{p}}$ 理论上，简单的谱算法可以实现精确恢复的信息阈值和最佳误分类率。

致谢

E.Abbe获得了美国国家科学基金会职业奖CCF-1552131的支持。

J.Fan得到了ONR拨款N00014-19-2120和NSF拨款DMS-2052926、DMS-1712591和DMS-2053832的支持。

王凯（K.Wang）在普林斯顿大学（Princeton University）读书时，得到了哥伦比亚大学（Columbia University，Columbian University和NIH Grant 2R01-GM072611-15）的创业基金的支持。

引用

下载引文

艾曼纽尔·阿贝。范建清。王开正。 “安 ${\ell _{p}}$ 主成分分析和光谱聚类理论。” 安。统计师。 50 (4) 2359 - 2385, 2022年8月。 https://doi.org/10.1214/22-AOS2196

问询处

收到日期：2021年7月1日;修订日期：2022年4月1日;发布日期：2022年8月

欧几里德项目首次提供：2022年8月25日

数学科学网：MR4474494号

zbMATH公司：07610774

数字对象标识符：10.1214/22-AOS2196

学科：

主要用户：62H25个

次要：60对20,62H30型

关键词：社区检测,上下文网络模型,特征向量摄动,混合物模型,相变化,主成分分析,光谱聚类

摘要

致谢

引用

问询处

关键词/短语

出版物标题：

出版年份