摘要
主成分分析(PCA)是统计学和机器学习中的一种强大工具。虽然现有的主成分分析研究侧重于主成分及其相关特征值的恢复,但很少有对单个主成分得分进行精确表征,从而产生低维嵌入样本。这妨碍了各种光谱方法的分析。在本文中,我们首先开发了一个Hilbert空间中空心PCA的扰动理论,在异方差噪声的存在下,该理论改进了vanilla PCA。通过一本小说通过对特征向量的分析,我们研究了主成分得分向量的入口行为,并表明它们可以用Gram矩阵的线性泛函来近似规范,包括和作为特殊情况。对于亚高斯混合模型对给出最佳边界取决于信噪比,这进一步保证了频谱聚类的最佳性。对于上下文社区检测理论上,简单的谱算法可以实现精确恢复的信息阈值和最佳误分类率。
致谢
E.Abbe获得了美国国家科学基金会职业奖CCF-1552131的支持。
J.Fan得到了ONR拨款N00014-19-2120和NSF拨款DMS-2052926、DMS-1712591和DMS-2053832的支持。
王凯(K.Wang)在普林斯顿大学(Princeton University)读书时,得到了哥伦比亚大学(Columbia University,Columbian University和NIH Grant 2R01-GM072611-15)的创业基金的支持。
引用
下载引文
艾曼纽尔·阿贝。
范建清。
王开正。
“安主成分分析和光谱聚类理论。”
安。统计师。
50
(4)
2359 - 2385,
2022年8月。
https://doi.org/10.1214/22-AOS2196
问询处
收到日期:2021年7月1日;修订日期:2022年4月1日;发布日期:2022年8月
欧几里德项目首次提供:2022年8月25日
数字对象标识符:10.1214/22-AOS2196
学科:
主要用户:62H25个
次要:60对20,62H30型
关键词:社区检测,上下文网络模型,特征向量摄动,混合物模型,相变化,主成分分析,光谱聚类
版权所有©2022数学统计研究所