摘要
我们提出了一种核谱嵌入算法,用于从噪声和高维观测值中学习低维非线性结构,其中假设数据集是从非线性流形模型中采样的,并且受到高维噪声的破坏。该算法采用了一种自适应带宽选择过程,不依赖于底层流形的先验知识。获得的低维嵌入可以进一步用于数据可视化、聚类和预测等下游目的。我们的方法在理论上是合理的,在实践中也是可以解释的。具体地说,对于一类一般的核函数,当维数随大小多项式增长时,我们建立了最终嵌入到无噪声对应项的收敛性,并刻画了信噪比对收敛速度和相变的影响。我们还证明了嵌入到一个积分算子的特征函数的收敛性,该积分算子是由捕获潜在非线性结构的再生核Hilbert空间的核映射定义的。即使流形的维数随样本大小而增长,我们的结果仍然成立。实际数据集的数值模拟和分析表明,与许多现有方法相比,该方法在学习各种应用中的各种非线性流形方面具有优越的经验性能。
致谢
作者感谢主编、副主编和两位匿名审稿人的建议和评论,这些建议和评论使手稿得到了显著改进。
引用
下载引文
丁秀才。
马荣。
“从高维噪声数据中学习低维非线性结构:积分算子方法。”
安。统计师。
51
(4)
1744 - 1769,
2023年8月。
https://doi.org/10.1214/23-AOS2306
问询处
收到日期:2022年9月1日;修订日期:2023年3月1日;发布日期:2023年8月
欧几里德项目首次推出:2023年10月19日
数字对象标识符:10.1214/23-AOS2306
学科:
主要用户:62兰特,62兰特
次要:47G10型
关键词:高维数据,核方法,流形学习,非线性降维,光谱法
版权所有©2023数学统计研究所