Statistical Embedding: Beyond Principal Components

Dag Tjøstheim; Martin Jullum; Anders Løland

doi:10.1214/22-STS881

摘要

最近，在嵌入非常高维和非线性数据结构方面开展了大量活动，其中大部分都出现在数据科学和机器学习文献中。我们分四个部分调查这项活动。在第一部分中，我们介绍了非线性方法，如主曲线、多维缩放、局部线性方法、ISOMAP、基于图的方法和扩散映射、基于核的方法和随机投影。第二部分涉及拓扑嵌入方法，特别是将拓扑属性映射到持久性图和Mapper算法。另一种增长迅速的数据集是非常高维的网络数据。第三部分考虑的任务是如何将这些数据嵌入中等维的向量空间中，使数据符合传统技术，如聚类和分类技术。可以说，这是算法机器学习方法和统计建模（由所谓的随机块模型表示）之间对比最大的部分。在本文中，我们讨论了这两种方法的利弊。调查的最后一部分涉及嵌入 ${R（右）}^{2}$ 也就是说，可视化。提供了三种方法：t吨-SNE、UMAP和LargeVis分别基于第一部分、第二部分和第三部分中的方法。在两个模拟数据集上对这些方法进行了说明和比较；其中一个由三组有噪声的毛茛类曲线组成，另一个由随机块模型生成的具有两种类型节点的日益复杂的网络组成。

资金筹措表

这项工作得到挪威研究委员会拨款237718（BigInsight）的支持。

致谢

作者感谢两位匿名审稿人，一位副主编，特别是主编，他们的建设性和非常有益的评论提高了本文的质量。

引用

下载引文

达格·特约西姆。马丁·朱卢姆。安德斯·洛伊兰。 “统计嵌入：超越主要成分。” 统计师。科学。 38 (3) 411 - 439, 2023年8月。 https://doi.org/10.1214/22-STS881

问询处

发布日期：2023年8月

欧几里德项目首次推出：2023年8月20日

数学科学网：MR4630376号

数字对象标识符：10.1214/22-STS881

关键词：扩散映射,图谱理论,ISO地图,大Vis,局部线性法,多维缩放,邻域抽样策略,网络嵌入,非线性主成分,持久性图,持续同源性,主成分,随机投影,‎再生核希尔伯特‎空间,跳过图示,光谱嵌入,统计嵌入,随机块体建模,映射器,拓扑数据分析与嵌入,t-SNE公司,UMAP公司,可视化

摘要

资金筹措表

致谢

引用

问询处

关键词/短语

出版物标题：

出版年份