Statistical embedding: Beyond principal components

Tjøstheim, Dag; Jullum, Martin; Løland, Anders

统计>机器学习

arXiv公司：2106.01858（统计）

【提交日期：2021年6月3日(第1版)，上次修订日期：2022年8月31日（此版本，v2）]

标题：统计嵌入：超越主成分

作者：达格·特约西姆,马丁·朱卢姆,安德斯·洛伊兰

查看PDF

摘要：最近，在嵌入非常高维和非线性的数据结构方面开展了大量活动，其中大部分都出现在数据科学和机器学习文献中。我们将这项活动分为四个部分进行调查。在第一部分中，我们介绍了非线性方法，如主曲线、多维缩放、局部线性方法、ISOMAP、基于图的方法和扩散映射、基于核的方法和随机投影。第二部分涉及拓扑嵌入方法，特别是将拓扑属性映射到持久性图和Mapper算法。另一种增长迅速的数据集是非常高维的网络数据。第三部分考虑的任务是如何将这些数据嵌入中等维的向量空间中，使数据符合传统技术，如聚类和分类技术。可以说，这是算法机器学习方法和统计建模（即所谓的随机块建模）之间对比最大的部分。在本文中，我们讨论了这两种方法的利弊。调查的最后一部分涉及嵌入$\mathbb{R}^2$，即可视化。提出了三种方法：$t$-SNE、UMAP和LargeVis，分别基于第一、第二和第三部分的方法。在两个模拟数据集上对这些方法进行了说明和比较；其中一个由三组有噪声的毛茛类曲线组成，另一个由随机块模型生成的具有两种类型节点的日益复杂的网络组成。

学科：	机器学习（stat.ML）; 机器学习（cs.LG）；方法（stat.ME）
移动交换中心类：	62-02、62-07、62H25、62H30、94-02、94C15
引用为：	arXiv公司：2106.01858[统计ML]
	（或 arXiv:2106.01858v2[统计ML]对于此版本）
	https://doi.org/10.48550/arXiv.2106.01858

提交历史记录

发件人：安德斯·洛伊兰[查看电子邮件]
[第1版]2021年6月3日星期四14:01:21 UTC（764 KB）
[版本2]2022年8月31日星期三13:24:05 UTC（666 KB）

统计>机器学习

标题：统计嵌入：超越主成分

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

统计>机器学习

标题：统计嵌入：超越主成分

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目