统计>机器学习
标题: 统计嵌入:超越主成分
摘要: 最近,在嵌入非常高维和非线性的数据结构方面开展了大量活动,其中大部分都出现在数据科学和机器学习文献中。 我们将这项活动分为四个部分进行调查。 在第一部分中,我们介绍了非线性方法,如主曲线、多维缩放、局部线性方法、ISOMAP、基于图的方法和扩散映射、基于核的方法和随机投影。 第二部分涉及拓扑嵌入方法,特别是将拓扑属性映射到持久性图和Mapper算法。 另一种增长迅速的数据集是非常高维的网络数据。 第三部分考虑的任务是如何将这些数据嵌入中等维的向量空间中,使数据符合传统技术,如聚类和分类技术。 可以说,这是算法机器学习方法和统计建模(即所谓的随机块建模)之间对比最大的部分。 在本文中,我们讨论了这两种方法的利弊。 调查的最后一部分涉及嵌入$\mathbb{R}^2$,即可视化。 提出了三种方法:$t$-SNE、UMAP和LargeVis,分别基于第一、第二和第三部分的方法。 在两个模拟数据集上对这些方法进行了说明和比较; 其中一个由三组有噪声的毛茛类曲线组成,另一个由随机块模型生成的具有两种类型节点的日益复杂的网络组成。