摘要
最近,在嵌入非常高维和非线性数据结构方面开展了大量活动,其中大部分都出现在数据科学和机器学习文献中。我们分四个部分调查这项活动。在第一部分中,我们介绍了非线性方法,如主曲线、多维缩放、局部线性方法、ISOMAP、基于图的方法和扩散映射、基于核的方法和随机投影。第二部分涉及拓扑嵌入方法,特别是将拓扑属性映射到持久性图和Mapper算法。另一种增长迅速的数据集是非常高维的网络数据。第三部分考虑的任务是如何将这些数据嵌入中等维的向量空间中,使数据符合传统技术,如聚类和分类技术。可以说,这是算法机器学习方法和统计建模(由所谓的随机块模型表示)之间对比最大的部分。在本文中,我们讨论了这两种方法的利弊。调查的最后一部分涉及嵌入也就是说,可视化。提供了三种方法:t吨-SNE、UMAP和LargeVis分别基于第一部分、第二部分和第三部分中的方法。在两个模拟数据集上对这些方法进行了说明和比较;其中一个由三组有噪声的毛茛类曲线组成,另一个由随机块模型生成的具有两种类型节点的日益复杂的网络组成。
问询处
发布日期:2023年8月
欧几里德项目首次推出:2023年8月20日
数字对象标识符:10.1214/22-STS881
关键词:扩散映射,图谱理论,ISO地图,大Vis,局部线性法,多维缩放,邻域抽样策略,网络嵌入,非线性主成分,持久性图,持续同源性,主成分,随机投影,再生核希尔伯特空间,跳过图示,光谱嵌入,统计嵌入,随机块体建模,映射器,拓扑数据分析与嵌入,t-SNE公司,UMAP公司,可视化
版权所有©2023数学统计研究所