Megaman: Scalable Manifold Learning in Python

James McQueen; Marina Meilă; Jacob VanderPlas; Zhongyue Zhang

流形学习（ML）是一类寻求高维数据的低维非线性表示的算法。因此，ML算法最适用于高维数据，需要大样本才能准确估计流形。尽管如此，大多数现有的流形学习实现并不是特别可伸缩的。在这里，我们提供了一个Python包，它使用快速近似邻域搜索和快速稀疏特征分解，以模块化和可伸缩的方式实现了各种流形学习算法。该软件包结合了流形学习的理论进展，例如Coifman和Lafon（2006）引入的无偏Laplacian估计，以及Perrault-Joncas和Meila（2013）引入的黎曼度量方法对嵌入失真的估计。在基准测试中，即使是在单核台式计算机上，我们的代码也能在几分钟内嵌入数百万个数据点，并且只需200分钟就可以嵌入斯隆数字巡天中的主要星系光谱样本，其中包括60万个3750维的样本，这是以前不可能完成的任务。

梅格曼：Python中的可伸缩流形学习

摘要