Stars: Tera-Scale Graph Building for Clustering and Learning

Carey, CJ; Halcrow, Jonathan; Jayaram, Rajesh; Mirrokni, Vahab; Schudy, Warren; Zhong, Peilin

恒星：用于聚类和学习的Tera-Scale图形构建

的一部分神经信息处理系统进展35（NeurIPS 2022）主要会议轨道

Biptex公司纸类补充的

作者

CJ Carey、Jonathan Halcrow、Rajesh Jayaram、Vahab Mirrorkni、Warren Schudy、Peilin Zhong

摘要

分析海量数据集的一个基本过程是构造相似图。这样的图在许多下游任务中起着关键作用，包括聚类、分类、图学习和最近邻搜索。对于这些任务，构建稀疏但仍能代表底层数据的图是至关重要的。稀疏性的好处有两个：首先，对于大型数据集，构造稠密图在实践中是不可行的，其次，相似图的稀疏性直接影响下游任务的运行时间。在这项工作中，我们介绍了Stars：一种通过两跳扳手构建极稀疏图的高度可扩展方法，这是一种类似点通过最多两条长度的路径连接的图。明星可以用显著较少的相似性比较构建两跳扳手，这是基于学习的模型的一个主要瓶颈，因为比较的评估成本很高。理论上，我们证明了Stars在近线性时间内构建图，其中近似最近邻包含在两跳邻域内。实际上，我们已经为多个数据集部署了Stars，以便在Tera-Scale上构建图形，即具有数千亿节点和数百万亿条边的图形。我们评估了Stars在聚类和图学习方面的性能，并证明在成对相似性比较方面提高了10~1000倍，运行时间显著加快，质量损失可以忽略不计。

恒星：用于聚类和学习的Tera-Scale图形构建

作者

摘要

名称更改策略