恒星:用于聚类和学习的Tera-Scale图形构建

的一部分神经信息处理系统进展35(NeurIPS 2022)主要会议轨道

Biptex公司 纸类 补充的

作者

CJ Carey、Jonathan Halcrow、Rajesh Jayaram、Vahab Mirrorkni、Warren Schudy、Peilin Zhong

摘要

分析海量数据集的一个基本过程是构造相似图。这样的图在许多下游任务中起着关键作用,包括聚类、分类、图学习和最近邻搜索。对于这些任务,构建稀疏但仍能代表底层数据的图是至关重要的。稀疏性的好处有两个:首先,对于大型数据集,构造稠密图在实践中是不可行的,其次,相似图的稀疏性直接影响下游任务的运行时间。在这项工作中,我们介绍了Stars:一种通过两跳扳手构建极稀疏图的高度可扩展方法,这是一种类似点通过最多两条长度的路径连接的图。明星可以用显著较少的相似性比较构建两跳扳手,这是基于学习的模型的一个主要瓶颈,因为比较的评估成本很高。理论上,我们证明了Stars在近线性时间内构建图,其中近似最近邻包含在两跳邻域内。实际上,我们已经为多个数据集部署了Stars,以便在Tera-Scale上构建图形,即具有数千亿节点和数百万亿条边的图形。我们评估了Stars在聚类和图学习方面的性能,并证明在成对相似性比较方面提高了10~1000倍,运行时间显著加快,质量损失可以忽略不计。