×

使用MapReduce计算海量图中的三角形。 (英语) Zbl 1306.05237号

摘要:图形和网络用于在各种上下文中建模交互。为了理解图的基本结构,人们越来越需要快速评估图的特征。一些最有用的指标是基于三角关系的,可以衡量共同朋友之间的联系。这通常用聚类系数来概括,聚类系数衡量一个节点的两个邻居自身连接的可能性。精确计算大规模网络的这些度量值在内存和时间上都非常昂贵。然而,最近的一种楔形采样算法在高效准确地估计聚类系数方面证明是成功的。
在本文中,我们描述了如何在MapReduce中实现这种方法来处理海量图。我们显示了公共可用网络的结果,其中最大的是132M个节点和4.7B条边,以及人工生成的网络(使用Graph500基准),其中最大网络有240M个节点,8.5B条边。我们可以通过度bin(例如,我们使用指数binning)和每个bin的三角形数,以及全局聚类系数和三角形总数来估计聚类系数,平均每百万条边0.33秒加上开销(对于我们的配置,总计约225秒)。该技术还可以用于研究三角形统计,如最高程度和最低程度的比率,我们强调了社交网络和非社交网络之间的差异。据我们所知,这些是迄今为止发表的最大的基于三角形的图形计算。

MSC公司:

05C85号 图形算法(图形理论方面)
62甲12 多元分析中的估计
65日元10 特定类别建筑的数值算法
68宽15 分布式算法
68瓦20 随机算法
PDF格式BibTeX公司 XML格式引用