科利布里

Colibri:大型静态和动态图的快速挖掘。图的邻接矩阵的低秩逼近在寻找模式(如社区)和检测异常时是必不可少的。另外,当图随时间演化时,期望跟踪低秩结构,高效且在有限的存储空间内。真实的图通常有数千或数百万个节点,但通常非常稀疏。然而,标准分解(如SVD)并不能保持稀疏性。这导致了CUR和CMD等方法的发展,它们通过对稀疏矩阵的列和/或行进行采样来寻求非正交基。然而,这些方法通常会产生过完备的碱基,既浪费空间又浪费时间。在本文中,我们提出了Colibri方法家族来应对这些挑战。我们的静态图版本Colibri-S迭代地找到了一个非冗余的基础,并且我们证明它与最好的竞争对手(CUR和CMD)相比没有损失精度,同时在空间和时间上实现了显著的节省:在实际数据上,Colibri-S需要的空间要少得多,而且速度要快几个数量级(与非冗余列数)。此外,我们还提出了一种有效的动态、时间演化图的更新算法Colibri-D。我们对一个大型真实网络流量数据集的评估表明,Colibri-D比最佳发布竞争对手(CMD)快100倍以上。

这个软件也是同行评审按日记帐汤姆斯.