×

多尺度矩阵采样和次线性时间PageRank计算。 (英语) Zbl 1462.68008号

摘要:在Web科学和社交网络分析的许多应用程序中出现的一个基本问题是识别PageRank超过给定阈值的网络中的所有节点。在本文中,我们研究了该问题的概率版本,即给定一个任意近似因子(c>1),我们被要求输出一组节点,这样,在高概率下,(S)至少包含PageRank的所有节点(Delta),并且没有PageRank小于(Delta/c)的节点。我们称之为这个问题重要页面排名.
我们为具有(n)个节点的网络上具有时间复杂度(tilde{O}(n/Delta))的问题开发了一个近似最优的局部算法,其中tilde隐藏了一个多对数因子。我们证明,解决此问题的每个算法的运行时间必须为\(Omega(n/\Delta)\),使我们的算法达到对数因子的最优。我们的算法对于包括Web爬行和Web搜索在内的应用程序具有次线性时间复杂度,这些应用程序需要有效识别PageRank高于阈值(Delta=n^Delta\)的节点,对于某些常量(0<Delta<1)。
我们的算法有两个主要的技术贡献。第一种是基本矩阵问题的多尺度采样方案,它本身可能会引起人们的兴趣。对我们来说,它似乎是我们需要处理的子问题的抽象,以解决SignificantPageRanks问题,但我们希望这种抽象将有助于设计快速算法,以识别PageRank度量以外的重要节点。
在抽象矩阵问题中,假设一个人可以访问一个未知的右随机矩阵通过查询其行,查询的成本和答案的准确性取决于精度参数\(\epsilon\)。在成本命题为\(1/\ε\)时,查询将返回\(O(1/\ epsilon)\)条目及其索引的列表,这些条目及其索引提供了行的\(\epsilon\)精度近似值。我们的任务是找到一个集合,其中包含总和至少为\(\Delta\)的所有列,并省略总和小于\(\Delta/c\)的每个列。我们的多尺度采样方案以代价(tilde{O}(n/1))解决了这个问题,而传统的采样算法需要时间(Theta((n/Delta)^2))。
我们的第二个主要技术贡献是一种新的局部算法,用于近似个性化PageRank,它比在[G.杰J.威多姆,“缩放个性化网络搜索”,收录于:第12届万维网国际会议论文集,WWW’03。纽约州纽约市:计算机协会(ACM)。271–279 (2003;doi:10.1145/775152.775191);R.安徒生等人,“使用PageRank向量进行局部图划分”,载于:第47届IEEE计算机科学基础研讨会论文集,FOCS’06。加利福尼亚州洛斯·阿拉米托斯:IEEE计算机协会。475–486 (2006;doi:10.1109/FOCS.2006.44)] 并且效率很高,特别是对于具有大的入度或出度的网络。
结合我们的多尺度采样方案,我们能够解决重要页面排名优化问题。

MSC公司:

68英里11 互联网主题
15B51号 随机矩阵
68兰特 计算机科学中的图论(包括图形绘制)
68瓦40 算法分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] [Andersen等人06]Reid Andersen、Fan R.K.Chung和Kevin J.Lang.《使用PageRrank向量进行局部图形划分》,《FOCS》,第475-486页,2006年。
[2] [安徒生等人08]里德·安徒生、克里斯蒂安·博格斯、詹妮弗·查耶斯、约翰·霍普克罗夫特、瓦哈卜·S·米罗尼和尚华腾。“页面排名贡献的本地计算”,《互联网数学5》(2008),23-45·Zbl 1206.68346号
[3] [Avrachenkov 07]K.Avrachencov、N.Litvak、D.Nemirovsky和N.Osipova。“PageRank计算中的蒙特卡罗方法:当一次迭代足够时”,SIAM数值分析杂志45(2007),890-904·邮编1146.60056 ·doi:10.1137/050643799
[4] [Bahmani等人10]巴赫曼·巴赫马尼、阿卜杜尔·乔杜里和阿什什·戈尔。“快速增量和个性化页面排名”,PVLDB 4(2010),173-184。
[5] [Berkhin 05]帕维尔·贝尔金。《调查:PageRank计算的调查》,《互联网数学2》(2005),第1-120页·Zbl 1100.68504号
[6] 谢尔盖·布林和劳伦斯·佩奇。“大型超文本网络搜索引擎的剖析”,《计算机网络》30(1998),107-117·doi:10.1016/S0169-7552(98)00110-X
[7] 【科尔莫德和穆图克里希南05】格雷厄姆·科尔莫德(Graham Cormode)和S.穆图克里希南(S.Muthukrishnan)。“改进的数据流摘要:计数最小草图及其应用”,《算法》55(2005),58-75·Zbl 1068.68048号 ·doi:10.1016/j.galgor.2003.12.001
[8] [Gilbert等人92]John R.Gilbert、Cleve Moler和Robert Schreiber。《Matlab中的稀疏矩阵:设计与实现》,SIAM J.Matrix Ana。申请。13 (1992), 333-356. ·Zbl 0752.65037号 ·doi:10.1137/0613024
[9] [Goldreich 10]奥德·戈德雷奇。“测试图形属性简介”,《属性测试》,第6390卷,O.Goldreich编辑,第105-141页。柏林:施普林格出版社,2010年·Zbl 1309.68219号 ·doi:10.1007/978-3642-16367-87
[10] [Haveliwala 03]T.H.哈维利瓦拉。“Topic-Sensitive PageRank:一种用于Web搜索的上下文敏感排序算法。”。知识。《数据工程》15(2003)784-796·doi:10.1109/TKDE.2003.1208999
[11] [Jeh和Widom 03]格伦·Jeh和詹妮弗·Widom。“缩放个性化Web搜索”,收录于WWW,第271-2792003页。
[12] [Kannan 10]拉文德兰·坎南。《矩阵和张量的谱方法》,STOC,第1-12页,2010年·兹比尔1293.90059
[13] 【坎南和万帕拉09】拉维·坎南和桑托什·万帕拉。“谱算法”,《理论计算机科学基础与趋势》4(2009),157-288·Zbl 1191.68852号 ·doi:10.1561/040000025
[14] [Motwani和Raghavan 95]Rajeev Motwani和Prabhaker Raghavan。随机算法。剑桥大学出版社,1995年·doi:10.1017/CBO9780511814075
[15] 【佩奇等人98】劳伦斯·佩奇、谢尔盖·布林、拉杰夫·莫特瓦尼和特里·温诺格拉德。《PageRank引文排名:给网络带来秩序》,斯坦福大学技术报告,1998年。
[16] [Pandurangan等人06]Gopal Pandurangan、Prabhakar Raghavan和Eli Upfal。“使用PageRank表征Web结构”,《互联网数学3》(2006),1-20·Zbl 1113.68313号
[17] [Rubinfeld和Shapira 11]罗尼特·鲁宾菲尔德和阿萨夫·夏皮拉。“亚线性时间算法”,《SIAM离散数学杂志》25(2011),1562-1588·Zbl 1252.68126号 ·doi:10.1137/100791075
[18] [Spielman和Teng 13]丹尼尔·斯皮尔曼和尚华腾。“海量图的局部聚类算法及其在近线性时间图划分中的应用”,SIAM J.Compute。42(2013),1-26·Zbl 1286.68244号 ·doi:10.1137/080744888
[19] [姚明77]安德鲁·齐齐姚。“概率计算:走向复杂性的统一度量”(扩展了astract)。FOCS,第222-227页,1977年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。