×

概率生成图模型的可缩放精确采样方法。 (英语) Zbl 1428.62061号

摘要:对复杂网络建模的兴趣推动了多概率生成图模型(PGGM)的发展。PGGM是一种统计方法,用于对网络分布进行建模,并匹配真实网络的共同特征。最近,针对众所周知的PGGM的可扩展采样算法首次使大规模稀疏网络的分析变得可行。然而,已经证明,这些可扩展的采样算法不会从原始的底层分布中采样,有时会生成非常不可能的图形。为了解决这个问题,我们扩展了[authors等人在《第14届IEEE数据挖掘国际会议论文集》(ICDM’14)中提出的算法,“Kronecker族模型精确采样的可扩展方法”。加利福尼亚州洛斯·阿拉米托斯:IEEE计算机协会。440–449 (2014;doi:10.1109/ICDM.2014.148)]并为广泛的PGGM类开发通用解决方案。我们的方法利用了这样一个事实,即PGGM通常由一组唯一的概率值进行参数化,这使得通过独立采样快速生成具有相同概率值的边。通过组内抽样,我们消除了由于条件抽样和概率重新分配造成的偏差。我们展示了我们的分组抽样方法都是可以证明的对的有效率的。我们的新算法通过避免以前需要的昂贵的拒绝采样步骤来降低时间复杂性,并且我们通过概述六种不同PGGM的实现来证明其通用性。我们进行了理论分析和实证评估,以证明我们的算法的优势。我们通过对一个网络进行采样得出结论十亿在单个处理器上以95秒的速度进行边缘处理。

MSC公司:

62D99型 统计抽样理论及相关课题
05C82号 小世界图形、复杂网络(图形理论方面)
91天30分 社交网络;意见动态
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ahmadi B,Kersting K,Hadiji F(2010)提升信仰传播:成对边缘和更远。附:第五届概率图形模型欧洲研讨会论文集
[2] Aicher C、Jacobs AZ、Clauset A(2015)《学习加权网络中的潜在块结构》。J复杂网络3(2):221-248·Zbl 1397.68151号 ·doi:10.1093/comnet/cnu026
[3] Barabasi A,Albert R(1999),随机网络中尺度的出现。科学286:509-512·Zbl 1226.05223号 ·doi:10.1126/science.286.5439.509
[4] Benson AR、Riquelme C、Schmit S(2014)《学习大型网络中的多重分形结构》。摘自:第20届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第1326-1335页
[5] Bu Z,Xia Z,Wang J,Zhang C(2013a)在线社交网络的最后更新进化模型。物理学A 392(9):2240-2247·doi:10.1016/j.physa.2013.01.006
[6] Bu Z,Xia Z,Wang J,Zhang C(2013b)在线社交网络的最后更新进化模型。物理学A 392(9):2240-2247·doi:10.1016/j.physa.2013.01.006
[7] Bui HH,Huynh TN,Riedel S(2013)图形模型的自同构群和提升的变分推理。摘自:第29届人工智能不确定性会议记录,UAI’13,pp 132-141
[8] Choi J,Guzman-Rivera A,Amir E(2011)提升了关系卡尔曼滤波。摘自:第22届国际人工智能联合会议论文集-3,IJCAI’11,第2092-2099页
[9] Chung F,Lu L(2002)给定期望度的随机图的平均距离。《国家科学院学报》99(25):15879-15882·Zbl 1064.05137号 ·doi:10.1073/pnas.252631999
[10] de Salvo R,Natarajan S,Bui H,Shavlik J,Russell S(2009)Anytime lifted belief propagation。In:统计关系学习国际研讨会工作说明,第9卷
[11] Deijfen M,van den Esker H,van der Hofstad R,Hooghiemstra G(2009)具有随机初始度的优先依恋模型。阿尔基夫·福尔·马特马提克47:41-72·Zbl 1182.05107号 ·doi:10.1007/s11512-007-0067-4
[12] Devroye L(1980)生成独立同分布随机变量的最大值。计算数学应用6(3):305-315·兹比尔0439.65005 ·doi:10.1016/0898-1221(80)90039-5
[13] Diestel R(1997)图论。斯普林格数学研究生文凭排名第173位
[14] Dorogovtsev S,Mendes J,Samukhin A(2000)《具有优先链接的增长网络结构》。Phys修订版Lett 85:4633-4636·doi:10.1103/PhysRevLett.85.4633
[15] Erdös P,Rényi A(1959)关于随机图,i.数学出版物(德布勒森)6:290-297·Zbl 0092.15705号
[16] Erdos P,Renyi A(1960)关于随机图的演化。匈牙利科学院数学研究所出版5:17-60·Zbl 0103.16301号
[17] Flaxman A,Frieze A,Vera J(2004)网络的几何优先连接模型。摘自:第三届web-graph算法和模型国际研讨会,WAW,第44-55页·Zbl 1109.68333号
[18] Frank O,Strauss D(1986)马尔可夫图。美国统计协会杂志81(395):832-842·Zbl 0607.05057号 ·doi:10.1080/01621459.1986.10478342
[19] Gleich DF,Owen AB(2012)随机kronecker图参数的基于矩的估计。网络数学8(3):232-256·Zbl 1258.05111号 ·数字标识代码:10.1080/15427951.2012.680824
[20] Gogate V,Domingos P(2010)在提升概率推理中利用逻辑结构。参加:第24届AAAI人工智能会议研讨会
[21] Gogate V,Domingos PM(2012)概率定理证明。CoRR arXiv公司:1202.3724
[22] Golosovsky M,Solomon S(2012)基于自激点过程的引文网络增长的随机动力学模型。物理评论稿109(098):701
[23] Harris K(2008)《国家青少年健康纵向研究》,Waves I至III,1994-2002[机器可读数据文件和文档]。北卡罗来纳大学教堂山分校
[24] Holland P,Leinhardt S(1981)有向图概率分布的指数族。美国统计协会杂志76(373):33-50·Zbl 0457.62090号 ·doi:10.1080/016214519981.10477598
[25] Holland PW、Laskey KB、Leinhardt S(1983)《随机块模型:第一步》。Soc网络5(2):109-137·doi:10.1016/0378-8733(83)90021-7
[26] Jackson M,Rogers B(2007)与陌生人和朋友的朋友会面:社交网络的随机性如何?美国经济评论97(3):890-915·数字对象标识代码:10.1257/aer.97.3.890
[27] Jaimovich A,Meshi O,Friedman N(2007)对称关系马尔可夫随机场中基于模板的推理
[28] Karrer B,Newman MEJ(2009),有向非循环网络的随机图模型。物理版E 80(046):110
[29] Karrer B,Newman MEJ(2010)包含子图任意分布的随机图。物理版E 82(066):118
[30] Kersting K(2012)提升了概率推断。附:第20届欧洲人工智能会议记录
[31] Kersting K、Ahmadi B、Natarajan S(2009)《计算信仰传播》。摘自:第25届人工智能不确定性会议记录,第277-284页
[32] Kersting K,El Massaoudi Y(2010)《信息传递的通知吊装》。附:第24届人工智能会议记录
[33] Kim M,Leskovec J(2010),现实世界网络的乘法属性图模型。Web-Graph的算法和模型,Springer,Berlin Heidelberg,计算机科学讲稿6516:62-73·Zbl 1253.68049号
[34] Kolda TG,Pinar A,Plantenga T,Seshadhri C(2014)具有社区结构的可扩展生成图模型。SIAM科学计算杂志36(5):C424-C452·Zbl 1314.05189号 ·doi:10.1137/130914218
[35] Krapivsky P,Redner S(2002)《网络增长的统计物理观点》。计算净值39(3):261-276·doi:10.1016/S1389-1286(02)00212-8
[36] Kumar R、Raghavan P、Rajagopalan S、Sivakumar D、Tomkins A、Upfal E(2000)网络图的随机模型。摘自:2000年第41届计算机科学基础年会论文集,第57-65页
[37] Leskovec J、Chakrabarti D、Kleinberg J、Faloutsos C、Ghahramani Z(2010)《克罗内克图:网络建模方法》。J Mach学习研究11:985-1042·Zbl 1242.05256号
[38] Leskovec J,Faloutsos C(2007)使用Kronecker乘法对真实图进行可缩放建模。摘自:第24届机器学习国际会议记录,第497-504页
[39] Leskovec J,Krevl A(2014)SNAP数据集:斯坦福大学大型网络数据集收集。http://snap.stanford.edu/data
[40] Massey FJ(1951)《Kolmogorov-Smirnov拟合优度测试》。美国统计协会46:68-78·Zbl 0042.14403号 ·doi:10.1080/01621459.1951.10500769
[41] McCallum AK、Nigam K、Rennie J、Seymore K(2000),利用机器学习实现互联网门户网站建设的自动化。信息检索3(2):127-163·doi:10.1023/A:1009953814988
[42] Mladenov M、Ahmadi B、Kersting K(2012)提升了线性规划。摘自:国际人工智能和统计会议,第788-797页
[43] Moreno S、Kirshner S、Neville J、Vishwanathan S(2010)构建Kronecker产品图模型,以捕捉网络人口中的方差。收录:第48届Allerton通信、控制和计算年会,第1137-1144页
[44] Moreno S,Neville J(2013)使用混合Kronecker乘积图模型的网络假设检验。摘自:IEEE第13届数据挖掘国际会议,第1163-1168页
[45] Moreno S,Neville J,Kirshner S(2013)使用模拟矩方法学习混合Kronecker乘积图模型。摘自:第19届ACM SIGKDD知识发现和数据挖掘国际会议记录,第1052-1060页
[46] Moreno S,Pfeiffer III J,Kirshner S,Neville J(2014),从克罗内克家族模型中精确取样的可扩展方法。摘自:IEEE第14届数据挖掘国际会议,第440-449页
[47] Pfeiffer JJ III、Neville J、Bennett PN(2014)《网络中的主动探索:使用概率关系进行学习和推理》。摘自:第23届ACM信息和知识管理国际会议记录,第639-648页
[48] Pinar A,Seshadhri C,Kolda TG(2011)随机Kronecker和Chung-Lu图模型之间的相似性。CoRR arXiv公司:1110.4925
[49] Poole D(2003)一阶概率推断。摘自:第18届国际人工智能联合会议记录,第985-991页
[50] Pearl J(ed)(1988)《智能系统中的概率推理:似然推理网络》。伯灵顿摩根考夫曼·Zbl 0746.68089号
[51] Price D(1976)文献计量学和其他累积优势过程的一般理论。《美国社会科学杂志》27(5):292-306·doi:10.1002/asi.4630270505
[52] Robins G、Snijders T、Wang P、Handcock M、Pattison P(2007)社交网络指数随机图(P*)模型的最新发展。Soc网络29:192-215·doi:10.1016/j.socnet.2006.08.003
[53] Sen P,Deshpande A,Getoor L(2009)基于双向模拟的近似提升推理。摘自:第25届人工智能不确定性会议记录,第496-505页
[54] Seshadhri C,Kolda TG,Pinar A(2012)Erdős-Rényi图的群落结构和无标度集合。物理版E 85(5):056109·doi:10.1103/PhysRevE.85.056109
[55] Sheldon R(2002)概率第一门课程。培生教育,伦敦·Zbl 0327.60003号
[56] Simon H(1955)关于一类偏斜分布函数。生物特征42(3-4):425-440·Zbl 0066.11201号 ·doi:10.1093/biomet/42.3-4.425
[57] Singla P,Domingos PM(2008)提升了一阶信念传播。收录:第23届人工智能会议记录,第8卷,第1094-1099页
[58] Snijders T(2002)指数随机图模型的马尔可夫链蒙特卡罗估计。J Soc结构3(2):1-40
[59] Snijders T,Pattison P,Robins G,Handcock M(2004)指数随机图模型的新规范。社会方法36:99-153·文件编号:10.1111/j.1467-9531.2006.00176.x
[60] Strauss D,Ikeda M(1990)社交网络的伪似然估计。美国统计协会杂志85(409):204-212·doi:10.1080/01621459.1990.10475327
[61] Tadic B(2001)有向图的动力学:全球网络。物理A 293(1-2):273-284·Zbl 0978.68108号 ·doi:10.1016/S0378-4371(01)00014-0
[62] Van den Broeck G,Choi A,Darwiche A(2012)《提升放松、补偿然后恢复:从近似到精确的提升概率推断》。附:第28届人工智能不确定性会议记录
[63] Van den Broeck G,Davis J(2012),一阶知识编译中的条件反射和提升概率推理。摘自:《第26届人工智能会议论文集》,AAAI'12,1961-1967页
[64] Van den Broeck G,Niepert M(2015)提出了非对称图形模型的概率推断。摘自:第29届人工智能会议记录,第3599-3605页
[65] Van den Broeck G(2013)提升了统计关系模型中的推理和学习。工程学院阿伦伯格博士学院博士论文
[66] Voss J(ed)(2013)《统计计算导论:基于模拟的方法》。霍博肯·威利
[67] Wang P,Robins G,Pattison P,Lazega E(2013)多级网络的指数随机图模型。Soc网络35(1):96-115·doi:10.1016/j.socnet.2013.01.004
[68] Wasserman S,Anderson C(1987)随机后验块模型:构建和评估。Soc网络9(1):1-36·doi:10.1016/0378-8733(87)90015-3
[69] Wasserman S,Pattison PE(1996)《社交网络的Logit模型和logistic回归:I.马尔可夫图和p*简介》。心理学61:401-425·Zbl 0866.92029号 ·doi:10.1007/BF02294547
[70] Watts D,Strogatz S(1998)“小世界”网络的集体动力学。自然393:440-42·Zbl 1368.05139号 ·doi:10.1038/30918
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。