GraphDBLP:通过图形数据库分析计算机科学家网络的系统

图形blp

摘要

本文介绍了GraphDBLP,一个将DBLP书目建模为图形数据库的系统,用于执行基于图形的查询和社会网络分析。GraphDBLP还通过单词嵌入计算语义关键字相似度来丰富DBLP数据。在本文中,我们讨论了如何将系统形式化为一个多图,以及如何通过word2vec识别相似关系。我们还提供了三个有意义的问题来探索DBLP社区:(i)通过分析作者档案的出版记录来调查他们(ii)确定给定主题上最多产的作者,以及(iii)对整个社区进行社交网络分析。到目前为止,GraphDBLP包含500多万个节点和2400多万个关系,用户可以通过引用超过330万份出版物、170万名作者和5000多个发布场所来探索DBLP数据。通过单词嵌入技术,共收集到7500多个关键词和相关的相似度值。GraphDBLP是在Neo4j图形数据库之上实现的。整个数据集和源代码都是公开的,以促进GraphDBLP在整个计算机科学界的改进。

这是订阅内容的预览,通过您的机构访问.

图1
图2
图3
图4
图5
图6

笔记

  1. 1

    在这项工作中,场地包括会议和期刊。

  2. 2

    多重图是允许两个节点之间有多条边,并且可以通过标签指定的图。我们的记谱灵感来自[17].

  3. 三。

    除了单个单词,甚至n个单词也可以映射到向量。n-gram是一组n连续单词。如第节所述 3.2经常同时发生n连续单词被识别并替换为单个单词,例如。,机器学习替换为机器学习.

  4. 4

    一个类似的(但相反的问题)是Skip-n-gram模型,即训练一个神经网络来预测n语境词的表征w. Skip-n-gram方法可以概括为“预测给定单词的上下文”,而CBOW,简而言之,是“根据上下文预测单词”。

  5. 5

    Py2neo Python库可用:http://py2neo.org/.

  6. 6

    尽管在节点上添加属性也可以获得相同的结果,但是使用多个标签可以立即访问具有所需标签的节点。

  7. 7

    通过NLTK框架通过stop words字典执行[10].

  8. 8

    使用相似性标签。

  9. 9

    这个想法的灵感来自[7]虽然他们通过算术函数计算三元组的权重。

  10. 10

    下四分位数为25%,上四分位数为75%。

  11. 11

    https://fabiomercorio.github.io/GraphDBLP/.

工具书类

  1. 1

    Adomavicius G,Sankaranarayan R,Sen S,Tuzhilin A(2005),使用多维方法将上下文信息纳入推荐系统。ACM传输信息系统(TOIS)23(1):103–145

    文章 谷歌学者 

  2. 2

    Aggarwal C C C(2011)《社交网络数据分析导论》。Socl网络数据分析1–15

  3. 三。

    Albanese M,d'Acierno A,Moscato V,Persia F,Picariello A(2013)多媒体推荐系统。跨互联网技术(TOIT)13(1):3

    文章 谷歌学者 

  4. 4

    Amato F、Moscato V、Picariello A、Piccialli F(2017)Sos:在线社交网络的多媒体推荐系统。未来计算机系统

  5. 5

    Angles R,Gutierrez C(2008)图形数据库模型调查。ACM计算机测量(CSUR)40(1):1

    文章 谷歌学者 

  6. 6

    Bao J,Zheng Y,Wilkie D,Mokbel M(2015)《基于位置的社交网络中的建议:一项调查》。信息5(Geo565):地理信息

    文章 谷歌学者 

  7. 7

    Barrat A,Barthelemy M,Pastor Satorras R,Vespignani A(2004)《复杂加权网络的体系结构》。美国科学院学报101(11):3747–3752

    文章 谷歌学者 

  8. 8

    贝尔ák V,Lam S,Hayes C(2012),讨论论坛中的跨社区影响。ICWSM 12:34–41

    谷歌学者 

  9. 9

    Bengio Y,Ducharme R,Vincent P,Jauvin C(2003),神经概率语言模型。机械学习杂志3:1137–1155

    数学 谷歌学者 

  10. 10

    Bird S,kleine,Loper E(2009)《Python的自然语言处理:用自然语言工具箱分析文本》。O'Reilly媒体公司。

  11. 11

    Boselli R、Cesarini M、Marrara S、Mercorio F、Mezzanica M、Pasi G、Viviani M(2017)Wolmis:用于分类网络职位空缺的劳动力市场智能系统。国际信息系统杂志。https://doi.org/10.1007/s10844-017-0488-x

  12. 12

    Boselli R、Cesarini M、Mercorio F、Mezzanica M(2017),使用机器学习进行劳动力市场情报。在:奥尔顿Y,大S K,米利克äinen T,Malerba D,Stefanowski J,Read J,Zitnik M,Ceci M,Dzeroski S(eds)《数据库中的机器学习和知识发现-欧洲会议》,ECML PKDD 2017,斯科普里,马其顿,2017年9月18-22日,会议录,第三部分,计算机科学课堂讲稿,第10536卷。斯普林格,330-342页。内政部https://doi.org/10.1007/978-3-319-71273-4_27,(以印刷体形式出现)

  13. 13

    Boselli R、Cesarini M、Mercorio F、Mezzanica M、Vaccarino A(2017)《通过图形数据库进行多媒体twitter分析的管道:初步结果》。在:数据2017-数据技术与应用国际会议。https://doi.org/10.5220/0006490703430349

  14. 14

    Cattell R(2011)可伸缩sql和nosql数据存储。ACM Sigmod记录39(4):12–27

    文章 谷歌学者 

  15. 15

    Chikhaoui B,Chiazzaro M,Wang S(2015)动态社会网络中影响演化的新granger因果模型:dblp案例。In:AAAI,第51-57页

  16. 16

    Colace F、De Santo M、Greco L、Moscato V、Picariello A(2015),在线社交网络中推荐商品的以用户为中心的协作框架。计算机哼唱51:694–704

    文章 谷歌学者 

  17. 17

    Consens M P,Mendelzon A O(1990)Graphlog:现实生活递归的视觉形式主义。第九届ACM SIGACT-SIGMOD-SIGART数据库系统原理研讨会论文集。ACM,第404–416页

  18. 18

    邓浩,金一,吕民瑞(2008)dblp书目数据专家发现的形式化模型。2008年:第八届IEEE数据挖掘国际会议。2008年ICDM。IEEE,第163-172页

  19. 19

    Diederich J,Balke W T,Thaden U(2007)演示语义增长包:为faceteddblp自动创建主题方面。第七届ACM/IEEE-CS数字图书馆联席会议论文集。ACM,第505-505页

  20. 20

    分布式图形数据库(2017)http://titan.thinkaurelius.com/

  21. 21

    杜恩,吴乙,裴X,王乙,徐磊(2007).大规模社交网络中的社区检测。在:关于网络挖掘和社会网络分析的第9届网络知识发现和2007年第一届国民账户体系知识发现研讨会论文集。ACM,第16-25页

  22. 22

    Elmacioglu E,Lee D(2005)关于dblp db中的六度分离以及更多。ACM SIGMOD记录34(2):33–40

    文章 谷歌学者 

  23. 23

    Girvan M,Newman M E(2002)《社会和生物网络中的社区结构》。国家科学院学报99(12):7821-7826

    数学网 文章 数学 谷歌学者 

  24. 24

    韩杰,海红E,乐庚,杜杰(2011)nosql数据库调查。2011年第六届普适计算与应用国际会议(ICPCA)。IEEE,第363-366页

  25. 25

    蒋M,崔P,陈X,王F,朱W,杨S(2015),跨领域可转移知识的社会推荐。IEEE Trans Knowl数据工程27(11):3084–3097

    文章 谷歌学者 

  26. 26

    乐特,张德(2015)Dblpminer:书目数据挖掘的工具。2015年IEEE信息重用与集成国际会议(IRI)。IEEE,第435-442页

  27. 27

    Lee S,Song SI,Kahng M,Lee D,Lee SG(2011)基于随机游走的多维推荐图实体排序。第五届ACM推荐系统大会论文集。ACM,93–100页

  28. 28

    Ley M(2009)Dblp:一些经验教训。程序VLDB授权2(2):1493–1500

    文章 谷歌学者 

  29. 29

    Li X,Chen H(2013)推荐二部图中的链接预测:基于图核的机器学习方法。决策支持系统54(2):880–890

    文章 谷歌学者 

  30. 30

    刘磊,唐杰,韩杰,蒋M,杨S(2010)异构网络中话题级影响力的挖掘。第19届ACM国际信息与知识管理会议论文集。ACM,第199-208页

  31. 31

    Marrara S,Pasi G,Viviani M,Cesarini M,Mercorio F,Mezzanica M,Pappagallo M是一种从网络上发现新的劳动力市场职业的语言建模方法。国际情报会议论文集。ACM,莱比锡,第1026-1034页。https://doi.org/10.1145/3106426.3109035

  32. 32

    Mehmood Y,Barbieri N,Bonchi F,Ukkonen A(2013)Csi:社区层面的社会影响分析。在:联合会议的机器学习和知识发现在数据库。斯普林格,第48-63页

  33. 33

    Mikolov T,Chen K,Corrado G,Dean J(2013),向量空间中词表示的有效估计。阿尔十四:1301.3781

  34. 34

    Mikolov T,Sutskever I,Chen K,Corrado G S,Dean J(2013),单词和短语的分布式表示及其组成。在:神经信息处理系统的进展,第3111-3119页

  35. 35

    Mikolov T,Yih WT,Zweig G(2013)连续空间词表征中的语言规律。摘自:Hlt naacl,第13卷,第746–751页

  36. 36

    Moreira C、Calado P、Martins B(2015)学习在dblp数据集中对学术专家进行排名。专家系统32(4):477–493

    文章 谷歌学者 

  37. 37

    Nascimento M A,Sander J,Pound J(2003)sigmod合著关系图分析。ACM Sigmod记录32(3):8–10

    文章 谷歌学者 

  38. 38

    Newman M E(2003)复杂网络的结构与功能。暹罗版次45(2):167–256

    数学网 文章 数学 谷歌学者 

  39. 39

    纽曼·梅(2004)谁是最有联系的科学家?科学合著网络的研究。在:复杂网络。斯普林格,第337-370页

  40. 40

    Papadopoulos S,Kompatsiaris Y,Vakali A,Spyridonos P(2012)《社交媒体中的社区检测》。数据最小已知光盘24(3):515–554

    文章 谷歌学者 

  41. 41

    Pham T A N,Li X,Cong G,Zhang Z(2015),基于事件的社交网络推荐的一般图模型。2015年:IEEE第31届国际数据工程会议(ICDE)。IEEE,第567-578页

  42. 42

    Ricci F、Rokach L、Shapira B、Kantor P B(2015)推荐系统手册。斯普林格

  43. 43

    Scott J(2017)社会网络分析。圣人

  44. 44

    Stonebraker M(2010)Sql数据库v。nosql数据库。社区ACM 53(4):10–11

    文章 谷歌学者 

  45. 45

    Tagarelli A,Interdonato R(2013)《研究协作网络中的替代学习者排名》。亚洲数字图书馆国际会议。斯普林格,93-102页

  46. 46

    唐杰,孙杰,王丙,杨茨.2009.大规模网络中的社会影响分析。第15届ACM-SIGKDD国际知识发现与数据挖掘会议论文集。ACM,第807–816页

  47. 47

    Tesoriero C(2013)《orientDB入门》。Packt出版有限公司

  48. 48

    Watts D J,Strogatz S H(1998),“小世界”网络的集体动力学。自然393(6684):440–442

    文章 数学 谷歌学者 

  49. 49

    韦伯J(2012)neo4j的程序性介绍。第三届系统、编程与应用年会论文集:人类软件。ACM,第217-218页

  50. 50

    Wu Y,Cao N,Gotz D,Tan Y P,Keim D A(2016)《社交媒体数据的视觉分析调查》。IEEE Trans Multimed 18(11):2135–2148

    文章 谷歌学者 

  51. 51

    Zaiane O R,Chen J,Goebel R(2007)数据库连接:dblp数据的挖掘研究社区。在:关于网络挖掘和社会网络分析的第9届网络知识发现和2007年第一届国民账户体系知识发现研讨会论文集。ACM,第74-81页

下载参考资料

作者信息

隶属关系

作者

通讯作者

通信对象法比奥·梅索里奥.

权利和权限

转载和许可

关于这篇文章

通过十字标记验证货币和真实性

引用这篇文章

Mezzanzanica,M.,Mercorio,F.,塞萨里尼,M。等等。GraphDBLP:通过图形数据库分析计算机科学家网络的系统。应用多媒体工具 77岁,18657–18688(2018年)。https://doi.org/10.1007/s11042-017-5503-2

下载引文

关键词

  • 图形数据库
  • 文字嵌入
  • 知识抽取
  • 语义分析
  • 社会网络分析