跳到主要内容
登录

GraphDBLP:通过图形数据库分析计算机科学家网络的系统

图DBLP

  • 出版:
多媒体工具和应用程序 目标和范围 提交手稿

摘要

本文介绍了GraphDBLP,这是一个将DBLP书目建模为图形数据库的系统,用于执行基于图形的查询和社交网络分析。GraphDBLP还通过通过单词嵌入计算语义关键字相似度来丰富DBLP数据。本文讨论了如何将系统形式化为多图,以及如何通过word2vec识别相似关系。我们还提供了三个有意义的查询,用于探索DBLP社区,以(i)通过分析作者的出版记录来调查作者简介;(ii)确定给定主题上最多产的作者,以及(iii)对整个社区进行社交网络分析。迄今为止,GraphDBLP包含500多万个节点和2400多万个关系,使用户能够通过引用330多万份出版物、170万名作者和5000多个发布场所来探索DBLP数据。通过使用单词嵌入,收集到了75000多个关键词和相关的相似性值。GraphDBLP是在Neo4j图形数据库之上实现的。整个数据集和源代码都是公开的,以促进GraphDBLP在整个计算机科学社区中的改进。

这是订阅内容的预览,通过机构登录 以检查访问。

访问此文章

价格包括增值税(中国)

即时访问全文PDF。

机构认购

图1
图2
图3
图4
图5
图6

其他人正在查看的类似内容

笔记

  1. 在这项工作中,场地包括会议和期刊。

  2. 多图是允许两个节点之间有多条边的图,可以通过标签指定。我们的符号灵感来自[17].

  3. 除了单个单词外,甚至n-gram也可以映射到向量。n-gram是一组n个连续单词。如第节所述3.2频繁出现的n个连续单词被识别并替换为单个单词,例如。,机器学习被替换为机器学习.

  4. 类似的(但相反的问题)是Skip-n-gram模型,即训练神经网络来预测n个从表象看语境词w个Skip-n-gram方法可以概括为“预测给定单词的上下文”,而CBOW简而言之是“预测给定上下文的单词”。

  5. Py2neo Python库可用:http://py2neo.org/.

  6. 虽然在节点上添加属性也可以获得相同的结果,但使用多个标签可以立即访问具有所需标签的节点。

  7. 由NLTK框架通过停止词词典执行[10].

  8. 使用相似性标签。

  9. 这个想法的灵感来自[7]虽然他们通过算术函数计算三元组的权重。

  10. 下四分位是第25个百分点,上四分位则是第75个百分点。

  11. https://fabiomercorio.github.io/GraphDBLP/.

工具书类

  1. Adomavicius G,Sankaranarayanan R,Sen S,Tuzhilin A(2005),使用多维方法将上下文信息纳入推荐系统。ACM传输信息系统(TOIS)23(1):103–145

    第条 谷歌学者 

  2. Aggarwal C C(2011)《社交网络数据分析导论》。Socl Netw数据分析1-15

  3. Albanese M,d'Acierno A,Moscato V,Persia F,Picariello A(2013)多媒体推荐系统。ACM Trans Internet Technol(TOIT)13(1):3

    第条 谷歌学者 

  4. Amato F,Moscato V,Picariello A,Piccialli F(2017)Sos:在线社交网络的多媒体推荐系统。未来一代计算系统

  5. Angles R,Gutierrez C(2008)《图形数据库模型调查》。ACM计算调查(CSUR)40(1):1

    第条 谷歌学者 

  6. Bao J,Zheng Y,Wilkie D,Mokbel M(2015)《基于位置的社交网络的建议:一项调查》。地理信息19(3):525–565

    第条 谷歌学者 

  7. Barrat A、Barthelemy M、Pastor-Satorras R、Vespignani A(2004)《复杂加权网络的架构》。美国国家科学院院刊101(11):3747–3752

    第条 谷歌学者 

  8. Belák V、Lam S、Hayes C(2012)讨论论坛中的跨社区影响。ICWSM 12:34–41分

    谷歌学者 

  9. Bengio Y,Ducharme R,Vincent P,Jauvin C(2003)神经概率语言模型。J Mach学习研究3:1137–1155

    数学 谷歌学者 

  10. Bird S,Klein E,Loper E(2009)《使用Python进行自然语言处理:使用自然语言工具箱分析文本》。O'Reilly媒体公司。

  11. Boselli R、Cesarini M、Marrara S、Mercorio F、Mezzanzanica M、Pasi G、Viviani M(2017)Wolmis:用于分类网络职位空缺的劳动力市场智能系统。国际信息系统杂志。https://doi.org/10.1007/s10844-017-0488-x

  12. Boselli R、Cesarini M、Mercorio F、Mezzanzanica M(2017)《使用机器学习实现劳动力市场智能》。收录于:Altun Y、Das K、Mielikäinen T、Maleba D、Stefanowski J、Read J、Zitnik M、Ceci M、Dzeroski S(eds)数据库中的机器学习和知识发现-欧洲会议,ECML PKDD 2017,马其顿斯科普里,2017年9月18日至22日,会议录,第三部分,计算机科学讲稿,第10536卷。施普林格,第330-342页。DOI程序https://doi.org/10.1007/978-3-319-71273-4_27,(以印刷形式出现)

  13. Boselli R、Cesarini M、Mercorio F、Mezzanzanica M、Vaccarino A(2017)通过图形数据库进行多媒体推特分析的管道:初步结果。在:数据2017-关于数据技术和应用的国际会议。https://doi.org/10.5220/0006490703430349

  14. Cattell R(2011)可扩展sql和nosql数据存储。ACM Sigmod记录39(4):12–27

    第条 谷歌学者 

  15. Chikhaoui B、Chiazzaro M、Wang S(2015)动态社会网络中影响演化的新格兰杰因果模型:dblp案例。In:AAAI,第51–57页

  16. Colace F、De Santo M、Greco L、Moscato V、Picariello A(2015)在线社交网络中推荐项目的以用户为中心的协作框架。计算人类行为51:694–704

    第条 谷歌学者 

  17. Consens M P,Mendelzon A O(1990)Graphlog:现实生活递归的视觉形式主义。摘自:第九届ACM SIGACT-SIGMOD-SIGART数据库系统原理研讨会论文集。ACM,第404–416页

  18. Deng H,King I,Lyu M R(2008)《数据库书目数据专家发现的形式模型》。2008年第八届IEEE数据挖掘国际会议。2008年ICDM。IEEE,第163-172页

  19. Diederich J,Balke W T,Thaden U(2007)演示语义增长包:自动为faceteddblp创建主题方面。收录:第七届ACM/IEEE-CS数字图书馆联合会议记录。ACM,第505-505页

  20. 分布式图形数据库(2017)http://titan.thinkaurelius.com/

  21. Du N,Wu B,Pei X,Wang B,Xu L(2007)大型社交网络中的社区检测。收录:第九届WebKDD和第一届SNA-KDD 2007网络挖掘和社交网络分析研讨会论文集。ACM,第16-25页

  22. Elmacioglu E,Lee D(2005)关于dblp-db和更多的六度分离。ACM SIGMOD记录34(2):33–40

    第条 谷歌学者 

  23. Girvan M,Newman M E(2002)《社会和生物网络中的社区结构》。国家科学院学报99(12):7821–7826

    第条 数学科学网 数学 谷歌学者 

  24. 韩J,海宏E,乐G,杜J(2011)nosql数据库调查。2011年第六届普适计算与应用国际会议(ICPCA)。IEEE,第363–366页

  25. Jiang M,Cui P,Chen X,Wang F,Zhu W,Yang S(2015)跨领域可转移知识的社会推荐。IEEE Trans Knowl Data Eng 27(11):3084–3097

    第条 谷歌学者 

  26. Le T,Zhang D(2015)《Dblpminer:探索书目数据的工具》。2015年IEEE信息重用与集成(IRI)国际会议。IEEE,第435–442页

  27. Lee S、Song SI、Kahng M、Lee D、Lee SG(2011)基于随机行走的实体在多维推荐图上的排名。收录:第五届ACM推荐系统会议记录。ACM,第93–100页

  28. Ley M(2009)Dblp:一些经验教训。VLDB Endow 2号程序(2):1493–1500

    第条 谷歌学者 

  29. Li X,Chen H(2013)二部图中的链接预测建议:基于图核的机器学习方法。Decis支持系统54(2):880–890

    第条 谷歌学者 

  30. Liu L,Tang J,Han J,Jiang M,Yang S(2010)挖掘异质网络中的主题级影响。摘自:第19届ACM信息和知识管理国际会议记录。ACM,第199-208页

  31. Marrara S、Pasi G、Viviani M、Cesarini M、Mercorio F、Mezzanzanica M、Pappagallo M一种从网络上发现新的劳动力市场职业的语言建模方法。收录:Sheth AP、Ngonga A、Wang Y、Chang E、Slezak D、Franczyk B、Alt R、Tao X、Unland R(编辑)网络智能国际会议论文集。ACM,莱比锡,第1026–1034页。https://doi.org/10.1145/3106426.3109035

  32. Mehmood Y、Barbieri N、Bonchi F、Ukkonen A(2013)Csi:社区层面的社会影响分析。在:关于数据库中的机器学习和知识发现的欧洲联合会议上。施普林格,第48–63页

  33. Mikolov T,Chen K,Corrado G,Dean J(2013),向量空间中单词表示的有效估计。arXiv:1301.3781

  34. Mikolov T,Sutskever I,Chen K,Corrado G S,Dean J(2013)单词和短语的分布式表示及其合成性。主题:神经信息处理系统的进展,第3111–3119页

  35. Mikolov T,Yih WT,Zweig G(2013)连续空间词表征的语言规律。包含:Hlt-naacl,第13卷,第746–751页

  36. Moreira C、Calado P、Martins B(2015)学习在dblp数据集中对学术专家进行排名。专家系统32(4):477–493

    第条 谷歌学者 

  37. Nascimento M A,Sander J,Pound J(2003)《sigmod合著图分析》。ACM Sigmod记录32(3):8–10

    第条 谷歌学者 

  38. Newman M E(2003)复杂网络的结构和功能。SIAM版本45(2):167–256

    第条 数学科学网 数学 谷歌学者 

  39. Newman M E(2004)谁是联系最紧密的科学家?科学合著网络研究。In:复杂网络。施普林格,第337–370页

  40. Papadopoulos S、Kompatsiaris Y、Vakali A、Spyridonos P(2012)《社交媒体中的社区检测》。数据最小已知光盘24(3):515–554

    第条 谷歌学者 

  41. Pham T A N,Li X,Cong G,Zhang Z(2015)基于事件的社交网络推荐的通用图形模型。2015年IEEE第31届国际数据工程会议(ICDE)。IEEE,第567–578页

  42. Ricci F、Rokach L、Shapira B、Kantor P B(2015)《推荐系统手册》。施普林格

  43. Scott J(2017)《社交网络分析》。圣人

  44. Stonebraker M(2010)Sql数据库与nosql数据库。通信ACM 53(4):10–11

    第条 谷歌学者 

  45. Tagarelli A,Interdonato R(2013)对研究合作网络中的替代学习者进行排名。参加:亚洲数字图书馆国际会议。施普林格,第93–102页

  46. 唐J,孙J,王C,杨Z(2009)大型网络中的社会影响分析。摘自:第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第807–816页

  47. Tesoriero C(2013)开始使用orientDB。Packt出版有限公司

  48. Watts D J,Strogatz S H(1998)“小世界”网络的集体动力学。自然393(6684):440–442

    第条 数学 谷歌学者 

  49. Webber J(2012)《neo4j的程序性介绍》。收录:关于系统、编程和应用:人性化软件的第三届年度会议记录。ACM,第217–218页

  50. Wu Y,Cao N,Gotz D,Tan Y P,Keim D A(2016)社交媒体数据视觉分析调查。IEEE Trans Multimed 18(11):2135–2148

    第条 谷歌学者 

  51. Zaiane O R,Chen J,Goebel R(2007)Dbconnect:dblp数据挖掘研究社区。收录:第九届WebKDD和第一届SNA-KDD 2007网络挖掘和社交网络分析研讨会论文集。ACM,第74-81页

下载参考资料

作者信息

作者和附属机构

作者

通讯作者

与的通信法比奥·梅尔科里奥.

权利和权限

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用本文

Mezzanzanica,M.、Mercorio,F.、Cesarini,M。等。GraphDBLP:通过图形数据库分析计算机科学家网络的系统。多媒体工具应用程序 77,18657–18688(2018)。https://doi.org/10.1007/s11042-017-5503-2网址

下载引文

  • 收到:

  • 修订:

  • 认可的:

  • 出版:

  • 发布日期:

  • DOI程序:https://doi.org/10.1007/s11042-017-5503-2网址

关键词

导航