重大新闻
现在图DBLP提供了一个很棒的Web GUI界面。在上构建您自己的以下说明具有自动完成服务的后端和前端看看ECML-PKDD 2019演示视频
什么是GraphDBLP?
图DBLP是一个对DBLP参考书目作为一个图形数据库,用于执行基于图形的查询和社交网络分析。
图DBLP还通过计算语义关键字相似度来丰富DBLP数据单词嵌入.图DBLP为用户提供了三个有意义的查询,用于探索DBLP社区:
- 通过分析作者的出版记录来调查作者简介;
- 确定某一主题上最多产的作者;
- 对整个社区进行社交网络分析;
- 通过DBLP执行最短路径(例如,作者之间的最短路径、合著者网络分析等)
图形DBLP统计信息
迄今为止,GraphDBLP包含500多万个节点和2400多万个关系,使用户能够通过引用330多万份出版物、170万名作者和5000多个发布场所来探索DBLP数据。通过使用单词嵌入,收集了75000多个关键字和相关的相似性值
GraphDBLP数据模型
快速入门
您可以按以下5个步骤安装GraphDBLP。
步骤1:下载Neo4j
首先,下载Neo4j图形数据库请注意,GraphDBLP已在Neo4j Community Edition 3.2.5上进行了测试。我们建议下载Neo4j Desktop,然后使用Neo4j Community Edition 3.2.5部署新的GraphDB实例。
步骤2:下载GraphDBLP数据库转储
下载转储文件其在本地文件夹中包含整个GraphDBLP数据库(例如下载)。将DBLP转换为图形数据库的过程非常耗时,并在中进行了讨论报纸。为了方便起见,我们建议将GraphDBLP数据库实例导入到本地Graph-database实例中,如下所示。
步骤3:构建Graph实例
打开Neo4j桌面应用程序。在这里按“管理”,然后按“终端”。使用移动到bin目录cd仓
然后键入./neo4j-admin加载--from=path_to_your_donwload_folder/graph.db.dump--force
。此操作可能需要一段时间。请不要在运行时关闭窗口。
由于一些GraphDBLP查询耗费时间和内存,我们建议增加Neo4j的可用内存。这可以通过Neo4j桌面应用程序->管理->设置轻松完成。这里只需修改行dbms.memory.heap.initial_size=512m
和dbms.memory.heap.max_size=1G
使用所需设置。越高越好。如果发生更改,请记住重新启动服务器。
步骤5:运行GraphDBLP服务器
只需按开始按钮,即可通过Neo4j Desktop应用程序运行GraphDB实例。请注意,第一次运行可能需要一段时间。
通过Python Shell使用
GraphDBLP提供了一个带有4个预定义查询的外壳接口,如本文所述。这将更容易在DBLP上实现一些标准查询。显然,我们假设您的机器上安装了Python>2.x shell。
请求的程序包
运行以下Python包是必需的图DBLP.py
:
- matplotlib,py2neo,熊猫,表格,统计。您可以使用轻松安装所有这些软件包
pip(点阵)
打字pip安装matplotlib py2neo熊猫表格统计
从外壳中取出。
正在运行图DBLP.py
打开终端并转到下载(或克隆)的GraphDBLP文件夹。然后键入巨蟒/图DBLP.py
并选择以下参数之一:
关键词发现
使用-q1关键字限制
查询编号1关键词发现这允许用户为给定的关键字识别DBLP社区中最多产的作者。这还需要指定要使用的关键字和结果的限制值。例子:-q1“多媒体”10
将使用多媒体作为关键字执行查询1,并收集前10个结果。本文讨论了“相关性”、“得分”和“多产性”的含义。可以找到存储在GraphDBLP中的当前关键字列表(从FacetedDBLP项目继承而来!)在这里
作者出版记录比较
使用-q2作者姓名-用户名限制相似性阈值
对运行查询2作者出版记录比较。此查询从描述作者研究活动的关键字开始,即通过具有_搜索_主题
关系。对于每个关键字,将确定该领域中最熟练的作者,并检索相关数据:(多产)作者姓名、得分、相关性和相关关键字。这还需要指定要使用的关键字、每个关键字要考虑的最大研究人员数量以及相似关键字的相似性阈值。例子:-q2“约翰·冯·诺依曼”3 0.4
将执行查询#2,分析John von Neumann的出版记录,并检索最多3名顶级研究人员,针对出现在John von-Neumann.简介中的每个关键字。此外,对于每个关键字,只会返回相似度值大于0.4的关键字
局部聚类系数(SNA)
使用-q3文氏相似阈值
到的rum查询#3计算研究群落的局部聚类系数这需要指定场馆名称和计算相似性的阈值。例子:-q3“ijcai”10
percent将执行查询3,从ijcai开始计算社区,并考虑相似度值至少为10%的地点。
最短路径
使用-q4 author1-name-surname author2-name-surnname rel-to-be-navigated限制
为执行查询#4研究人员之间的最短路径。这需要指定要连接的两个研究人员的名称,即可以通过管道分隔的关系|
以及要返回的最大路径数。例子:-q4“John von Neumann”“Moshe Y.Vardi”“创作|包含”1“
。我们建议直接在Neo4j浏览器上运行此查询(可在您的本地计算机上访问http://localhost:7474/浏览器/)因为这样可以获得返回路径的图形表示,如下图所示。用于计算最短路径的密码可能具有以下结构:match p=AllshortestPaths((n:author)-[:authored|contains*]-(n2:author
。请注意,在下面的示例中,只有标记为包含
或作者
允许导航。这导致路径大小为4,而通过启用关系导航可以找到最短的路径具有_搜索_主题
.
通过Neo4j Shell使用
图DBLP建于Neo4j之上。这意味着您可以使用密码查询语言。Neo4j实例运行后,请在以下位置打开浏览器:本地主机:7474/浏览器/
GraphDBLP上的纸张
请将GraphDBLP引用为:Mezzanzanica,M.、Mercorio,F.、Cesarini,M.,Moscato,V.、Picariello,GraphDBLP:一个通过图形数据库分析计算机科学家网络的系统。多媒体工具应用(2018)。https://doi.org/10.1007/s11042-017-5503-2网址
@第{条图BLP2018,author=“马里奥·梅赞扎尼卡和法比奥·梅尔科里奥和塞萨里尼、米尔科和文森佐·莫斯卡托和安东尼奥·皮卡里埃洛”,title=“GraphDBLP:通过图形数据库分析计算机科学家网络的系统”,journal=“多媒体工具和应用程序”,year=“2018”,issn=“1573-7721”,doi=“10.1007/111042-017-5503-2”,url=“https://doi.org/10.1007/s11042-017-5503-2网址"}
而整个GraphDBLP系统(带GUI)可以引用为
法比奥·梅尔科里奥、马里奥·梅赞扎尼察、文森佐·莫斯卡托、安东尼奥·皮卡里埃洛、吉安卡洛·斯佩尔:研究人员的工具:通过图形数据库查询大型学术数据。ECML/PKDD(3)2019:760-763
@在过程中{DBLP:conf/pkdd/MercorioMMPS19,author={Fabio Mercorio和马里奥·梅赞扎尼卡和文森佐·莫斯卡托和安东尼奥·皮卡里埃洛和吉安卡洛·斯佩尔{\`{\i}}},title={研究人员的工具:通过图形查询大量学术数据数据库},booktitle={数据库中的机器学习和知识发现-欧洲会议,{ECML}{PKDD}2019},页数={760--763},年份={2019},url={https://doi.org/10.1007/978-3-030-46133-1\_46},doi={10.1007/978-3-030-46133-1\46}}
免责声明和信用
GraphDBLP是一种实验工具,它是作为概念证明而开发的,用于实证验证如何在众所周知的DBLP计算机科学书目上执行基于图形的分析。
这意味着可能存在需要更好优化、细化或改进的错误或查询。这个项目的目的是展示计算机科学书目可以作为图形进行查询。如果你打算加入这个项目,请联系我们!
图DBLP利用:
- DBLP于2016年12月更新;
- Neo4j作为图形数据库,用于查询知识库;
- 此处包含的关键字由镶嵌面DBLP项目。
特别感谢安德烈亚·斯克里万蒂和埃托雷·科伦坡感谢他们对这个项目的贡献。