如何解析dblp.xml?

dblp.xml是一个简单的,普通ASCIIXML文件,使用附带的dblp.dtd文件中给定的命名实体。可以在dblp web服务器上找到每日更新(但未版本化)的XML转储:

此外,每个月都会存档一个持久快照版本:

我们强烈建议您在实验中使用这些快照版本,并在已发布的文章中通过其持久URL引用它们。这将使你的实验在未来可以重复。

dblp记录的XML结构的详细信息以下是几个设计决策:

dblp.xml文件基本上可以由任何现成的xml解析器解析。

示例解析器

例如,我们提供了一个简单的主存数据结构来解析和查询用Java编写的整个dblp数据。本节中的代码已使用以下环境进行了测试:

运行解析器

请加载文件

从我们的web服务器到本地目录。例如,您可以运行以下命令:

wget公司https://dblp.org/src/DblpExampleParser.java \https://dblp.org/src/mmdb-2019-04-29.jar \https://dblp.org/xml/release/dblp-2019-04-01.xml.gz \https://dblp.org/xml/release/dblp-2017-08-29.dtd

使用以下命令解压缩dblp.xml.gz文件:

gunzip dblp-2019-04-01.xml.gz

编译分析器:

javac-cp mmdb-2019-04-29.jar DblpExampleParser.java

运行示例应用程序:

java-Xmx8G-cp mmdb-2019-04-29.jar:。dblp示例分析器dblp-2019-04-01.xml dblp-2017-08-29.dtd

JavaDoc和源代码

还可以下载JavaDoc页面和org.dblp.mmdb包的源代码:


服务莱布尼茨信息中心(Schloss Dagstuhl)