20多年来,以我们自己的XML格式完全转储所有dblp记录可作为开放数据下载和重用这些转储文件多年来一直很受欢迎(仅2022年2月就有500多个下载),并在许多出版物中用作研究数据集。

一段时间以来,我们被要求提供完整RDF转储也。社区成员以前已经将dblp XML文件的快照转换为RDF,现在仍然有许多这样的快照互联网上可用的RDF文件但是,这些快照的问题是,它们通常在创建后不会更新。由于dblp团队的持续管理,使得dblp成为一个“活的”数据集,外部文件将严重与管理的dblp数据库不同步,有时甚至长达数年。

完整的dblp RDF转储

为了纠正这种情况,我们很高兴地宣布,几个月来,整个dblp数据集也可以作为RDF数据使用。这些转储文件将每天更新,并保证始终与最新的dblpXML版本同步。文件以RDF/XML、N-Triples和Turtle的形式提供,网址为

然而,如果您计划在实验中使用我们的RDF转储,并且需要持久快照以使结果可复制,我们强烈建议您使用持续每月发布而是:

使用当前模式,dblp RDF数据模型形成了一个简单的人员发布图。

dblp RDF转储的示例摘录。

2022年3月的当前版本共包含2941316个个人实体、6010605个发布实体和252573199个RDF三元组。12157035外部资源URI链接在数据集中。与dblp提供的任何其他数据一样,RDF转储在以下位置可用CC0 1.0公共领域专用许可证。

通过实时API的RDF片段

请注意,除了完整的RDF转储之外,还有一个实时API,它为RDF/XML中的RDF片段和单个实体的N-Triples提供服务。它可用于使用PID/键查询人员或出版物,例如:

请注意,至少有一些速率限制,以保护活动API免受攻击性爬虫的攻击。这意味着,如果有大量查询,建议下载完整的转储并在本地执行查询。

已知的局限性和未来的改进

许多元数据方面,如对文章所包含的期刊的引用或作者的从属关系,目前仅以字符串文本的形式提供。模式的未来迭代将看到这些对象(即发布场所和机构/组织)作为真正的实体添加到数据模型中,以及它们自己的元数据、持久ID和到外部资源的链接。因此,我们并不认为dblp RDF模式是最终的,而是以更结构化的方式提供dblp数据集语义的第一步。我们还打算在不久的将来提供一个合适的SPARQL端点。

如果您与dblp RDF合作,我们当然非常感谢您能与我们分享您的想法、经验和批评。您可以像往常一样通过电子邮件联系我们dblp(at)dagstuhl.de,或通过推特向我们发送您的想法@数据库组织非常感谢您对dblp的支持!

鸣谢

我们要感谢dblp咨询委员会以及语义web社区的许多个人对dblp RDF测试版的想法和意见。您的反馈帮助我们显著改进了方案。我们要特别感谢西尔维奥·佩罗尼,汉娜·巴斯特,拉尔夫·申克尔托比亚斯·泽梅茨讨论时间、有益的批评和对开发dblp RDF至关重要的具体想法。


1条评论

dblp RDF模式更新–blog.dblp.org ·2022年9月10日19:38

[…]自dblp RDF转储及其持久快照发布以来的六个月内,RDF转存总共下载了大约1000个[…]

评论已关闭。