作为一级数据实体的引文:开放引文标识符

被视为一级数据实体的引文要求

在我的介绍性博客帖子,我列出了将引文作为一级数据实体处理的五项要求。这些要求中的第四个是,它们必须使用全局持久标识符方案进行标识。

最近PIDapalooza会议在西班牙吉罗纳的永久标识符上,我启动了打开引文标识符(缩写为OCI,与DOI一致),引用的新持久标识符[1]。

在本文中,我描述了由创建和操作的开放引文标识符方案开放式引文,它不仅支持将开放引文标识符分配给开放引文语料库(OCC)中的引文,还支持分配给其他书目数据库中的开放引文。

开放引用标识符的结构和语法

每个OCI都有一个简单的结构:OCI:数字,其中“OCI:”是标识符前缀。

OpenCitations语料库中存储的引文的OCI是通过结合引用和被引用书目资源的OpenCitation语料库本地标识符来构建的,并用破折号将它们分隔开。(有关OCC本地标识符的定义,请参见OpenCitations数据模型).

例如,oci:2544384-7295288是OpenCitations语料库中存储的两篇论文之间引用的有效oci,第一个数字是引用书目资源[2]的OCC本地标识符,第二个数字是被引用书目源[3]的OCC局部标识符,这些书目资源本地标识符在OCC中是唯一的。  [注释:2018年2月之前纳入OpenCitations语料库的书目资源的OCC本地标识符中省略了供应商前缀,但在该日期之后,纳入语料库中的所有书目资源OCC本地标识中将包含供应商前缀。]

外部资源的OCI由数字标识符标识

如果外部书目数据库中描述的书目资源通过具有唯一数字部分的标识符进行类似标识,则也可以为这些资源创建OCI。例如,Wikidata资源之间存在的引文的OCIQ27931310问题(引用资源,[4])和数量22252312(引用的资源,[5])是oci:0102793131001022252312,其中“010”是为Wikidata指定的OCC供应商前缀。(此处和下方的颜色仅为清晰起见而添加。)

OCC供应商前缀由一个正数组成(遵循“nnn号“,其中”nnn号是一个长度可变的数字串,不包含零),包含在两个零之间(例如“0420”)。所有指定的OCC供应商前缀列表见https://github.com/opencitations/oci/blob/master/suppliers.csv网站.

DOI确定的资源之间引用的OCI

还可以为外部书目数据库中描述的书目资源创建OCI,例如交叉参考数据引用其中,它们由字母数字数字对象标识符(DOI)标识,而不是纯粹的数字字符串。

为了实现这一点,每个区分大小写的DOI首先被规范化为小写字母。然后,在省略首字母“doi:10.”前缀后,doi的字母数字字符串被可逆地转换为纯数字字符串,使用简单的数字、小写字母和其他字符的双数字查找表显示在https://github.com/opencitations/oci/blob/master/lookup.csv例如,使用此锁定表时,“1”变为“01”,“2”变为”02”,“a”变为‘10’,“b”变为’11’,“/”变为'36’。然后,在结果编号中添加适当的OCC供应商前缀,以清楚地标识其来源。

Crossref中记录的引文存在于两个出版物[3]和[6]之间,这两个出版物由DOIs doi:10.1108/jd-12-2013-0166和doi:10.1 371/journal.pcbi.1000361标识。因此,我们可以通过使用两个doi的数字表示来创建此Crossref引文的OCI。这些数字表示为:

0200101000836191363010263020001036300010606

02001030701361924302723102137251211183701000000030601

其中,每种情况下的首字母“020”是为Crossref指定的OCC供应商前缀。

从DOI的这两个数字表示中,很容易构建这两篇论文之间交叉引用的OCI,即:

oci公司:0200101000836191363010263020001036300010606-02001030701361924302723102137251211183701000000030601

虽然这是一个很长的标识符,但应该记住,它将通过计算进行处理,并不是为了提高可读性。

通过这种方式,Crossref OCI可以分配给Crossref中被引用论文以及引用论文具有DOI的所有约3.5亿开放参考文献[7]。

不同数据库中记录的同一引文的OCI

如果引文记录在多个书目数据库中,则可以为每个实例创建单独的OCI,每个OCI具有不同的供应商前缀,并且特定于该数据库。

因此,除了由DOI创建并在上文中描述的从[3]到[6]的引文的Crossref OCI外,Wikidata中记录的相同引文也存在一个Wiki data OCI,其格式为OCI:01024260641-01021092566。

在解决OCI后,开放引文标识符解决服务将仅从OCI的供应商前缀指定的数据库中提取元数据。开放式引文标识符解析服务的详细信息将在下一篇博客文章中给出。

值得注意的是,OCI只能用于指定引用和被引用出版物之间的引用,而这些出版物实际上记录在书目数据库中。因此,本系列介绍性博客文章中的第二个图表下面显示的OCI“OCI:7295288-3962641”目前无效。虽然OpenCitations语料库中有描述书目资源[3]和[6]的元数据,但它尚未接收第一个书目资源的参考列表[3](OCC本地标识符为7295288),只有第三篇论文中的参考文献中有关于它的信息,没有关于参考文献的信息[3]它本身包含。因此,目前OCC没有记录表明,在[3]和第二个书目资源[6](OCC本地标识符为3962641)之间确实存在引文。

在RDF中代表OCI

为了允许在RDF中描述oci,添加了“oci”作为类的新成员数据引用:资源标识符方案DataCite本体.

任何引用由OCI识别的表格https://w3id.org/oc/virtual/ci/nnn-毫米“,其中nnn-毫米表示删除了“OCI:”前缀的OCI。目前,我们能够返回OpenCitations语料库和Wikidata中包含的所有引文的RDF描述。我们正在努力扩大覆盖范围,以便包括其他数据集,例如Crossref。

工具书类

[1] David Shotton(2018)。引用为一流的数据实体。打开引文标识符。会议演示。2018年1月23日至23日,吉罗纳,PIDapalooza 2018。https://doi.org/10.6084/m9.figshare.5844972网址

[2] Armen Yuri Gasparyan、Marlen Yessirkepov. (2015). 保持科学传播所有利益相关者引用和参考的完整性。 韩国医学科学杂志。 30:1545-1552. (英语)https://doi.org/10.3346/jkms.2015.30.11.1545

[3] Silvio Peroni、Alexander Dutton、Tanya Gray和David Shotton(2015)。免费提供书目参考:开放引用数据。文献杂志,71(2): 253-277. https://doi.org/10.1108/jd-12-2013-0166

[4] 丹尼尔·K·布里克、埃里克·B·泰勒. (2012). 酵母吸收丙酮酸所需的丙酮酸线粒体载体果蝇属和人类。科学337: 96-100.
https://doi.org/10.1126/science.1218099

[5] Douglas Hanahan和Robert A.Weinberg(2011年)。癌症的标志:下一代。 单元格 144: 646–674. https://doi.org/10.1016/j.cell.2011.02.013

[6] David Shotton、Katie Portwin、Graham Klyne和Alistair Miles(2009年)。语义发布冒险:研究文章的示例语义增强。计算生物学 5:e1000361。http://dx.doi.org/10.1371/journal.pcbi.1000361

[7] Daniel Ecer(2017)。Crossref数据笔记本(更新)。可在https://elifesci.org/crossref-data-notebook网站

 

此条目发布于参考书目,引用为一级数据实体,打开引文标识符,打开引文,语义发布并添加了标签,,,,.将永久链接.