学术界缺失的参考文献

没有人对全球语料库中学术出版物的总数十分确定。事实上,除了书籍和期刊文章外,学术出版物的定义中还包括“灰色文学”,如官方机构发布的报告、专利等,这一数字将受到很大影响。因此,这些出版物中的学术参考文献总数也不得而知,这一数字也将根据所选的入选标准而有所不同。此外,交叉引用事件数据类似的数据集记录了社交媒体在博客帖子和推文中提到的期刊文章,扩展了参考文献的概念,超出了“传统”引文索引中使用的概念,例如COCI公司.

我们庆幸的是,根据CC0豁免条款,现在有超过10亿的书目引用可公开获取NIH控制中心(美国国立卫生研究院公开引文集)[1,2]和COCI公司(交叉引用DOI到DOI引文的开放引文索引)[3]。尽管其覆盖范围目前存在差距,但其中包括以下内容全部的全球语料库中最重要的出版物,因为这些都会被多次引用。

可从Crossref和其他聚合器和索引中打开引用

交叉参考拥有16亿多公开参考文献,是此类书目元数据的最大单一来源。许多其他数据库、存储库和索引中也提供了大量参考。

NIH控制中心(美国国立卫生研究院公开引文集)是几个引文数据库的合并,利用PubMed获取关键文章元数据,并通过互联网上免费提供的全文文章信息来补充这些信息[1]。这个CiteSeer公司X(X)数据库arXiv公司预打印存储库,以及德莱德数据存储库是不同类型基础设施的示例,这些基础设施还发布开放书目参考,同时还可以从DataCite和Wikidata等开放聚合器中进一步获得文章参考。这些机构可以使用自己的DOI、Crossref DOI注册机构的DOI或根本没有DOI。无论如何,这些引用都不会出现在Crossref中。

缺少的是这些源之间的语义一致性和互操作性,允许跨它们进行联合查询。这使得获得开放书目参考文献可用性的全面概述变得困难。

然而,还有更多的引文尚未在任何地方免费、方便地批量提供,涉及许多不同类型出版物中的参考文献清单。这篇博客文章探讨了学术界缺失的参考文献——那些尚未在开放的、可自由访问的引文索引中记录的参考文献——以及如何将这些文献引入公共领域。

1在Crossref处关闭的引用

八年前,我写道

“在这个开放获取的时代,期刊文章中的参考文献列表(这是学术传播的核心要素,可以归因于学分并整合我们的独立研究成果)并不是所有学者都可以自由使用的,这是一个丑闻。”[4]

我坚持这一说法,并且通过OpenCitations[5],我一直在与同事们一起努力纠正这种情况,正如我在我的上一篇文章开放引文倡议(I4OC)在鼓励几乎所有在Crossref上存放参考文献的主要学术出版商开放参考文献方面发挥了应有的作用。

唯一的主要学术出版商电气与电子工程师协会(IEEE)将被列为I4OC参与出版商,该协会已在Crossref参考列表中存放58%的预印本和出版物,坚持保留这些存放的参考关闭并且不可用于索引和重用。希望IEEE现在能够意识到,没有公开引用所带来的损失,超过了关闭引用可能带来的任何好处,并将与其他出版商一起确保其Crossref-deposited引用被公开,它的当前期刊和过期期刊文章。因此,我再次呼吁IEEE改变其目前的立场,因为爱思唯尔和美国化学学会最近都有勇气这样做,并指示Crossref开放所有IEEE参考文献。一张单人床电子邮件到Crossref Support,再加上“Open all references”(打开所有引用)的说明,就可以了!

Crossref中的引用可以是打开的、“受限的”或关闭的。订阅的用户可以获得有限的参考Crossref元数据Plus包括OpenCitations,但不面向公众。任何人都不能免费获得封闭参考。下表显示了每个类别中的Crossref作品数以及这些类别中的引用数。


作品工具书类每个作品的平均引用
总计126,627,618

没有参考70,477,843
(占总数的55.7%)


有参考资料56,149,775
(占总数的44.3%)
1,734,831,31130.9
正常开放49,274,155
(占总数的38.9%)
1,605,120,22932.6
有限2,933,323
(占总数的2.3%)
66,459,70422.7
关闭3,942,297
(占总数的3.1%)
63,251,37816
表1。2021年7月31日Crossref中记录的作品数量及其参考文献。

2具有Crossref DOI的出版物的参考文献未存放在Crossref

缺少提交参考文献的Crossref DOI作品数量惊人。截至2021年7月31日,70477843份出版物(占Crossref记录的所有作品的55.7%)缺少保存的参考文献(表1)。

Crossref将所有类型的期刊内容(包括社论、书评和信件)归类为“期刊文章”,因此,一些没有存放参考文献的作品确实缺乏这些内容。然而,大多数是传统的期刊文章和书籍具有参考文献列出了出版商根本没有存放在Crossref的参考文献以及这些作品的其他元数据。

每个Crossref作品中存放的参考文献的平均参考文献数量为30.9(表1)。如果考虑到那些真正缺乏参考文献的作品,我们假设70477843部作品中每部作品保守平均有25个参考文献,这意味着这些作品中有超过17.5亿个参考文献没有存放在Crossref,因此,无法方便地进行索引和重用。

这些缺失的参考文献既涉及只为其部分出版物提交参考文献的大型出版商,也涉及可能缺乏或认为缺乏存放任何参考文献列表的资源以及他们已经为每个DOI发送给Crossref的其他元数据的小型出版商。然而,有几种存放参考列表的简单方法,如Crossref所述在这里因此,我鼓励所有支持开放科学的出版商更新他们的程序,并开始或完成他们在Crossref的出版物参考列表的存放,从他们当前的问题开始。交叉引用支持将在需要时提供帮助。请注意,发布者会这样做必须订阅Crossref Cited-by服务才能存放其参考!

COCI中缺少3处引文:Crossref中公开引用缺少DOI的出版物

COCI公司是Crossref DOI到DOI引文的开放引文索引,顾名思义,它将Crossref开放引用从具有Crossref DOI的作品索引到具有DOI的其他作品[3]。因此,它不会将Crossref中的开放引用索引为因任何原因缺少DOI的作品。

COCI的最新版本(2021年9月)基于August Crossref转储,在69074291个独特作品中包含1186958898个引用,包括51103720个引用带有Crossref-DOI的书目资源和56105783个引用书目资源。在引用的书目资源中,38135212包含Crossref发布的DOI,并且具有开放或有限的参考文献(因此也是COCI引用资源),而17970571任何一个具有交叉参考DOI,但缺少开放或有限的参考由其他内政部注册机构(如DataCite)发布内政部(因此不是COCI引用资源)。

请注意,在Crossref中,具有开放或有限参考的作品与没有开放或有限引用的作品之比为0.7:1(表1)。然而,在COCI中,带有交叉引用DOI的引用作品与所有其他引用作品的比例为2.1:1,交叉引用DOIs包含开放或有限引用。因此,与包含开放或有限引用的Crossref DOI一起工作是被引用的可能性增加三倍与具有交叉参考DOI但缺乏开放或有限参考的作品相比有另一个内政部注册机构颁发的内政部。这很可能是因为几乎所有大型出版商的最重要期刊现在都有公开参考文献。然而,这仍然是一个显著的比率。

由于COCI中不包括对缺乏DOI的作品的引用,COCI中每篇引用文章的平均书目引用数量只有23.2,而表1中给出的所有类型作品的引用数量则相反。

从这些数据中可以看出,有超过4.8亿个开放的Crossref引用,这些引用引用了大量缺少DOI的作品,而OpenCitations没有在COCI中索引这些DOI。这是因为开放引文标识符(OCI)[6]的结构存在故意和根本的限制,要求引用和引用的出版物都具有相同类型的标识符,这是我们开放引文索引功能的核心。

OpenCitations目前正在开发一种解决方案,该解决方案在不影响OCI中的故意设计限制的情况下,仍然允许我们将这些“缺失的”引用作为链接的开放数据进行索引和发布。我们将在适当时候报告这一事态发展。

交叉引用事件数据是一个Crossref服务/数据库,记录在社交媒体(包括推特和博客帖子)以及其他非传统引用来源(如新闻条目和维基百科文章)中提及带有Crossref-DOI的出版物。从今天(2021年9月23日星期四)起,Crossref Event Data将开始在其持有的出版物中包括从带有Crossref DOI的出版物到其他带有DOI的出版物的公开参考。不包括有限和封闭的参考。最初,来自当前出版物的开放引用将包含在Crossref事件数据中,而来自旧作品的开放引用稍后将添加到DOI中。在这方面,它将类似于COCI,除了COCI还包括“有限”参考、治疗引用作为具有自己标识符的一级数据实体,并将其引用数据作为链接的开放数据以及通过REST API在RDF中提供。随后,Crossref Event Data还将使用其他形式的标识符记录对出版物的引用,OpenCitations也计划这样做。

4出版商网站上的参考文献

许多出版商,特别是那些开放存取作品的出版商,已经在自己的网站上公开了他们的出版物参考列表。虽然这是值得赞扬的,但这还不够,因为如果学术参考文献不能在诸如Crossref这样的集中聚合器中提供,则很容易从中批量收集以供分析和重复使用,因此很难获取。

从各个网站的HTML中删除引用是困难的、耗时的,而且很可能是不完整的。While期间Microsoft学术版由于出版商与微软搜索引擎必应(Bing)之间的特殊关系,该服务在从出版商网站上搜集参考资料方面取得了巨大成功不再可用,说明了不采用开放式学术基础设施原则.

其结果是,随着书目和分析服务越来越依赖于集中可用的数据,此类出版物将变得越来越“无形”。

6缺乏DOI的学术著作在PDF中的引用

有大量但未知数量的参考文献,包括出版商的书籍、学术报告、专利和期刊文章,这些出版商出于自身的正当理由选择不使用DOI。其中许多出版物的文本已经以标记的机器可读格式提供,例如JATS,用于出版物的准备工作,可以很容易地从中提取参考列表。其他出版物只能作为PDF提供,既可以作为已发布的记录版本,也可以作为存放在各种预印本存储库中的预印本,例如arXiv公司堆芯。从PDF中挖掘参考列表需要文本挖掘和AI技术方面的专业知识,并且需要耗费大量劳动力,因为通常需要调整提取算法来处理单个期刊的特定样式和格式,一次一个。涉及两个阶段:首先,从PDF中识别和提取单个参考文献的文本,然后将每个文本字符串解析为参考文献的组成部分(作者姓名、标题、出版年份等)。NIH-OCC中的大量引文都是通过这种方式获得的[1],商业公司,如词汇智能专门从事这一领域,以及公开可用的软件,如GROBID公司可用于此目的。然而,从全球PDF语料库中提取“缺失”学术参考的总体任务在规模上是艰巨的,需要一个资金充足的组织。

正确的做法是,每个出版商都有责任释放自己出版物的参考文献,无论出版物本身是否是开放存取的,也无论这些参考文献是否已经以标记的机器可读格式或仅在PDF文档中可用。然后,如果出版商仍然选择不使用DOI并将这些元数据提交给Crossref,则可以将这些引用直接提交给OpenCitations,以作为链接的开放数据进行聚合和发布。

结论

从前面的讨论中可以清楚地看出,学术界要想公开分析和重用大多数学术引用,即他们自己的劳动成果,还有很长的路要走。我们OpenCitations正在努力解决这些问题,并发布更多这些缺失的引文。然而,完成这项任务需要协调一致的国际合作努力。

你愿意参与其中吗?

工具书类

[1] B.伊恩·哈钦斯. (2019). NIH开放式引文集:一个公共访问、广泛覆盖的资源。《公共科学图书馆·生物》。 17(10) :e3000385。https://doi.org/10.1371/journal.pbio.3000385

[2] B.伊恩·哈钦斯(Ian Hutchins)(2021年)。公开引用数据的转折点。定量科学研究 2(2): 433–437.https://doi.org/10.1162/qss_c_00138

[3] Ivan Heibi、Silvio Peroni和David Shotton(2019年)。软件评审:COCI,Crossref开放DOI-to-DOI引文的开放引文索引。科学计量学 121(2): 1213-1228.https://doi.org/10.1007/s11192-019-03217-6

[4] David Shotton(2013)。公开引用。自然,502(7471): 295-297.http://dx.doi.org/10.1038/502295a

[5] Silvio Peroni,David Shotton(2020年)。OpenCitations是一个开放式奖学金的基础设施组织。定量科学研究,1(1): 428-444.https://doi.org/10.1162/qss_a_00023

[6] Silvio Peroni,David Shotton(2019年)。开放引文标识符:定义。Figshare。https://doi.org/10.6084/m9图7127816

此条目发布于参考书目,引用为一级数据实体,数据发布,开放存取,打开引文和标记,,,,,,.将永久链接.