发现预印本和期刊文章之间的关系-Crosref

阅读9分钟。

发现预印本和期刊文章之间的关系

多米尼克·特卡奇克–2023年12月7日

在学术传播环境中，期刊文章的演变可以通过其与预印本的关系来追踪。这些预印本与期刊文章的关系是研究关系。其中一些关系是由Crossref成员（包括出版商、大学、研究团体、资助者等）在向Crossref存放元数据时提供的，但我们知道其中有很大一部分关系缺失。为了填补这一空白，我们开发了一种新的自动策略，用于发现预印本和期刊文章之间的关系，并将其应用于Crossref数据库中的所有预印本。我们制作了结果数据集，其中包含发布者断言和自动发现的关系，公开可用供任何人分析。

TL；博士

我们开发了一种新的基于启发式的策略，用于将期刊文章与其预印本进行匹配。在评估数据集上取得了以下结果：精确度0.99，召回率0.95，F0.5 0.98。代码可用在这里.
我们将该策略应用于Crossref数据库中的所有预印本。它发现了627K的预印本与期刊文章之间的关系。
我们收集了Crossref成员存放的所有预印本-期刊文章关系，将它们与新策略发现的关系合并，并将所有内容作为数据集。数据集中有642K个关系，包括：
- 296K由出版商提供，并由策略发现，
- 仅该战略发现了331000条新关系，
- 15K仅由出版商提供。
未来，我们计划用新的匹配策略替换当前的匹配策略，并通过Crossref REST API提供所有发现的关系。

介绍

预印本和期刊文章之间的关系将不同版本的研究成果联系起来，使人们能够跟踪出版物随时间的演变。Crossref存放模式允许Crossref-成员为新出版物提供这些关系has-preprint接口存放在期刊文章中的关系，或是的预印本预印本存放的关系。

为了帮助存放预印本的会员，我们还尝试将存放的期刊文章与预印本联系起来。当前方法查找标题和第一作者之间的精确匹配。我们将可能的匹配作为建议发送给预打印服务器，由其决定是否使用关系更新元数据。

在撰写本文时，Crossref数据库中的137837篇期刊文章具有has-preprint接口关系¹和56225个类型的已发布内容的作品（预印本属于此类型）具有is-preprint-off关系².

我们怀疑许多预印本与期刊文章的关系缺失，因为一些成员不可避免地无法保存它们，即使在当前匹配策略提出建议后也是如此。另一个因素是，当前的策略相当保守，可能会遗漏大量关系。出于这些原因，我们决定调查是否可以改进当前流程。这样做将允许我们大规模推断缺失的关系，类似于我们如何自动将书目参考与DOI匹配。

此预打印匹配任务可以从两个方向定义：

我们从一篇期刊文章开始，想找到它的所有预印本。
我们从预印本开始，希望找到随后发表的期刊文章。

一方面，从期刊文章到预印本的匹配将允许我们用新的关系不断丰富数据库，无论是定期还是每次添加新内容。由于期刊文章在数据库中出现的时间往往晚于其预印本，因此一篇新的期刊文章触发匹配是有意义的，而不是相反。这样，我们可以期望在匹配时数据库中已经存在潜在的匹配。

另一方面，在我们希望在现有数据库中回顾性地添加关系的情况下，从预印本到期刊文章的匹配可能很有用。在我们的例子中，数据库包含的期刊文章比预印本多，因此出于性能原因，最好从预印本开始。

在这两种情况下，我们都要处理结构化匹配，这意味着我们要匹配作品（预印本或期刊文章）的元数据记录，而不是非结构化文本。

由于匹配了单个预印本或单个期刊文章，我们应该期望零个或多个匹配的期刊文章/预印本。在以下情况下会发生多次匹配：

有多个版本的匹配预印本和/或
匹配的作品有重复的。

图中显示了将期刊文章与预印本的两个版本进行匹配的结果：

匹配策略

我们的匹配策略使用以下工作流程：

使用Crossref REST API收集候选列表。
对输入项和每个候选项之间的相似性进行评分。
关于哪些候选人（如果有的话）应作为匹配项返回的最终决定。

使用Crossref REST API收集候选查询.bibliographic参数。查询是输入项的标题和作者姓氏的串联。我们根据候选人的类型筛选他们，根据匹配的方向，只留下预印本或期刊文章。未来，我们将使用专门的搜索引擎，对预打印匹配进行优化，而不是从REST API中获取候选项。

给候选人打分是基于启发式的。标题、作者和年份之间的相似性是独立评分的，最终得分是他们的平均值。使用rapidfuzz库。使用ORCID ID或名字/姓氏（如果ORCID标识不可用）成对比较作者。如果文章发表时间不早于预印前一年，也不迟于预印后三年，则发布年份之间的相似性得分为1，否则为0。

最终决策基于两个参数：最小分数和最大分数差，这两个参数都是根据验证数据集选择的。下图描述了在所有可能的场景中应用这两个参数的结果。首先，任何得分低于最低分的候选人都将被拒绝（图中的灰色区域）。其次，将剩余候选人的分数与排名第一的候选人的分数进行比较。如果某个候选人的分数与排名靠前的候选人的分数足够接近，则会将其作为匹配项返回（蓝色区域）。

此过程可能会导致以下情况：

场景A：没有候选人超过最低分数。这意味着没有足够匹配的内容，因此不会返回任何内容。
场景B：只有一名候选人高于最低分数。这意味着这是一场最好的比赛，我们没有太多选择，所以我们会把它送回。
场景C：有多个考生的分数高于最低分，并且他们的分数都相似。这意味着它们都是类似的良好匹配，因此都会返回。
场景D：有多个考生的分数高于最低分，但他们的分数相差很大。在这种情况下，我们不想返回所有的，但只想返回那些接近顶级比赛的。直觉上，如果我们真的有很好的比赛，我们不想返回低于最佳的比赛。这是最大分数差开始发挥作用的时候：我们将“分数距离”小于最大分数差的候选人返回给排名靠前的候选人。

我们在从Crossref元数据记录中取样的测试集上评估了该策略。测试集包含3000对（期刊文章、相应预印本集）。一半的期刊文章知道预印本，另一半不知道。可以访问测试集在这里.

我们使用精确度、召回率和F0.5作为评估指标：

精度衡量匹配关系中正确的部分。
回忆衡量匹配的真实关系的分数。
F0.5以有利于精确性的方式将精确性和召回结合在一起。

该策略取得了以下结果：准确度0.9921，召回率0.9474，F0.5 0.9828。平均处理时间为0.96s。

我们通过（实验性）API提供了此策略（期刊文章->预印本）：https://marple.research.corossref.org/match？task=预印本-matching&strategy=预印本sbmv&input=10.1109/access.2022.3213707。输入是要与预印本匹配的期刊文章的DOI，输出是找到的匹配项列表，以及每个匹配项的得分。

我们研究了其他方法，包括使用机器学习来决定哪些候选人作为匹配对象返回（上面的步骤3）。目前，没有一种方法优于上述启发式方法。启发式方法也因其快速性能而受到青睐。

预打印–期刊文章关系数据集

我们将该策略应用于整个Crossref数据库：

我们选择了2023年8月底之前出版的所有预印本。这仅包括类型为发布的内容和子类型预印本，如REST API所报告。其中1050247人。
我们对它们运行了匹配策略（预打印->期刊文章）。这导致了627011预印本与期刊文章之间的关系。
结果关系与Crossref成员保存的关系相结合。我们包括类型关系has-preprint接口或is-preprint-off在我们的数据库中，关系的双方都存在，直到2023年8月底才发布，并且具有适当的类型和子类型（类型=新闻文章用于期刊文章和类型=发布的内容，子类型=预印本预印本）。

结果数据集是一个包含以下字段的单个CSV文件：

预打印DOI（字符串）
期刊文章DOI（字符串）
期刊文章的出版商是否保存了这种关系（布尔值）
预印本的出版商是否保存了此关系（布尔值）
策略返回的置信度得分（float，如果策略没有发现这种关系，则为空）

数据集包含：

共有641950个关系，包括580532份预印本和565129篇期刊文章，
其中14939个是Crossref成员存放的，但没有被战略发现，
其中330826个被该策略发现，但没有任何Crossref成员提供，
其中296185个均由Crossref成员存放，并由该策略发现。

可以下载数据集在这里.

结论和下一步行动

总的来说，根据现有的和新发现的预印本与期刊文章之间的关系数量，采用自动匹配策略似乎会使Crossref数据库中这些关系的数量增加一倍左右。未来，我们希望不断匹配新的期刊文章。我们还计划通过REST API提供所有发现的关系。

与此同时，我们将以数据集的形式发布发现的关系，并邀请任何有兴趣的人进一步分析这些数据。如果你发现一些关于预印本及其关系的有趣信息，一定要告诉我们！

进一步阅读

RSS源

类别

档案室

2024 (28)
2023 (31)
2022 (31)
2021 (25)
2020 (34)
2019 (37)
2018 (55)
2017 (41)
2016 (50)
2015 (23)
2014 (4)
2013 (2)
2012 (5)
2011 (6)
2010 (9)
2009 (34)
2008 (56)
2007 (91)
2006 (21)

参与进来

查找服务

文档

关于我们

2024年8月28日

完美元数据匹配的神话

2024年7月25日

重新引入参与报告，以鼓励开放元数据方面的最佳做法

2024年7月22日

元数据模式开发计划

2024年7月2日

Crossmark社区咨询：我们学到了什么？

博客