博客

阅读9分钟。

发现预印本和期刊文章之间的关系

在学术传播环境中,期刊文章的演变可以通过其与预印本的关系来追踪。这些预印本与期刊文章的关系是研究关系。其中一些关系是由Crossref成员(包括出版商、大学、研究团体、资助者等)在向Crossref存放元数据时提供的,但我们知道其中有很大一部分关系缺失。为了填补这一空白,我们开发了一种新的自动策略,用于发现预印本和期刊文章之间的关系,并将其应用于Crossref数据库中的所有预印本。我们制作了结果数据集,其中包含发布者断言和自动发现的关系,公开可用供任何人分析。

TL;博士

  • 我们开发了一种新的基于启发式的策略,用于将期刊文章与其预印本进行匹配。在评估数据集上取得了以下结果:精确度0.99,召回率0.95,F0.5 0.98。代码可用在这里.

  • 我们将该策略应用于Crossref数据库中的所有预印本。它发现了627K的预印本与期刊文章之间的关系。

  • 我们收集了Crossref成员存放的所有预印本-期刊文章关系,将它们与新策略发现的关系合并,并将所有内容作为数据集。数据集中有642K个关系,包括:

    • 296K由出版商提供,并由策略发现,
    • 仅该战略发现了331000条新关系,
    • 15K仅由出版商提供。
  • 未来,我们计划用新的匹配策略替换当前的匹配策略,并通过Crossref REST API提供所有发现的关系。

介绍

预印本和期刊文章之间的关系将不同版本的研究成果联系起来,使人们能够跟踪出版物随时间的演变。Crossref存放模式允许Crossref-成员为新出版物提供这些关系has-preprint接口存放在期刊文章中的关系,或是的预印本预印本存放的关系。

为了帮助存放预印本的会员,我们还尝试将存放的期刊文章与预印本联系起来。当前方法查找标题和第一作者之间的精确匹配。我们将可能的匹配作为建议发送给预打印服务器,由其决定是否使用关系更新元数据。

在撰写本文时,Crossref数据库中的137837篇期刊文章具有has-preprint接口关系1和56225个类型的已发布内容的作品(预印本属于此类型)具有is-preprint-off关系2.

我们怀疑许多预印本与期刊文章的关系缺失,因为一些成员不可避免地无法保存它们,即使在当前匹配策略提出建议后也是如此。另一个因素是,当前的策略相当保守,可能会遗漏大量关系。出于这些原因,我们决定调查是否可以改进当前流程。这样做将允许我们大规模推断缺失的关系,类似于我们如何自动将书目参考与DOI匹配。

此预打印匹配任务可以从两个方向定义:

  • 我们从一篇期刊文章开始,想找到它的所有预印本。
  • 我们从预印本开始,希望找到随后发表的期刊文章。

一方面,从期刊文章到预印本的匹配将允许我们用新的关系不断丰富数据库,无论是定期还是每次添加新内容。由于期刊文章在数据库中出现的时间往往晚于其预印本,因此一篇新的期刊文章触发匹配是有意义的,而不是相反。这样,我们可以期望在匹配时数据库中已经存在潜在的匹配。

另一方面,在我们希望在现有数据库中回顾性地添加关系的情况下,从预印本到期刊文章的匹配可能很有用。在我们的例子中,数据库包含的期刊文章比预印本多,因此出于性能原因,最好从预印本开始。

在这两种情况下,我们都要处理结构化匹配,这意味着我们要匹配作品(预印本或期刊文章)的元数据记录,而不是非结构化文本。

由于匹配了单个预印本或单个期刊文章,我们应该期望零个或多个匹配的期刊文章/预印本。在以下情况下会发生多次匹配:

  • 有多个版本的匹配预印本和/或
  • 匹配的作品有重复的。

图中显示了将期刊文章与预印本的两个版本进行匹配的结果:

预打印匹配

匹配策略

我们的匹配策略使用以下工作流程:

  1. 使用Crossref REST API收集候选列表。
  2. 对输入项和每个候选项之间的相似性进行评分。
  3. 关于哪些候选人(如果有的话)应作为匹配项返回的最终决定。

使用Crossref REST API收集候选查询.bibliographic参数。查询是输入项的标题和作者姓氏的串联。我们根据候选人的类型筛选他们,根据匹配的方向,只留下预印本或期刊文章。未来,我们将使用专门的搜索引擎,对预打印匹配进行优化,而不是从REST API中获取候选项。

给候选人打分是基于启发式的。标题、作者和年份之间的相似性是独立评分的,最终得分是他们的平均值。使用rapidfuzz库。使用ORCID ID或名字/姓氏(如果ORCID标识不可用)成对比较作者。如果文章发表时间不早于预印前一年,也不迟于预印后三年,则发布年份之间的相似性得分为1,否则为0。

最终决策基于两个参数:最小分数和最大分数差,这两个参数都是根据验证数据集选择的。下图描述了在所有可能的场景中应用这两个参数的结果。首先,任何得分低于最低分的候选人都将被拒绝(图中的灰色区域)。其次,将剩余候选人的分数与排名第一的候选人的分数进行比较。如果某个候选人的分数与排名靠前的候选人的分数足够接近,则会将其作为匹配项返回(蓝色区域)。

预打印匹配方案

此过程可能会导致以下情况:

  • 场景A:没有候选人超过最低分数。这意味着没有足够匹配的内容,因此不会返回任何内容。
  • 场景B:只有一名候选人高于最低分数。这意味着这是一场最好的比赛,我们没有太多选择,所以我们会把它送回。
  • 场景C:有多个考生的分数高于最低分,并且他们的分数都相似。这意味着它们都是类似的良好匹配,因此都会返回。
  • 场景D:有多个考生的分数高于最低分,但他们的分数相差很大。在这种情况下,我们不想返回所有的,但只想返回那些接近顶级比赛的。直觉上,如果我们真的有很好的比赛,我们不想返回低于最佳的比赛。这是最大分数差开始发挥作用的时候:我们将“分数距离”小于最大分数差的候选人返回给排名靠前的候选人。

我们在从Crossref元数据记录中取样的测试集上评估了该策略。测试集包含3000对(期刊文章、相应预印本集)。一半的期刊文章知道预印本,另一半不知道。可以访问测试集在这里.

我们使用精确度、召回率和F0.5作为评估指标:

  • 精度衡量匹配关系中正确的部分。
  • 回忆衡量匹配的真实关系的分数。
  • F0.5以有利于精确性的方式将精确性和召回结合在一起。

该策略取得了以下结果:准确度0.9921,召回率0.9474,F0.5 0.9828。平均处理时间为0.96s。

我们通过(实验性)API提供了此策略(期刊文章->预印本):https://marple.research.corossref.org/match?task=预印本-matching&strategy=预印本sbmv&input=10.1109/access.2022.3213707。输入是要与预印本匹配的期刊文章的DOI,输出是找到的匹配项列表,以及每个匹配项的得分。

我们研究了其他方法,包括使用机器学习来决定哪些候选人作为匹配对象返回(上面的步骤3)。目前,没有一种方法优于上述启发式方法。启发式方法也因其快速性能而受到青睐。

预打印–期刊文章关系数据集

我们将该策略应用于整个Crossref数据库:

  1. 我们选择了2023年8月底之前出版的所有预印本。这仅包括类型为发布的内容和子类型预印本,如REST API所报告。其中1050247人。
  2. 我们对它们运行了匹配策略(预打印->期刊文章)。这导致了627011预印本与期刊文章之间的关系。
  3. 结果关系与Crossref成员保存的关系相结合。我们包括类型关系has-preprint接口is-preprint-off在我们的数据库中,关系的双方都存在,直到2023年8月底才发布,并且具有适当的类型和子类型(类型=新闻文章用于期刊文章和类型=发布的内容,子类型=预印本预印本)。

结果数据集是一个包含以下字段的单个CSV文件:

  • 预打印DOI(字符串)
  • 期刊文章DOI(字符串)
  • 期刊文章的出版商是否保存了这种关系(布尔值)
  • 预印本的出版商是否保存了此关系(布尔值)
  • 策略返回的置信度得分(float,如果策略没有发现这种关系,则为空)

数据集包含:

  • 共有641950个关系,包括580532份预印本和565129篇期刊文章,
  • 其中14939个是Crossref成员存放的,但没有被战略发现,
  • 其中330826个被该策略发现,但没有任何Crossref成员提供,
  • 其中296185个均由Crossref成员存放,并由该策略发现。

可以下载数据集在这里.

结论和下一步行动

总的来说,根据现有的和新发现的预印本与期刊文章之间的关系数量,采用自动匹配策略似乎会使Crossref数据库中这些关系的数量增加一倍左右。未来,我们希望不断匹配新的期刊文章。我们还计划通过REST API提供所有发现的关系。

与此同时,我们将以数据集的形式发布发现的关系,并邀请任何有兴趣的人进一步分析这些数据。如果你发现一些关于预印本及其关系的有趣信息,一定要告诉我们!

进一步阅读

页面所有者:Dominika Tkaczyk |上次更新时间:2023-12-07