跳转到主要内容

在Mathematical Reviews®数据库中唯一识别数学作者

自1940年以来,Mathematical Reviews®一直试图识别其出版物中所列论文的作者。这在一开始完全是手工完成的,每个人的数据(公布的姓名变体、MR编号等)保存在3x5卡片上,并按字母顺序归档。从1985年开始,随着电子作者数据库的出现,作者身份识别过程已达到惊人的自动化程度。MR员工所做的这项工作的结果可以在印刷的Mathematical Reviews®标题、印刷的作者索引和搜索作者数据库MathSciNet的应用程序。

对于每个作者,MR数据库中都有一个单独的“作者身份”记录,其中包含与作者、机构附属机构、分配给作者身份论文的数学主题分类、合著者以及MR数据库索引的论文参考相关的每个已发表的名称变体。每个记录都以“首选名称”为首,该名称通常代表作者姓名的完整发布形式,将作者身份与使用类似名称发布的其他人区分开来;有时,如果需要唯一标识作者身份,则使用未发布的全名作为首选名称。

MR的作者识别使用了许多机器算法来比较出现在论文上的名称字符串、为作者列出的机构关系以及MR编辑根据MR数据库中已有的作者身份对论文进行的分类,并找到最佳可能(理想情况下精确)匹配所有三个元素。这些计划大约有80%的时间是成功的。对于剩下的百分之二十,程序使用预设算法对可能的匹配进行排序,从而对数据库中与作者身份的潜在匹配进行“最佳猜测”。MR工作人员将大部分时间花在剩下的20%上:检查键盘上的名称字符串是否有拼写错误或名称中断错误;仔细检查了期刊的名字表述意图(期刊在名字/姓氏的表述中确实会出错);检查交替拼写;检查书目是否有自引;检查合著者是否匹配。当手头的论文所能提供的所有可能性都用尽时,员工会使用互联网和网络工具搜索作者,例如在大学/系网站上搜索全名,或搜索带有出版物列表的简历。如有必要,可通过电子邮件或纸质邮件联系作者。

MathSciNet Web界面引入到Mathematical Reviews®数据库中,推动了从1985年之前MR索引或审查的论文中创建额外的作者诱导数据库记录。基于与已知作者姓名变体的精确字符串匹配,使用匹配算法将旧论文的属性指定给MR数据库中已有的作者身份。如果作者在1985年之前撰写的论文中使用了她或他的名字的一种形式(比如“Smith,J.M.”),但在后来的论文中却使用了另一种形式的名字(“Smith's,John M。可以使用工具检查和合并作者的个人记录,并使这些更改在MathSciNet上几乎一夜之间可用。MathSciNet用户在这方面也证明了其宝贵的帮助,鼓励用户通知Mathematical Reviews®他们在使用搜索作者数据库或者点击标题中的作者姓名。

有关作者身份的有用讨论,如数学评论®数据库的MathSciNet界面所示,可在小册子中找到MathSciNet——网上数学评论®:指导您阅读数学文献下载中的副本PDF格式.