dblp如何处理同音异义词和同义词?

同音异义词

一个同音异义词是一组拼写相同但含义不同的单词之一。在以下背景下数据库许可证,我们将同名的不同作者称为同音异义词。因此,“同一个名字”指的是完全相同的(拉丁语-1)字符串,考虑到穿孔、音调符号甚至大小写。也就是说,“J·史密斯”、“约翰·史密斯”和“Jöhn Smith”都被认为是不同的名字,就像“奥谢”和“O·谢”,或“艾伦”和“艾琳”,甚至“吉安路易吉”和“吉安·路易吉“。

数据库许可证,我们试图识别和区分同名作者。不同的作者由各自的作者页面表示。从技术角度来看,他们被分配了一个唯一的密钥,他们的名字在我们的数据库中通过唯一的数字后缀以他们的名字命名。

请理解,目前,现有的数据库许可证作者页面要么是由发现自己的出版物与其他人的作品混在一起的作者的请求触发的,要么是如果我们能够证明自己强烈怀疑某个条目背后有几个人。在许多情况下,同音异义词仍未被发现。如果你知道这样一个例子,你可以告诉我们.

同义词

同义词意思相同或相似的不同单词。数据库许可证有很多原因可以解释为什么几个作者的名字被认为是某个特定作者的同义词:姓名变更、昵称、零星使用中间名、缺少或缩写名称部分,甚至是假名。出版商元数据中偶尔出现的拼写错误也只会使问题复杂化。

只要可能,我们都会更正元数据中可能存在的错误。我们也会填写任何缺失或缩写的名称部分,即使这些部分没有出现在实际出版物中。当出版物上经常使用一个名称的多个版本时,我们可能会将这些名称作为别名包含在数据集中。

由于技术限制, 数据库许可证无法处理包含拉丁-1字符集以外的Unicode字符的名称然而,我们有时会在作者页面上提供完整的Unicode名称作为注释。

服务莱布尼茨信息中心(Schloss Dagstuhl)