ChemSpider数据清理

以前的 帖子,我们讨论了用于检查新传入数据的结构和同义词错误的自动化工作流。这些检查允许我们在将最常见的错误添加到站点之前删除它们。然而,这些过滤器并不适用于ChemSpider中已有的数据。

人工管理是我们工作的一个重要部分。我们定期审查访问次数最多的记录中的数据,此外还特别删除或更正我们或我们的用户在使用网站时注意到的错误数据。然而,有太多的记录和太多的数据需要单独使用手动管理进行清理。

最近,我们专注于批量识别和删除错误数据。这项工作涵盖了我们实验属性数据中的映射错误和其他明显不正确的值,纠正或删除格式错误的同义词,纠正标记错误的同义词,以及解决结构/同义词冲突。

实验性质

我们从ChemSpider数据库中检索了630万个实验属性、文本属性和相关注释。然后,我们将该属性在原始文件中写入时的原始文本与沉积系统如何解析和映射该文本进行了比较。这使我们能够识别并更正影响数据库中大约2%属性的几种错误:

  • 35774个实验特性值的单位不正确(例如,g/L而不是g/mL,°C而不是°F)
  • 在非标准压力下测量的2591个沸点没有显示该压力
  • 4292个密度的密度和温度值互换
  • 删除了79252个杂项错误属性和相关注释。例如,“白色晶体”被映射为熔点、不可能的高熔点或密度等。

同义词

同义词、化学名称和标识符是ChemSpider上最丰富的数据类型,共有4.46亿个同义词。这些同义词有额外的元数据,包括识别其同义词类型的语言标签和标记(例如CAS编号、UNII、INN、商品名)。

简单检查

我们运行了一系列正则表达式字符串搜索,以识别元数据不正确的同义词,以及格式错误或其他错误的同义字。

  • 添加200007个同义词类型标志,删除4766个错误标志
  • 识别出9170个带有错误语言标签的同义词。
  • 631697个错误的同义词,包括乱序字符、属性/单位、作为同义词的分子公式、纯度信息,或无效的CAS编号或EC编号(以前称为EINECS)。
  • 从ChemSpider记录中删除922334个错误同义词实例。

结构/同义词比较

识别并删除这些同义词级错误后,我们再交叉检查ChemSpider记录及其同义词,以识别不匹配。这项工作包括氨基酸、核酸和药学上可接受的盐。

作为第一步,我们将同义词与分子公式进行了比较,以确定缺少关键元素的记录。例如,当分子式不含钠时,描述钠盐的同义词,或当分子式中不含氮时,描述氨基酸的同义语。共发现并删除了28194个同义词/公式冲突。

对于通过初始分子式检查的记录,我们进行了SMARTS比较,以确定缺少同义词中描述的关键结构特征的化学结构。这些SMARTS字符串写得很宽,允许进行常见替换,以防止从派生化合物中不必要地删除有效同义词。

在以下示例中,同义词的不匹配部分以粗体突出显示。

结构

删除了同义词

二氧化硫的化学结构 硫酸盐离子
唑吡坦的化学结构 唑吡坦酒石酸盐
硫氰酸钠的化学结构 硫氰酸钠水合物

在识别出这些冲突之后,我们手动抽查输出以剔除误报并迭代SMARTS过滤器。识别并删除了101257个同义词/结构冲突。

这些检查包括以下类别:

  • 氨基酸及其衍生物:6种配方冲突,56种结构冲突
  • 核酸、核苷、核苷酸:977个公式冲突,1870个结构冲突
  • 卤素:13437次公式碰撞,1256次结构碰撞
  • 碱金属和碱土金属以及铝:3586种配方冲突,56种结构冲突
  • 羧酸及其衍生物:5002种配方冲突,88501种结构冲突
  • 其他医药上可接受的酸:3534种配方冲突,1529种结构冲突
  • 酰胺和胺:190种配方冲突,304种结构冲突
  • 氘化物、水合物、甲基溴化物:1462种配方冲突,7685种结构冲突

参与进来

你是你的化学领域的专家,所以如果你看到一些不太对劲的东西,请告诉我们。如果错误仅限于一条ChemSpider记录,请单击受影响记录顶部的“评论此记录”框,让我们知道问题是什么。我们只需要一句话描述错误,但您提供的信息越多越好。

有关更多系统性错误,或者如果您想附加补充信息或更正化学结构,请通过电子邮件联系(chemsider@rsc.org).