“数据质量”类别存档

ChemSpider数据清理

以前的 帖子,我们讨论了用于检查新传入数据的结构和同义词错误的自动化工作流。这些检查允许我们在将最常见的错误添加到站点之前删除它们。然而,这些过滤器并不适用于ChemSpider中已有的数据。

人工管理是我们工作的一个重要部分。我们定期审查访问次数最多的记录中的数据,此外还特别删除或更正我们或我们的用户在使用网站时注意到的错误数据。然而,有太多的记录和太多的数据需要单独使用手动管理进行清理。

最近,我们重点关注批量识别和错误数据的删除。这项工作涵盖了我们实验属性数据中的映射错误和其他明显不正确的值,纠正或删除格式错误的同义词,纠正标记错误的同义词,以及解决结构/同义词冲突。

实验性质

我们从ChemSpider数据库中检索了630万个实验属性、文本属性和相关注释。然后,我们将该属性在原始文件中写入时的原始文本与沉积系统如何解析和映射该文本进行了比较。这使我们能够识别并更正影响数据库中大约2%属性的几种错误:

  • 35774个实验特性值的单位不正确(例如,g/L而不是g/mL,°C而不是°F)
  • 在非标准压力下测量的2591个沸点没有显示该压力
  • 4292个密度的密度和温度值互换
  • 删除了79252个杂项错误属性和相关注释。例如,“白色晶体”被映射为熔点、不可能的高熔点或密度等。

同义词

同义词、化学名称和标识符是ChemSpider上最丰富的数据类型,共有超过4.46亿个同义词。这些同义词有额外的元数据,包括识别其同义词类型的语言标签和标记(例如CAS编号、UNII、INN、商品名)。

简单检查

我们运行了一系列正则表达式字符串搜索,以识别元数据不正确的同义词,以及格式错误或其他错误的同义字。

  • 添加200007个同义词类型标志,删除4766个错误标志
  • 9170个同义词识别出错误的语言标签。
  • 631697个错误的同义词,包括乱序字符、属性/单位、作为同义词的分子公式、纯度信息,或无效的CAS编号或EC编号(以前称为EINECS)。
  • 从ChemSpider记录中删除922334个错误同义词实例。

结构/同义词比较

在识别并删除这些同义词级别的错误后,我们交叉检查ChemSpider记录及其同义词,以识别不匹配。这项工作包括氨基酸、核酸和药物上可接受的盐。

作为第一步,我们将同义词与分子公式进行了比较,以确定缺少关键元素的记录。例如,当分子式不含钠时,描述钠盐的同义词,或当分子式中不含氮时,描述氨基酸的同义语。共发现并删除了28194个同义词/公式冲突。

对于通过初始分子式检查的记录,我们进行了SMARTS比较,以确定缺少同义词中描述的关键结构特征的化学结构。这些SMARTS字符串写得很宽,允许进行常见替换,以防止从派生化合物中不必要地删除有效同义词。

在以下示例中,同义词中不匹配的部分以粗体突出显示。

结构

删除了同义词

二氧化硫的化学结构 硫酸盐离子
唑吡坦的化学结构 唑吡坦酒石酸盐
硫氰酸钠的化学结构 硫氰酸钠水合物

识别出这些冲突后,我们手动检测输出,以剔除误报并迭代SMARTS过滤器。识别并删除了101257个同义词/结构冲突。

这些检查包括以下类别:

  • 氨基酸及其衍生物:6种配方冲突,56种结构冲突
  • 核酸、核苷、核苷酸:977个公式冲突,1870个结构冲突
  • 卤素:13437次公式碰撞,1256次结构碰撞
  • 碱金属和碱土金属以及铝:3586种配方冲突,56种结构冲突
  • 羧酸及其衍生物:5002种配方冲突,88501种结构冲突
  • 其他医药上可接受的酸:3534种配方冲突,1529种结构冲突
  • 酰胺和胺:190种配方冲突,304种结构冲突
  • 氘化物、水合物、甲基溴化物:1462种配方冲突,7685种结构冲突

参与进来

你是你的化学领域的专家,所以如果你看到一些不太对劲的东西,请告诉我们。如果错误仅限于单个ChemSpider记录,请单击受影响记录顶部的“对此记录发表评论”框,让我们知道问题所在。我们只需要一句话来描述错误,但您能提供的信息越多越好。

有关更多系统性错误,或者如果您想附加补充信息或更正化学结构,请通过电子邮件联系(chemsider@rsc.org).

ChemSpider预沉积过滤器

作者:Mark Archibald。

在上一篇文章中(ChemSpider幕后)我们讨论了在维护世界上最大的化学数据库之一的数据质量方面的一些挑战。我们将自动过滤确定为处理人类无法合理处理的大量记录时的关键工具。在这篇文章中,我们将更详细地介绍过滤的工作原理、面临的挑战以及人工干预所起的作用。

为了执行此过滤,我们使用KNIME,一个开源数据处理平台。由活跃的化学信息学社区开发的广泛的KNIME节点允许我们对我们处理的数据提出特定于化学的问题。简单地说,符合我们标准的输入化学结构被传递到下一个节点,而那些不符合标准的则被写入错误文件。处理完所有结构后,结果是一个成功通过所有过滤器的结构文件,以及由于各种原因被拒绝的几个(通常较小)结构文件。

结构被过滤。审查标记的结构,并将通过的结构添加到ChemSpider。

不可能完整地检查所有生成的文件,因为这将消除自动处理的省时优势。然而,所有类型的输出文件都会进行抽查,以确保准确性,并反复改进过滤标准。某些输出文件很可能出现误报,因此我们会对其进行全面检查。

格式和标识符

提交的文件可以是几种不同格式中的一种。最常见的是SDF(结构数据文件,一种包含多个结构和相关数据字段的化学结构格式)。这种格式的优点是它包含二维或三维结构,因此我们可以立即开始处理文件,而无需将标识符转换为结构。这意味着我们存放的最终结构更有可能与原始结构完全匹配。SDF格式的缺点是它是专门化的——许多用户可能不熟悉它,或者没有创建和显示文件的软件。

我们还收到不同的电子表格格式(excel、csv、tsv),其结构编码在基于文本的符号系统中,如微笑InChI公司这种格式的优点是不需要专门的软件(前提是提交者对化合物使用SMILES或InChI)。缺点是结构需要在加工和沉积到ChemSpider之前转换为SDF。此外,这些格式包含有关原子及其连接性的信息,但缺少布局信息。这可能会引入错误,因为不同的结构绘图包可能会以稍微不同的方式解析这些结构,从而导致最终沉积结构的更改。

筛选条件

根据我们的经验和化学知识,我们判断化学结构的标准是明确的化学规则和不太明确的“经验法则”的混合。下面是这两者的示例。

空结构、查询原子和不正确的价

第一个过滤器是最简单的——ChemSpider是一个以结构为中心的数据库,因此不可能存放任何缺少结构的输入条目。

类似地,每个ChemSpider记录都需要一个单独定义的化学结构,因此我们排除了使用查询原子来表示变量原子或连接点的任何内容。

另一个简单的过滤器是排除原子具有无效价的结构。

充电不平衡

一般来说,ChemSpider中的条目应表示真实的、可隔离的化合物。这意味着我们过滤出总电荷不为零的结构。然而,我们对某些情况例外,在这些情况下,反离子通常不重要,只考虑带电物种是有用的,例如胆碱(ChemSpider记录).

包含未定义立体中心的结构

未定义的立体中心本身并不代表化学错误。然而,像下面所示的结构(胆固醇没有任何定义的立体中心)经常出现,尽管化学上是有效的,但它们不太可能代表预期的结构。

没有明确立体化学的胆固醇骨架

胆固醇骨架无立体化学

因此,我们有一个经验法则,排除包含两个以上未定义立体中心的结构。这不是一个硬性规定,而是试图在排除上述结构和包含未定义立体中心是有意且正确的结构之间取得平衡。

未定义立体中心的计数(通过检查InChI确定)有时包括常规排除立体化学楔的情况。例如,磷酸基团上没有楔形物的核酸和没有明确立体化学的金刚烷基团-用楔形物绘制这些化合物是不常见的,用户在搜索时很少使用楔形物。这些潜在的假阳性被筛选出来并手动审查。然后,馆长可以决定是否将它们包括在沉积中,从而提高过滤器的整体精度。

包含许多组件的结构

这是另一条经验法则——一种正确描述的化学物质可以含有多少独立成分没有上限。然而,根据经验,我们发现,排除具有四个以上独立组件的结构会删除最明显的无意义条目(例如。 试图描绘合金)同时保留大多数正确条目。

应用这一规则时,药物分子是误报的主要来源,因为它们通常是多水合物和/或具有多个反离子的盐(例如。盐酸伊立替康三水合物). 排除的水合物结构或含有普通药用盐的结构被标记为供人类审查。

同义词过滤器

此过滤器将指定给给定结构的同义词与其分子公式进行比较,并执行一些“常识”检查。例如,一个相对常见的错误是关联salt表单的名称(例如盐酸莫扎瓦普坦)带有自由底座的结构(莫扎瓦普坦). 在这种情况下,过滤器会删除包含“盐酸盐”的同义词,因为分子式不包含Cl。

智能

智能(维基百科页面)是描述一般化学结构的一种方式。它以SMILES为基础,但具有其他功能,允许指定可变链长、键数、氢数、可变键序或一个位置的多个潜在元素。

我们使用SMARTS来识别结构中常见的错误特征。其中包括:

  • 五价氮描绘的叠氮化合物和重氮基团
  • 与主体结构无关的“浮动”烷烃(可能是由于绘图程序中的意外点击引起的)
  • 金属羧酸盐,描述为具有元素金属原子的质子化羧酸
  • 六氟磷酸盐(和类似物种)被描述为五氟化磷和一个单独的氟离子

SMIRKS公司

SMIRKS是SMILES的进一步扩展,用于描述反应。我们不使用它来表示真实的反应,而是定义结构转换——允许我们修复简单的结构错误,这些错误可以通过破坏和创建键来解决。

一个例子是连接电荷分离的格氏试剂以提供更准确的描述:

重新连接断开的格氏试剂

重新连接Grignard

有机计量学

以机器可读格式编码有机金属结构的困难已被充分记录(化学杂志。信息模型。51, 12, 3149-3157). 有一个正在进行的IUPAC项目扩展InChI的功能但就目前而言,挑战依然存在。

每个ChemSpider记录基本上都基于InChI,因此我们受到当前限制的约束。这意味着我们不能描述配位键或非整数级键——任何绘制的键都被解释为标准共价键,每个原子贡献一个电子。

虽然我们通常不能以人类化学家喜欢的方式来表示有机金属结构,但我们仍然试图从各种可能的折衷中选择“错误最小”的结构。

二茂铁是这个问题的一个典型例子,说明了我们必须考虑的几个问题。下面显示了绘制二茂铁的几种常见方法(还有更多)。

二茂铁的常见描述在转换为mol文件时丢失了键合信息

将二茂铁结构转换为摩尔格式可能会导致分子式、键序或价的错误

 

所示的大多数结构都利用了化学绘图包的扩展功能,以一种对人类化学家有吸引力且易于理解的方式来表示二茂铁的键合。不幸的是,一旦转换为简化但通用的mol格式,其中一些特性就会丢失,导致无意义的结构。虽然结构D没有改变,但这种表征还有其他问题:铁的化合价不正确,也不能表征环戊二烯配体的芳香性。

我们可以用有限的方法来描述ChemSpider中的二茂铁及其相关结构,但没有一种方法能够准确地表示键合,也没有一种观点能够满足无机化学家的要求。然而,我们可以从可能的折衷中选择“最不坏的”,并允许机器可读性:

Fe2+和(C5H5-)2

我们的妥协

尽管这种结构(ChemSpider记录)没有捕获二茂铁的触觉,而且单个碳上的电荷定位不准确,它保留了正确的总电荷和价,并且没有显示配体是sigma-键合的。

更广泛地说,我们应用一些规则和转换来标准化有机金属结构的表示。其中许多规则涉及根据金属和配体的性质,选择将金属-碳(或金属-杂原子)描述为共价还是离子。同样,在机器可读结构的限制范围内工作时,有必要做出妥协,但我们试图将“更离子”和“更共价”键分类。以下是一些示例:

  • 从第1组和第2组金属上断开氧气
  • 将氧气连接到所有其他金属
  • 从钠、钾和钙中分离碳
  • 将碳连接到第11组和第12组金属、p块金属和一些类金属

正如预期的那样,像这样的一般规则在某些情况下会失败。因此,我们有额外的、更具体的规则来覆盖例外情况,我们会反复完善这些规则。

但这些错误仍然出现在ChemSpider中!

目前,所述过滤仅适用于进入ChemSpider的新数据。多年来建立的完整ChemSpider数据库当然包含了这里描述的每个错误的示例。为了修复这些遗留错误,我们打算通过相同的质量过滤器运行整个数据库。这是一项重要的任务,有一些特定的挑战:需要人工审查的文件变得更大,处理时间和内存/CPU开销很高,数据集越大,出现误报的可能性越大。为了应对这些挑战,我们正在花时间完善新沉积的工艺,并通过过滤器运行完整ChemSpider数据库的子集定期检查我们的进度。我们知道您需要访问您可以信任的数据,所以我们希望确保这一点是正确的。随着项目的进展,我们将继续向您更新,敬请期待!

ChemSpider幕后

了解我们是谁,我们如何运营网站,以及我们如何管理数据质量。

什么是ChemSpider?谁负责这项服务?

ChemSpider是世界上最大的化学数据库之一,包含6500多万个化学结构的数据。公众可通过以下网址免费获取此数据:化学蜘蛛网,由英国皇家化学学会.

皇家化学学会如何支持ChemSpider?

ChemSpider.com是一个独立服务,不依赖直接或研究拨款。皇家化学学会利用我们出版活动产生的盈余支持该网站,使我们能够提供可持续可靠的服务。我们还通过广告和提供付费网络服务(例如我们的API,针对非学术用户。这些活动有助于保持ChemSpider在财务上的可持续性,并有助于支持我们的服务器成本、员工工时和开发。

这些服务使我们能够让世界上的任何人都可以免费访问该网站,2017年,我们的独立用户超过600万。这些用户包括寻求家庭作业帮助的学生、学术界和工业界的研究人员,以及希望更新化学知识的普通用户。他们来自除南极洲以外的所有大陆,以及地球上几乎所有国家。

ChemSpider的特点是什么?

ChemSpider数据来自化学科学界本身——由研究人员、数据库、出版商、化学供应商等提交。

对于ChemSpider数据,我们有两个主要的纳入标准:

  1. 机器可读性–存款人必须以机器可读的格式提供结构,通常是可由以下人员解释的.mol文件InChI公司–开源化学结构表示算法。mol格式描述了化合物是如何按原子和键排列的。这意味着它只能准确地描述具有特定结构的小分子。对于ChemSpider,“小”意味着高达4000道尔顿的结构,包括短肽、寡核苷酸和其他结构。在ChemSpider中,大蛋白质、扩展晶格或长核苷酸太大,无法合理描述,但可以从其他适合大分子的数据库中获得。

    由于需要描述分子中的每个重原子,我们也只接受“定义结构”——具有精确链长、完全表达的官能团和整数键级的化合物。这意味着我们只能接受可以生成有效InChI的结构。

    大多数ChemSpider结构都是有机分子。然而,我们确实接受一些无机和有机金属化合物,并采用特定的方法来处理这些化合物。

  2. 真实化合物–我们不接受虚拟或预言化合物。

尽可能,我们只接受以物理形式合成或分离的化合物。这意味着我们不接受过渡态、理论预测的化合物、供应商提供的虚拟化合物或专利中的预测化合物。

谁是我们的数据来源?

我们已收到来自近250个独特数据源的数据,包括来自化学品供应商、专业数据库、个人、研究团体和出版商的数据。这些来源跨越了化学科学的范围,包括生物化学、药理学和毒理学、天然产物、光谱学和结晶学。每个ChemSpider记录都包含指向该化合物所有数据源的链接,使用户能够查找并检查数据的来源。

我们的数据源列表在不断变化,因为我们会找到新的数据源来添加和删除过时或低质量的数据源。

我们不再接受来自其他数据聚合器的数据。我们采取这一步骤是为了使我们的质量要求与其他数据库相匹配,并减少由预测来源引起的算法生成错误的传播。其中一个例子是棋盘游戏它源于一个光学结构识别程序,将专利中包含的数据表解释为化学结构。结果是一个81碳的网格结构,被错误地识别为复杂的环状烷烃,它被存放在公共储存库中,并在多个聚合器之间共享。

因此,我们仅直接从原始来源寻求数据,在原始来源中,我们对数据的来源和准确性有更大的把握,并正在努力管理仍在ChemSpider中的遗留数据。

由于像棋盘游戏(Chessboardane)这样的例子,我们对接受来自文本和数据源的数据持谨慎态度,这些数据源是存款人通过编程从专利或科学文献中的文本或编码图像中提取的。经过审查,我们添加了一些质量最高的数据挖掘源。我们将继续逐个审查潜在的新数据源,以确保其数据符合我们的质量标准。

自动过滤器

手动检查ChemSpider中6500万条记录 一个人要花600多年的时间才能完成日夜工作&即使我们对每条记录只花了5分钟的管理时间。

相反,我们通过一系列自动过滤器对每次沉积进行筛选,以筛选出不合适的结构,例如具有不正确价态、不平衡电荷或缺少立体化学的结构。除了结构过滤器之外,我们还应用基本名称和同义词过滤,并定期检查处理过的文件,以便改进过滤器。

我们在下面提供了此过程的简化概述,并将在单独的博客文章:

结构在KNIME中通过过滤器运行。那些不符合过滤器要求的将被删除并审查。通过的结构被存放到ChemSpider

ChemSpider工作人员的策展

ChemSpider由一小队全职馆长,他们致力于添加新化合物、删除错误并对用户反馈做出响应。我们的员工在化学数据和实际化学方面都有丰富的经验,具有有机合成和艺术保护等领域的背景,并且在其他皇家化学学会数据库方面有丰富的工作经验,例如默克指数*在线的 分析摘要.

社区管理

因为我们无法亲自查看每一条记录,所以我们非常感谢用户的评论或更正。帮助我们改进ChemSpider的最简单方法是在您发现错误时留下反馈或发送电子邮件给我们。我们尝试在几天内根据用户反馈采取行动,以便更快地进行更简单的查询。如果您发现错误,请通过在相关ChemSpider记录上留言或发送电子邮件告知我们(chemsider@rsc.org).

希望更多参与的用户可以直接保存结构并管理与其研究或工作相关的同义词,而无需向ChemSpider团队发送电子邮件。

我们非常感谢我们的社区管理员多年来所做的贡献。

继续使用和贡献ChemSpider

要访问6500多万个化学结构的信息,请访问化学蜘蛛网,可以从任何设备、任何位置免费通过结构、名称或高级查询进行完全搜索。

要存放数据、告诉我们错误、成为馆长或进行任何其他查询,请随时发送电子邮件至chemsider@rsc.org

*默克指数由默克夏普公司(MERCK Sharp&Dohme Corp.)所有,默克公司是美国新泽西州怀特豪斯站默克公司(Whitehouse Station,U.S.a.)的子公司,并授权英国皇家化学学会(The Royal Society of Chemistry)在美国和加拿大使用。