作者存档

ChemSpider数据清理

以前的 帖子,我们讨论了用于检查新传入数据的结构和同义词错误的自动化工作流。这些检查允许我们在将最常见的错误添加到站点之前删除它们。然而,这些过滤器并不适用于ChemSpider中已有的数据。

人工管理是我们工作的一个重要部分。我们定期审查访问次数最多的记录中的数据,此外还特别删除或更正我们或我们的用户在使用网站时注意到的错误数据。然而,有太多的记录和太多的数据需要单独使用手动管理进行清理。

最近,我们重点关注批量识别和错误数据的删除。这项工作涵盖了我们实验属性数据中的映射错误和其他明显不正确的值,纠正或删除格式错误的同义词,纠正标记错误的同义词,以及解决结构/同义词冲突。

实验性质

我们从ChemSpider数据库中检索了630万个实验属性、文本属性和相关注释。然后,我们将该属性在原始文件中写入时的原始文本与沉积系统如何解析和映射该文本进行了比较。这使我们能够识别并更正影响数据库中大约2%属性的几种错误:

  • 35774个实验特性值的单位不正确(例如,g/L而不是g/mL,°C而不是°F)
  • 在非标准压力下测量的2591个沸点没有显示该压力
  • 4292个密度的密度和温度值互换
  • 删除了79252个杂项错误属性和相关注释。例如,“白色晶体”被映射为熔点、不可能的高熔点或密度等。

同义词

同义词、化学名称和标识符是ChemSpider上最丰富的数据类型,共有超过4.46亿个同义词。这些同义词有额外的元数据,包括识别其同义词类型的语言标签和标记(例如CAS编号、UNII、INN、商品名)。

简单检查

我们运行了一系列正则表达式字符串搜索,以识别元数据不正确的同义词,以及格式错误或其他错误的同义字。

  • 添加200007个同义词类型标志,删除4766个错误标志
  • 9170个同义词识别出错误的语言标签。
  • 631697个错误的同义词,包括乱序字符、属性/单位、作为同义词的分子公式、纯度信息,或无效的CAS编号或EC编号(以前称为EINECS)。
  • 从ChemSpider记录中删除922334个错误同义词实例。

结构/同义词比较

在识别并删除这些同义词级别的错误后,我们交叉检查ChemSpider记录及其同义词,以识别不匹配。这项工作包括氨基酸、核酸和药物上可接受的盐。

作为第一步,我们将同义词与分子公式进行了比较,以确定缺少关键元素的记录。例如,当分子式不含钠时,描述钠盐的同义词,或当分子式中不含氮时,描述氨基酸的同义语。共发现并删除了28194个同义词/公式冲突。

对于通过初始分子式检查的记录,我们进行了SMARTS比较,以确定缺少同义词中描述的关键结构特征的化学结构。这些SMARTS字符串写得很宽,允许进行常见替换,以防止从派生化合物中不必要地删除有效同义词。

在以下示例中,同义词中不匹配的部分以粗体突出显示。

结构

删除了同义词

二氧化硫的化学结构 硫酸盐离子
唑吡坦的化学结构 唑吡坦酒石酸盐
硫氰酸钠的化学结构 硫氰酸钠水合物

识别出这些冲突后,我们手动检测输出,以剔除误报并迭代SMARTS过滤器。识别并删除了101257个同义词/结构冲突。

这些检查包括以下类别:

  • 氨基酸及其衍生物:6种配方冲突,56种结构冲突
  • 核酸、核苷、核苷酸:977个公式冲突,1870个结构冲突
  • 卤素:13437次公式碰撞,1256次结构碰撞
  • 碱金属和碱土金属以及铝:3586种配方冲突,56种结构冲突
  • 羧酸及其衍生物:5002种配方冲突,88501种结构冲突
  • 其他医药上可接受的酸:3534种配方冲突,1529种结构冲突
  • 酰胺和胺:190种配方冲突,304种结构冲突
  • 氘化物、水合物、甲基溴化物:1462种配方冲突,7685种结构冲突

参与进来

你是你的化学领域的专家,所以如果你看到一些不太对劲的东西,请告诉我们。如果错误仅限于单个ChemSpider记录,请单击受影响记录顶部的“对此记录发表评论”框,让我们知道问题所在。我们只需要一句话来描述错误,但您能提供的信息越多越好。

有关更多系统性错误,或者如果您想附加补充信息或更正化学结构,请通过电子邮件联系(chemsider@rsc.org).

提示和技巧:从结构生成机器可读的结构数据

有兴趣让你的文章更容易被发现和使用吗?作为读者,你可能花了很多时间从PDF格式的图像中重新绘制结构,或者很难找到所有相关的文章,因为您感兴趣的化合物在不同的文章中使用不同的名称(IUPAC名称、平凡名称、注册号、药物开发ID、通用名称、品牌名称、修改过的平凡名称等)。

如果您已经在为准备提交的文章绘制结构,则只需几秒钟即可生成机器可读的mol文件或结构标识符,如微笑InChI公司。在文章或补充信息中包含这些文件或标识符有助于使文章可索引和结构可搜索,这是使文章脱颖而出的好方法。

另存为MOL文件另存为mol文件

 

所有主要结构绘图包都可以将结构保存为MOL文件。它们通常遵循相同的步骤:

从顶部菜单中选择文件>另存为,或按Ctrl+Shift+S。

在下拉列表中选择“MDL Molfile”、“MDL SDFile”或“.mol”或“.sdf”。

请注意:下拉列表中可能列出了多个molfile格式。如果有多个选项,请注意V2000 mol格式更常见,并且所有化学信息软件包都支持该格式。V3000 mol文件有一些额外的功能,但不受普遍支持,因此建议您使用V2000 mol格式以确保最大程度的互操作性。


复制为微笑InChI公司

首先选择要复制为SMILES或InChI的结构。

阿伏加德罗

抄送:阿伏加德罗

从顶部菜单中,选择编辑>复制为>SMILES或InChI

化学涂鸦

复制为-chemdoodle

从顶部菜单中,选择编辑>复制为>日光笑脸或IUPAC InChI

要复制为SMILES,请按Ctrl+Alt+C

ChemDraw公司

复制为InChI

从顶部菜单中,选择编辑>复制为>SMILES或InChI

右键单击,然后选择Molecule>Copy As>SMILES或InChI

要复制为SMILES,请按Alt+Ctrl+C

化学素描

机器可读副本as-chemsketch

从顶部菜单中,选择工具>生成>SMILES符号或InChI for Structure

马尔文素描

抄送:Marvin

按Ctrl+K,然后从“复制为”弹出窗口中选择SMILES或InChI

从顶部菜单中,选择编辑>复制为,然后从弹出窗口中选择SMILES或InChI

要复制为SMILES,请按Ctrl+L

最后,将SMILES或InChI粘贴到文档或电子表格中。


我们花在从pdf重新绘制结构上的时间越少,我们就可以花更多的时间从事科学研究。幸运的是,通过包含机器可读的结构文件或标识符来提高文章的可发现性和可重用性真的是再快也不容易了。让我们一起努力,使化学文章更容易找到和使用。

ChemSpider移动应用程序

ChemSpider手机是由Molecular Materials Informatics Inc开发的应用程序1代表皇家化学学会,允许用户探索移动设备上ChemSpider的好处。自推出以来,我们对ChemSpider.com进行了改进,包括响应性设计元素,使其能够更好地用于智能手机和平板电脑2以及ChemSpider网络服务的升级正是由于这些发展,我们认为及时审查社区对该应用程序的需求,并决定从31开始停止对为该应用程序提供支持的服务的支持标准10月。我们要感谢所有使用该应用程序并提供反馈以帮助其开发的人,并鼓励您在未来的移动应用中使用ChemSpider.com。

1网址:http://molmatinf.com/

2http://blogs.rsc.org/chemspider/2015/05/21/introduction-to-the-new-chemspider网站/

三。https://developer.rsc.org/

ChemSpider预沉积过滤器

作者:Mark Archibald。

在上一篇文章中(ChemSpider幕后)我们讨论了在维护世界上最大的化学数据库之一的数据质量方面的一些挑战。我们将自动过滤确定为处理人类无法合理处理的大量记录时的关键工具。在这篇文章中,我们将更详细地介绍过滤的工作原理、面临的挑战以及人工干预所起的作用。

为了执行此过滤,我们使用KNIME,一个开源数据处理平台。由活跃的化学信息学社区开发的广泛的KNIME节点允许我们对我们处理的数据提出特定于化学的问题。简单地说,符合我们标准的输入化学结构被传递到下一个节点,而那些不符合标准的则被写入错误文件。处理完所有结构后,结果是一个成功通过所有过滤器的结构文件,以及由于各种原因被拒绝的几个(通常较小)结构文件。

结构被过滤。审查标记的结构,并将通过的结构添加到ChemSpider。

不可能完整地检查所有生成的文件,因为这将消除自动处理的省时优势。然而,所有类型的输出文件都会进行抽查,以确保准确性,并反复改进过滤标准。某些输出文件很可能出现误报,因此我们会对其进行全面检查。

格式和标识符

提交的文件可以是几种不同格式中的一种。最常见的是SDF(结构数据文件,一种包含多个结构和相关数据字段的化学结构格式)。这种格式的优点是它包含二维或三维结构,因此我们可以立即开始处理文件,而无需将标识符转换为结构。这意味着我们存放的最终结构更有可能与原始结构完全匹配。SDF格式的缺点是它是专门化的——许多用户可能不熟悉它,或者没有创建和显示文件的软件。

我们还收到不同的电子表格格式(excel、csv、tsv),其结构编码在基于文本的符号系统中,如微笑InChI公司这种格式的优点是不需要专门的软件(前提是提交者对化合物使用SMILES或InChI)。缺点是结构需要在加工和沉积到ChemSpider之前转换为SDF。此外,这些格式包含有关原子及其连接性的信息,但缺少布局信息。这可能会引入错误,因为不同的结构绘图包可能会以稍微不同的方式解析这些结构,从而导致最终沉积结构的更改。

筛选条件

根据我们的经验和化学知识,我们判断化学结构的标准是明确的化学规则和不太明确的“经验法则”的混合。下面是这两者的示例。

空结构、查询原子和不正确的价

第一个过滤器是最简单的——ChemSpider是一个以结构为中心的数据库,因此不可能存放任何缺少结构的输入条目。

类似地,每个ChemSpider记录都需要一个单独定义的化学结构,因此我们排除了使用查询原子来表示变量原子或连接点的任何内容。

另一个简单的过滤器是排除原子具有无效价的结构。

充电不平衡

一般来说,ChemSpider中的条目应表示真实的、可隔离的化合物。这意味着我们过滤出总电荷不为零的结构。然而,我们对某些情况例外,在这些情况下,反离子通常不重要,只考虑带电物种是有用的,例如胆碱(ChemSpider记录).

包含未定义立体中心的结构

未定义的立体中心本身并不代表化学错误。然而,像下面所示的结构(胆固醇没有任何定义的立体中心)经常出现,尽管化学上是有效的,但它们不太可能代表预期的结构。

没有明确立体化学的胆固醇骨架

胆固醇骨架无立体化学

因此,我们有一个经验法则,排除包含两个以上未定义立体中心的结构。这不是一个硬性规定,而是试图在排除上述结构和包含未定义立体中心是有意且正确的结构之间取得平衡。

未定义立体中心的计数(通过检查InChI确定)有时包括常规排除立体化学楔的情况。例如,磷酸基团上没有楔形物的核酸和没有明确立体化学的金刚烷基团-用楔形物绘制这些化合物是不常见的,用户在搜索时很少使用楔形物。这些潜在的假阳性被筛选出来并手动审查。然后,馆长可以决定是否将它们包括在沉积中,从而提高过滤器的整体精度。

包含许多组件的结构

这是另一条经验法则——一种正确描述的化学物质可以含有多少独立成分没有上限。然而,根据经验,我们发现,排除具有四个以上独立组件的结构会删除最明显的无意义条目(例如。 试图描绘合金)同时保留大多数正确条目。

应用这一规则时,药物分子是误报的主要来源,因为它们通常是多水合物和/或具有多个反离子的盐(例如。盐酸伊立替康三水合物)。排除的水合物结构或含有普通药用盐的结构被标记为供人类审查。

同义词过滤器

此过滤器将指定给给定结构的同义词与其分子公式进行比较,并执行一些“常识”检查。例如,一个相对常见的错误是关联salt表单的名称(例如盐酸莫扎瓦普坦)带有自由底座的结构(莫扎瓦普坦)。在这种情况下,过滤器会删除包含“盐酸盐”的同义词,因为分子式不包含Cl。

智能

智能(维基百科页面)是描述一般化学结构的一种方式。它以SMILES为基础,但具有其他功能,允许指定可变链长、键数、氢数、可变键序或一个位置的多个潜在元素。

我们使用SMARTS来识别结构中常见的错误特征。其中包括:

  • 五价氮描绘的叠氮化合物和重氮基团
  • 与主体结构无关的“浮动”烷烃(可能是由于绘图程序中的意外点击引起的)
  • 金属羧酸盐,描述为具有元素金属原子的质子化羧酸
  • 六氟磷酸盐(和类似物种)被描述为五氟化磷和一个单独的氟离子

SMIRKS公司

SMIRKS是SMILES的进一步扩展,用于描述反应。我们不使用它来表示真实的反应,而是定义结构转换——允许我们修复简单的结构错误,这些错误可以通过破坏和创建键来解决。

一个例子是连接电荷分离的格氏试剂以提供更准确的描述:

重新连接断开的格氏试剂

重新连接Grignard

有机计量学

以机器可读格式编码有机金属结构的困难已被充分记录(化学杂志。信息模型。51, 12, 3149-3157)。有一个正在进行的IUPAC项目扩展InChI的功能但就目前而言,挑战依然存在。

每个ChemSpider记录基本上都基于InChI,因此我们受到当前限制的约束。这意味着我们不能描述配位键或非整数级键——任何绘制的键都被解释为标准共价键,每个原子贡献一个电子。

虽然我们通常不能以人类化学家喜欢的方式来表示有机金属结构,但我们仍然试图从各种可能的折衷中选择“错误最小”的结构。

二茂铁是这个问题的一个典型例子,说明了我们必须考虑的几个问题。下面显示了绘制二茂铁的几种常见方法(还有更多)。

二茂铁的常见描述在转换为mol文件时丢失了键合信息

将二茂铁结构转换为摩尔格式可能会导致分子式、键序或价的错误

 

所示的大多数结构都利用了化学绘图包的扩展功能,以一种对人类化学家有吸引力且易于理解的方式来表示二茂铁的键合。不幸的是,一旦转换为简化但通用的mol格式,其中一些特性就会丢失,导致无意义的结构。虽然结构D没有改变,但这种表征还有其他问题:铁的化合价不正确,也不能表征环戊二烯配体的芳香性。

我们可以用有限的方法来描述ChemSpider中的二茂铁及其相关结构,但没有一种方法能够准确地表示键合,也没有一种观点能够满足无机化学家的要求。然而,我们可以从可能的折衷中选择“最不坏的”,并允许机器可读性:

Fe2+和(C5H5-)2

我们的妥协

尽管这种结构(ChemSpider记录)没有捕获二茂铁的触觉,而且单个碳上的电荷定位不准确,它保留了正确的总电荷和价,并且没有显示配体是sigma-键合的。

更广泛地说,我们应用一些规则和转换来标准化有机金属结构的表示。其中许多规则涉及根据金属和配体的性质,选择将金属-碳(或金属-杂原子)描述为共价还是离子。同样,在机器可读结构的限制范围内工作时,有必要做出妥协,但我们试图将“更离子”和“更共价”键分类。以下是一些示例:

  • 从第1组和第2组金属上断开氧气
  • 将氧气连接到所有其他金属
  • 从钠、钾和钙中分离碳
  • 将碳连接到第11组和第12组金属、p块金属和一些类金属

正如预期的那样,像这样的一般规则在某些情况下会失败。因此,我们有额外的、更具体的规则来覆盖例外情况,我们会反复完善这些规则。

但这些错误仍然出现在ChemSpider中!

目前,所述过滤仅适用于进入ChemSpider的新数据。多年来建立的完整ChemSpider数据库当然包含了这里描述的每个错误的示例。为了修复这些遗留错误,我们打算通过相同的质量过滤器运行整个数据库。这是一项重要的任务,有一些特定的挑战:需要人工审查的文件变得更大,处理时间和内存/CPU开销很高,数据集越大,出现误报的可能性越大。为了应对这些挑战,我们正在花时间完善新沉积的工艺,并通过过滤器运行完整ChemSpider数据库的子集定期检查我们的进度。我们知道您需要访问您可以信任的数据,所以我们希望确保这一点是正确的。随着项目的进展,我们将继续向您更新,敬请期待!

皇家化学学会与ACD/实验室重新建立合作关系,继续向全球研究界提供行业领先的数据

在十年的里程碑之后,ACD/Labs算法将继续为ChemSpider配备物理化学特性值和化学命名法。

加拿大多伦多(2018年7月26日)ACD/实验室,一家信息公司,开发并商业化支持研发的解决方案,今天宣布继续与化学蜘蛛皇家化学学会拥有的领先化学数据库,继续为不断扩展的平台提供预测的物理化学性质和化学命名。 十多年来,科学家们利用这一公开可用的免费资源来收集有关化合物的信息,为研究或实验做准备。

作为物理化学预测软件的行业标准,选择ACD/Labs生成属性信息,包括日志,日志D类(在各种pH下)、Lipinski五分规则值和沸点,并提供结构名称(反之亦然)功能。伙伴关系的更新进一步反映了该平台的成功及其作为科学界最强大的在线化学结构数据库之一的持续重要性。随着平台的发展,ChemSpider将继续使用ACD/Labs算法为研究人员提供高质量的见解。

皇家化学学会出版商理查德·基德(Richard Kidd)表示:“我们的使命是让研究人员能够全面了解化学数据,为研发计划提供信息。”。“通过与ACD/Labs合作并利用其属性信息,我们能够满足用户的知识需求,这反映在我们自十年前皇家化学学会收购ChemSpider以来的快速增长中。迄今为止,由ACD/Lab算法填充的属性信息是ChemSpid上访问最多的信息之一r、 并且仍然是我们服务的关键驱动因素。”

虽然ChemSpider将其数据库的规模扩大了一倍,但它仍致力于维护来自选择性来源的高质量数据。随着平台的不断发展,ChemSpider将以批处理方式使用ACD/Percepta预测算法和ACD/Name工具来填充数据库并增强公开可用的化学情报。

ACD/Labs欧洲高级销售总监Gabriela Cimpan表示:“促进化学知识的传播并提供加快研发的解决方案是我们ACD/Lab的首要任务。”。“ChemSpider正在为整个化学界的知识注入活力,我们很荣幸能够支持全球的学习。”

有关ACD/Percepta的更多信息,请访问https://www.cdlabs.com/percenta网站

有关ACD/Labs化学命名工具的更多信息,请访问https://www.acdlabs.com/name

有关ChemSpider的更多信息,请访问http://www.chemspider.com(化学蜘蛛网)

关于Advanced Chemistry Development,Inc。

ACD/Labs是一家领先的科学信息技术提供商,为依赖分析数据和分子信息进行决策、解决问题和产品生命周期控制的研发组织提供科学信息技术。我们的软件自动化并加速分子表征、产品开发和知识管理。我们与现有的信息系统集成,并承担包括企业级自动化在内的定制项目。

ACD/Labs解决方案在全球范围内广泛应用于各种行业,包括制药/生物技术、化学品、消费品、农用化学品、石化以及学术/政府机构。我们提供全球销售和支持,以及20多年的经验和成功经验,帮助组织加快研发和利用企业智能。有关更多信息,请访问网址:www.acdlabs.com。在推特上关注我们@ACD制动.

关于英国皇家化学学会

英国皇家化学学会是世界领先的化学团体,致力于推动化学科学的卓越发展。我们拥有超过50000名成员,知识业务遍及全球,是英国化学科学家的专业机构;一个拥有175年历史和国际视野的非营利组织。我们提倡、支持和庆祝化学。为了科学和人类的利益,我们致力于塑造化学科学的未来。

ChemSpider幕后

了解我们是谁,我们如何运营网站,以及我们如何管理数据质量。

什么是ChemSpider?谁负责这项服务?

ChemSpider是世界上最大的化学数据库之一,包含6500多万个化学结构的数据。公众可通过以下网址免费获取此数据:化学蜘蛛网,由英国皇家化学学会.

皇家化学学会如何支持ChemSpider?

ChemSpider.com是一个独立服务,不依赖直接或研究拨款。皇家化学学会利用我们出版活动产生的盈余支持该网站,使我们能够提供可持续可靠的服务。我们还通过广告和提供付费网络服务(例如我们的API,针对非学术用户。这些活动有助于保持ChemSpider在财务上的可持续性,并有助于支持我们的服务器成本、员工工时和开发。

这些服务使我们能够让世界上的任何人都可以免费访问该网站,2017年,我们的独立用户超过600万。这些用户包括寻求家庭作业帮助的学生、学术界和工业界的研究人员,以及希望更新化学知识的普通用户。他们来自除南极洲以外的所有大陆,以及地球上几乎所有国家。

ChemSpider的特点是什么?

ChemSpider数据来自化学科学界本身——由研究人员、数据库、出版商、化学供应商等提交。

对于ChemSpider数据,我们有两个主要的纳入标准:

  1. 机器可读性–存款人必须以机器可读的格式提供结构,通常是可由以下人员解释的.mol文件InChI公司–开源化学结构表示算法。mol格式描述了化合物是如何按原子和键排列的。这意味着它只能准确地描述具有特定结构的小分子。对于ChemSpider,“小”意味着高达4000道尔顿的结构,包括短肽、寡核苷酸和其他结构。在ChemSpider中,大蛋白质、扩展晶格或长核苷酸太大,无法合理描述,但可以从其他适合大分子的数据库中获得。

    由于需要描述分子中的每个重原子,我们也只接受“定义结构”——具有精确链长、完全表达的官能团和整数键级的化合物。这意味着我们只能接受可以生成有效InChI的结构。

    大多数ChemSpider结构都是有机分子。然而,我们确实接受一些无机和有机金属化合物,并采用特定的方法来处理这些化合物。

  2. 真实化合物–我们不接受虚拟或预言化合物。

尽可能,我们只接受以物理形式合成或分离的化合物。这意味着我们不接受过渡态、理论预测的化合物、供应商提供的虚拟化合物或专利中的预测化合物。

谁是我们的数据来源?

我们已收到来自近250个独特数据源的数据,包括来自化学品供应商、专业数据库、个人、研究团体和出版商的数据。这些来源跨越了化学科学的范围,包括生物化学、药理学和毒理学、天然产物、光谱学和结晶学。每个ChemSpider记录都包含指向该化合物所有数据源的链接,使用户能够查找并检查数据的来源。

我们的数据源列表在不断变化,因为我们会找到新的数据源来添加和删除过时或低质量的数据源。

我们不再接受来自其他数据聚合器的数据。我们采取这一步骤是为了使我们的质量要求与其他数据库相匹配,并减少由预测来源引起的算法生成错误的传播。其中一个例子是棋盘游戏它源于一个光学结构识别程序,将专利中包含的数据表解释为化学结构。结果是一个81碳的网格结构,被错误地识别为复杂的环状烷烃,它被存放在公共储存库中,并在多个聚合器之间共享。

因此,我们仅直接从原始来源寻求数据,在原始来源中,我们对数据的来源和准确性有更大的把握,并正在努力管理仍在ChemSpider中的遗留数据。

由于像棋盘游戏(Chessboardane)这样的例子,我们对接受来自文本和数据源的数据持谨慎态度,这些数据源是存款人通过编程从专利或科学文献中的文本或编码图像中提取的。经过审查,我们添加了一些质量最高的数据挖掘源。我们将继续逐个审查潜在的新数据源,以确保其数据符合我们的质量标准。

自动过滤器

手动检查ChemSpider中6500万条记录 一个人要花600多年的时间才能完成日夜工作&即使我们对每条记录只花了5分钟的管理时间。

相反,我们通过一系列自动过滤器对每次沉积进行筛选,以筛选出不合适的结构,例如具有不正确价态、不平衡电荷或缺少立体化学的结构。除了结构过滤器之外,我们还应用基本名称和同义词过滤,并定期检查处理过的文件,以便改进过滤器。

我们在下面提供了此过程的简化概述,并将在单独的博客文章:

结构在KNIME中通过过滤器运行。那些不符合过滤器要求的将被删除并审查。通过的结构被存放到ChemSpider

ChemSpider工作人员的策展

ChemSpider由一小队全职馆长,他们致力于添加新化合物、删除错误并对用户反馈做出响应。我们的员工在化学数据和实际化学方面都有丰富的经验,具有有机合成和艺术保护等领域的背景,并且在其他皇家化学学会数据库方面有丰富的工作经验,例如默克指数*在线的 分析摘要.

社区管理

因为我们无法亲自查看每一条记录,所以我们非常感谢用户的评论或更正。帮助我们改进ChemSpider的最简单方法是在您发现错误时留下反馈或发送电子邮件给我们。我们尝试在几天内根据用户反馈采取行动,以便更快地进行更简单的查询。如果您发现错误,请通过在相关ChemSpider记录上留言或发送电子邮件告知我们(chemsider@rsc.org).

希望更多参与的用户可以直接保存结构并管理与其研究或工作相关的同义词,而无需向ChemSpider团队发送电子邮件。

我们非常感谢我们的社区管理员多年来所做的贡献。

继续使用和贡献ChemSpider

要访问6500多万个化学结构的信息,请访问化学蜘蛛网,可以从任何设备、任何位置免费通过结构、名称或高级查询进行完全搜索。

要存放数据、告诉我们错误、成为馆长或进行任何其他查询,请随时发送电子邮件至chemsider@rsc.org

*默克指数由默克夏普公司(MERCK Sharp&Dohme Corp.)所有,默克公司是美国新泽西州怀特豪斯站默克公司(Whitehouse Station,U.S.a.)的子公司,并授权英国皇家化学学会(The Royal Society of Chemistry)在美国和加拿大使用。

新ChemSpider网站简介

大卫·夏普写的博客帖子。

皇家化学学会的ChemSpider团队自豪地宣布,我们的新外观ChemSpier网站已经启动。正如我们在最后一个帖子这项新设计的关键功能之一是使ChemSpider能够在尽可能多的设备上工作(从台式机到手机)。

ChemSpider主页

ChemSpider主页可能出现在台式电脑(左)和手机(右)上

 

正如上面的屏幕截图所示,大小、形状和与页面交互方法的不同意味着您需要的网站视图在不同设备之间存在很大差异。响应式网站设计的本质还意味着,我们提供的一些屏幕截图可能与您在访问网站时看到的视图略有不同,但差异应该很明显。我们希望这能带来一种可用性和可读性不会因功能而牺牲的体验。

发生了什么变化…什么保持不变?

首先,要从保持不变的东西开始:ChemSpider仍然基于相同的质量数据,并为用户提供提供和管理数据的机制。我们也没有改变搜索查询的工作方式,所以您之前运行的搜索仍然应该返回相同的结果。

关键点发生了变化

 

1.新的页眉

我们已经将所有旧的菜单项移到了每页顶部的一个栏中(1),我们还在主页内容上方显示搜索栏(2)。在较小的显示屏上,您将看到快速搜索框、登录和帮助项目的图标,所有其他选项都可以在“汉堡包”符号下找到(3).

大屏幕和小屏幕上ChemSpider页面标题的比较

2.记录页面更短

使ChemSpider在手机上工作的最大挑战之一是如何在更小的屏幕上显示我们拥有的所有信息。我认为我们的解决方案实际上会让ChemSpider对每个人都更好——无论他们如何浏览网站。

以前,ChemSpider记录是一个很大的长页面,在页面顶部有关于化学结构的基本细节,后面是一些可以打开或关闭以及重新排序的信息框。这在大多数情况下都很好,但会导致您必须进行大量的上下滚动,并且可能无法找到您要查找的信息框。现在,我们仍然在页面顶部显示一些关于化学结构的信息(1)但是,下面是一个窗格(2)其中包含选项卡(3)允许您选择要显示的记录部分。这意味着,查看某些信息并查看与之相关的结构总是很容易的。

ChemSpider记录布局

新页面布局由复合页眉组成(1)和窗格(2)显示信息选项卡的内容(3)

3.不用Java,不用担心

许多浏览器不再支持Java小程序。在过去的18个月里,好的无Java-free化学工具已经开始起飞,现在是开始转换的时候了。这意味着该网站现在集成了JSmol——支持3D结构视图、CIF查看器和NMR/IR/MS光谱显示,以及用于结构输入/编辑的Ketcher和Elemental。

 

4.简化结构搜索

以前,创建结构搜索有点麻烦,因为您必须这样做:在弹出窗口中打开结构编辑器,绘制您的结构,然后将其保存回搜索页面–现在,我们的结构编辑器嵌入到界面中,减少了获得结果所需的步骤数,使调整搜索更容易。

对于任何通过平板电脑或手机访问网站的人来说,一个特别有用的功能是转换结构tab可用于在复杂结构中加载,作为搜索的基础,例如在结构转换中使用“二苄胺”可以得到一个可以快速细化到辛普金斯手性碱前体胺如屏幕截图所示。

接下来是什么?

等一下!我们刚刚把所有这些很棒的功能都放到了网站上!我在开玩笑,但我们将花时间调整和完善新设计。如果我想推测的话,我们将能够专注于进一步的开发——我建议我们将研究更多(非Java)工具,这些工具可以整合到网站中以提供更好的体验,以及提高记录中数据质量的新方法。

同时,请浏览该网站并发送电子邮件至chemspider-在-rsc.org,让我们知道你对新网站的看法。

ChemSpider有什么新功能?

大卫·夏普写的博客帖子。

这个博客的订阅者可能已经注意到我们最近有点安静了。我想保证,这并不意味着我们一直在安于现状。事实上,我们一直在致力于对ChemSpider进行一系列改进——改进我们的基础设施,开发提高数据质量的方法,并为我们的记录设计新的布局。

我们将在单独的帖子中更详细地讨论数据质量工作和网站重新设计工作,但在发布新网站设计之前,我想提供一些见解,了解更改生效时的预期情况。

为什么我们现在要改变网站?

有很多原因:

  1. 首先,我们需要一个符合现代互联网标准的网站。这意味着该网站不仅需要在台式计算机上可用,还需要在平板电脑或手机上可用。这通常被称为响应性网页设计
  2. ChemSpider的记录中总是充满了丰富多样的信息,这就给信息的呈现带来了挑战,因为信息一旦被发现就很容易被发现和理解。我们希望新的布局将以直观、清晰的方式呈现数据,为每个人提供更好的体验。
  3. 我们需要远离那些广泛使用的浏览器不支持的技术。基于Java的工具对于某些平台上的用户来说已经是一个问题,而且这只会变得更糟。长期以来,我们提供了非Java结构编辑器和Java工具(该站点的当前版本包含元素水壶用于结构图。此版本将采用JSmol公司为不支持Java的设备启用3D结构视图和光谱显示小部件。目前,我们提供Java和非Java解决方案,但预计在不久的将来逐步淘汰Java小程序。
  4. 改进ChemSpider与更广泛的英国皇家化学学会web系列

 

网站的工作方式还会有任何变化吗?

由于以下原因,网站的某些方面肯定会发生一些变化:用户反馈和错误修复。我们还将研究如何使更复杂的界面(如Advanced Search)更可用,但我们希望网站不会有任何重大更改。

您使用的所有功能仍然可以访问吗?

总的来说,答案是:;对!可能是它们现在看起来略有不同,或者可以通过不同的界面访问。有两个警告:

  1. 在移动设备上访问网站时

    在较小的屏幕和平板电脑上,页面的布局通常需要不同——只要可能,这可以通过重新排列页面元素和添加新控件来实现。但对于ChemSpider界面的某些部分,我们意识到没有一种好的方法可以显示所有数据,唯一的解决方案是不在这些较小的屏幕上显示页面的那一部分。

  2. 删除的功能

    我们认为有几个功能(如打印按钮)在新设计中不再相关,或者需要重新设计以使其更可用。

新网站什么时候推出?

我们希望新网站能在下周发布。

这些变化会对你产生什么影响?

我们希望每个人都能顺利过渡。新设计上线后,您可能需要刷新/清除浏览器缓存。新设计需要一个支持HTML5规范的现代浏览器。我们将尽力确保该网站在尽可能广泛的浏览器和平台上可用,但预计该网站在IE7等较旧的浏览器中无法正常工作。

仍然可以使用旧界面访问站点吗?

不幸的是,旧界面将无法与新界面一起使用。

你将如何对新设计提供反馈?

提供反馈的最佳方式是通过chemsider向我们发送电子邮件-在-rsc.org网站

密切关注新设计——当它上线时,我们会写一篇关于更改的博客文章。

将RSC CIFS添加到ChemSpider

艾琳·戴著。

我们很高兴地宣布,我们刚刚向ChemSpider导入了1047个CIF,这些CIF的晶体结构是之前在RSC论文中报告的(可作为ESI获得),用于ChemSpier的相关化合物,并将这些CIF链接回原始文章和CCDC的webCSD,例如。带有RSC商品CIF的示例化合物(请参阅CIF信息框)。由于上传到ChemSpider中的每个CIF都必须与ChemSpier化合物相关联,因此这项任务的难点在于计算出2D分子结构(在.mol文件格式)对于每个3D晶体结构(in.cif文件格式)–这尤其困难,因为CIF只包含关于每个原子位置的信息,而不包含原子在晶体中如何相互键合或是否带电的信息。
最终,我们希望这个CIF到mol的转换(以及整个上传)能够以编程方式执行,而无需人工干预。然而,目前还没有可靠的方法来做到这一点,尽管有一些程序,如OpenBabel公司可用于从每个CIF中提取mols,此转换的可靠性不是100%。
因此,作为今年夏天南安普顿大学的一个学生实习项目(与南安普顿大学的另一个学生实习项目,在ChemSpider中共享论文数据)我们使用OpenBabel(2.3.2版,从命令行运行,选项为-i cif inputfilename.txt-o mol-m–unique-d–AddPolarH)为RSC存档中的所有cif提取mol(截至2013年6月,超过43000个文件),并招募了Julija Kezina(如下所示)审查这些转化的结果,以确保只有良好的结构和CIF对才能沉积到ChemSpider,并更好地理解转化过程中的问题,以期解决这些问题。一个立即显而易见的问题是,因为获得的2D结构只是3D结构沿细胞轴的投影,而细胞轴并不总是最清楚地显示分子的方向,即使它们在原子之间有写化学连接,所以所有的分子结构都是贯穿的OpenEye的清洗算法之前进行审查。

Julija Kezina-南安普顿大学实习生,检查了CIF到Mol的转换

Julija Kezina——南安普顿大学实习生,检查了CIF到Mol的转换

Julija将输出mol文件中的每个结构与原始CIF文件中的结构进行比较,以判断转换是否准确。此外,作为额外检查,所有输出mol结构都提交给ChemSpider验证和标准化平台过滤出有结构问题的分子(例如立体化学、价态或拥塞问题)。
总的来说,Julija检查的大约30%的CIF到mol的转换是良好的,原子和离子的连接正确(尽管其中大约30%需要重新定位原子位置以手动或使用ChemDraw的清洁功能清洁或整理结构)。其中1047个分子只含有一个分子(不含溶剂分子或共晶体等),是那些与相应的CIF一起沉积到ChemSpider中的分子。
成功转化率最高的期刊为分子生物系统(57%),医学化学通讯(51%),有机和生物分子化学(44%)和绿色化学(44%)–通常是关于有机小分子的期刊。
朱莉娅当时在国家晶体学服务局办公室在西蒙·科尔斯教授的共同指导下,我们非常感谢他们对CIF文件格式更精细方面的帮助和建议。

CIF到摩尔的转换不成功

在如此庞大而多样的一组结构上运行和评估OpenBabel给了我们一个有用的机会来识别和分类遇到的最常见问题。在这里,我们将分享这些并给出一些示例,这些示例将帮助识别管道中的一些简单修复,这些修复可能有利于整个社区,并在这样做时用作测试用例。我们将向OpenBabel论坛由于OpenBabel是开源的,希望在未来通过与其他开发人员的合作来解决其中的至少一些问题。

以下OpenBabel错误看起来可能最容易修复:

细节 例子
  • 类别:BAD_NITRO
  • 频率:233
  • 描述:在结构抽屉中有不同的硝基表示方法——OpenBabel目前通过用五价氮生成摩尔来表示硝基。在ChemSpider中,我们选择使用电荷分离的硝基来避免这种情况。
  • 解决方案:允许OpenBabel为硝基提供不同的输出选项,以输出更正后的mol文件中所示的硝基。

  • 类别:BAD_MULT
  • 频率:434
  • 描述:尽管使用–unique选项运行OpenBabel(应该根据分子英寸筛选出重复的分子),但结果mol文件中仍然存在重复的分子(完全相同,包括立体化学)
  • 解决方案:在使用–unique选项运行时修复OpenBabel,使其正常工作。

  • 类别:BAD_MISSINGPARTOFMOLECULE
  • 频率:724
  • 说明:部分分子缺失
  • 原因:OpenBabel不理解晶体对称性——只有CIF中明确列出位置的原子包含在生成的mol文件中,而那些通过对称性推断的原子则不包含在内。
  • 解决方案:让OpenBabel从CIF文件中的对称性生成完整的分子,或者建议在OpenBabel之前运行一个脚本/程序,该脚本/程序可以处理CIF以生成另一个包含所有原子的CIF。

  • 类别:BAD_PARTIALOCCUPANCY
  • 频率:432
  • 描述:CIF文件中特定原子的多个站点的部分占用
  • 原因:在CIF文件中,有时指定了多个站点的位置,但占用率小于1–OpenBabel无法识别这一点,并假设所有站点的占用率都是1,因此mol文件中存在一些原子或碎片的副本。
  • 解决方案:如果_atom_site_occupancy小于1,则将原子分组为相互替代的原子(按类型、接近度以及总占用率为1的原子)并且只选择其中一个包含在最终mol文件中(站点占用率最高的文件,或者如果两个占用率相等,例如0.5,则随机选择一个)。请注意,需要保持一致性,例如,如果丢弃一个C,那么所有具有部分占用的相邻H也将被丢弃,但与包含的C相连的H也将包括在内(如所附示例中所示)。

许多问题都是由输入CIF中的不同步或错误引起的,但OpenBabel总体上并没有很好地处理这些问题(例如,通过编写错误消息和终止程序),而是在大多数情况下进入了无限循环,程序挂起。由于这一点,并且由于OpenBabel转换是较长脚本的一部分,所有OpenBabel作业都必须在任意超时的情况下运行,这样,如果在此超时后仍在运行,它们就会被终止,这可能会丢弃一些有效但长时间运行的OpenBabell作业。我们将调查是否有可以在CIF上自动执行的验证程序,以筛选出存在这些问题的验证程序(类似于CCDC的EnCIFer但是当OpenBabel遇到这些问题时,它能够很好地退出,从而使其更加可靠,因此不需要预先验证。下表列出了这些问题:

细节 例子
  • 类别:CIF_NOCOORDINATES
  • 频率:378
  • 描述:cif不包含任何坐标
  • 原因:一些CIF包含粉末衍射细化数据,但不包含坐标。
  • 解决方案:OpenBabel已经发出了一个错误:“CIF错误:找不到原子!(在数据块XXX中)”——如果发现了,只需终止程序即可(而不是尝试继续)。
  • 类别:CIF_MISSINGLOOP
  • 频率:85
  • 说明:cif缺少“loop_”行
  • 解决方案:在尝试进行转换之前,首先检查预期位置是否至少有一个loop_行。

  • 类别:CIF_COMMENTEDFIELD
  • 频率:36
  • 描述:如果在CIF的注释部分中有一个CIF字段名,OpenBabel不会忽略它并进入infinte循环
  • 解决方案:确保OpenBabel忽略注释掉的CIF字段名(在一对分号之间)是很容易的。

以下OpenBabel错误是最常见的,但很难修复。它们产生于这样一个问题,即CIF格式没有记录原子/离子上的电荷或原子/离子之间的邦格类型,因此OpenBabel需要计算出它们,这很难正确执行。

细节 例子
  • 类别:BAD_CHARGEMISSING
  • 频率:830
  • 描述:分子中的一个或多个离子在生成的mol文件中带有错误的电荷

  • 类别:BAD_WRONGCOORDINATION
  • 频率:747
  • 描述:分子中的一个或多个原子或离子配位错误-在金属离子、S、P、Se和B中观察到问题

  • 类别:BAD_BONDMISSING
  • 频率:587
  • 描述:分子中的一个或多个键的顺序错误,例如单键而不是双键。

  • 类别:BAD_WRONGBOND
  • 频率:452
  • 说明:单键/双键顺序错误。

  • 类别:BAD_NOCOORDL
  • 频率:52
  • 说明:与配体无配位。

  • 类别:BAD_MISSINGH
  • 频率:18
  • 说明:缺氢。

此外,生成的mol文件也存在一些问题,OpenBabel无法修复这些问题(因为这些问题是由于输入CIF文件的错误或限制导致的,这些错误或限制无法追溯修复),或者太难修复和/或出现的次数太少,不值得付出努力:

    • 共有237例CIF中存在溶剂分子(其中许多含有缺失的氢、分子或部分分子的部分占据等),从而在生成的mol文件中产生虚假的氧、分子碎片和自由基(参见CIF:CCDC 213787号和ChemSpider记录:68005706)。其中148种情况只是水溶剂分子,其中氢原子缺失或分离。溶剂分子的定义较差是衍射的CIF文件的限制,因此OpenBabel不可能在它们的输出摩尔中更好地定义它们。然而,使用-r选项运行OpenBabel以去除除最大连续片段外的所有片段,非常成功地去除了这些有问题的溶剂分子,因此不需要采取进一步的行动来处理这个问题,我们将来将使用这个选项。
    • 有81个案例中,原始CIF中至少有一个氢元素缺失(或有3个案例中所有氢元素缺失)-参见CCDC 259871号.
    • 一些CIF包含对应于连续网络的晶体结构,而不是小分子(例如聚合物、MOF、沸石、POM),这些小分子无法以摩尔格式捕获-请参阅川庆钻探206593.
    • 在少数(24)种情况下,获得的摩尔文件中的立体化学定义不正确。然而,由于OpenBabel对立体化学进行了很好的解释,并且这些案例相对较少,因此可能不值得打扰苹果车来进一步调查这些–请参阅加拿大中央银行238611以及ChemSpider化学蜘蛛9419187.

平面上有更多六边形

由Colin Batchelor编写。

最近,我听说有人骑自行车从约翰·奥格罗茨(John O'Groats)到兰兹庄园(Lands End),全程1400公里,全程逆风行驶,因为从地图上看,这里好像是下坡路,因此更容易。(我很感激尼尔·斯温斯顿曼彻斯特大学(University of Manchester)

你可能认为页面上的“向下”在3D空间中不太可能是“向下”,但有一个有趣的例外,至少对“向下”的某些解释是这样的。

不久前我对我的谢菲尔德演讲做了一个调侃,它现在已经在网上了在这里在这里演讲的数学主题是重新绘制小分子中的糖环,以便化学信息系统能够正确地对其进行索引。引子显示了六边形的分类,因此我们可以知道要应用哪些规则。

事实证明,对于我们在实践中看到最多的六边形,即椅子六边形和哈沃斯六边形来说,至少如果六边形本身的长轴在页面上大致水平,那么如果一个键指向页面上的“下方”,当我们从“上方”重新绘制六边形时,然后债券仍将向下,需要用虚线债券重新绘制。同样适用,经必要修改对于“向上”的债券。

到目前为止,简单得令人痛苦。有时任务确实比看起来容易。不过,还有两件事需要解决。其中一个很简单,涉及到在任何给定结构中绘制立体键的众所周知的规则(我以前提到过)。另一个是整理分子,这样布局算法就不会破坏你所有的好工作。这有点棘手,我需要再看看已经有什么工具可以做到这一点。