“化学信息学”类别档案

ChemSpider数据清理

2023年12月15日

在以前的帖子，我们讨论了用于检查新传入数据的结构和同义词错误的自动化工作流。这些检查允许我们在将最常见的错误添加到站点之前删除它们。然而，这些过滤器并不适用于ChemSpider中已有的数据。

人工管理是我们工作的一个重要部分。我们定期审查访问次数最多的记录中的数据，此外还特别删除或更正我们或我们的用户在使用网站时注意到的错误数据。然而，有太多的记录和太多的数据需要单独使用手动管理进行清理。

最近，我们重点关注批量识别和错误数据的删除。这项工作涵盖了我们实验属性数据中的映射错误和其他明显不正确的值，纠正或删除格式错误的同义词，纠正标记错误的同义词，以及解决结构/同义词冲突。

实验性质

我们从ChemSpider数据库中检索了630万个实验属性、文本属性和相关注释。然后，我们将该属性在原始文件中写入时的原始文本与沉积系统如何解析和映射该文本进行了比较。这使我们能够识别并更正影响数据库中大约2%属性的几种错误：

35774个实验特性值的单位不正确（例如，g/L而不是g/mL，°C而不是°F）
在非标准压力下测量的2591个沸点没有显示该压力
4292个密度的密度和温度值互换
删除了79252个杂项错误属性和相关注释。例如，“白色晶体”被映射为熔点、不可能的高熔点或密度等。

同义词

同义词、化学名称和标识符是ChemSpider上最丰富的数据类型，共有超过4.46亿个同义词。这些同义词有额外的元数据，包括识别其同义词类型的语言标签和标记（例如CAS编号、UNII、INN、商品名）。

简单检查

我们运行了一系列正则表达式字符串搜索，以识别元数据不正确的同义词，以及格式错误或其他错误的同义字。

添加200007个同义词类型标志，删除4766个错误标志
9170个同义词识别出错误的语言标签。
631697个错误的同义词，包括乱序字符、属性/单位、作为同义词的分子公式、纯度信息，或无效的CAS编号或EC编号（以前称为EINECS）。
从ChemSpider记录中删除922334个错误同义词实例。

结构/同义词比较

在识别并删除这些同义词级别的错误后，我们交叉检查ChemSpider记录及其同义词，以识别不匹配。这项工作包括氨基酸、核酸和药物上可接受的盐。

作为第一步，我们将同义词与分子公式进行了比较，以确定缺少关键元素的记录。例如，当分子式不含钠时，描述钠盐的同义词，或当分子式中不含氮时，描述氨基酸的同义语。共发现并删除了28194个同义词/公式冲突。

对于通过初始分子式检查的记录，我们进行了SMARTS比较，以确定缺少同义词中描述的关键结构特征的化学结构。这些SMARTS字符串写得很宽，允许进行常见替换，以防止从派生化合物中不必要地删除有效同义词。

在以下示例中，同义词中不匹配的部分以粗体突出显示。

结构	删除了同义词
	硫酸盐离子
	唑吡坦酒石酸盐
	硫氰酸钠水合物

识别出这些冲突后，我们手动检测输出，以剔除误报并迭代SMARTS过滤器。识别并删除了101257个同义词/结构冲突。

这些检查包括以下类别：

氨基酸及其衍生物：6种配方冲突，56种结构冲突
核酸、核苷、核苷酸：977个公式冲突，1870个结构冲突
卤素：13437次公式碰撞，1256次结构碰撞
碱金属和碱土金属以及铝：3586种配方冲突，56种结构冲突
羧酸及其衍生物：5002种配方冲突，88501种结构冲突
其他医药上可接受的酸：3534种配方冲突，1529种结构冲突
酰胺和胺：190种配方冲突，304种结构冲突
氘化物、水合物、甲基溴化物：1462种配方冲突，7685种结构冲突

参与进来

你是你的化学领域的专家，所以如果你看到一些不太对劲的东西，请告诉我们。如果错误仅限于单个ChemSpider记录，请单击受影响记录顶部的“对此记录发表评论”框，让我们知道问题所在。我们只需要一句话来描述错误，但您能提供的信息越多越好。

有关更多系统性错误，或者如果您想附加补充信息或更正化学结构，请通过电子邮件联系(chemsider@rsc.org).

关闭注释关于ChemSpider数据清理

ChemSpider预沉积过滤器

2018年9月18日

作者：Mark Archibald。

在上一篇文章中(ChemSpider幕后)我们讨论了在维护世界上最大的化学数据库之一的数据质量方面的一些挑战。我们将自动过滤确定为处理人类无法合理处理的大量记录时的关键工具。在这篇文章中，我们将更详细地介绍过滤的工作原理、面临的挑战以及人工干预所起的作用。

为了执行此过滤，我们使用KNIME，一个开源数据处理平台。由活跃的化学信息学社区开发的广泛的KNIME节点允许我们对我们处理的数据提出特定于化学的问题。简单地说，符合我们标准的输入化学结构被传递到下一个节点，而那些不符合标准的则被写入错误文件。处理完所有结构后，结果是一个成功通过所有过滤器的结构文件，以及由于各种原因被拒绝的几个（通常较小）结构文件。

不可能完整地检查所有生成的文件，因为这将消除自动处理的省时优势。然而，所有类型的输出文件都会进行抽查，以确保准确性，并反复改进过滤标准。某些输出文件很可能出现误报，因此我们会对其进行全面检查。

格式和标识符

提交的文件可以是几种不同格式中的一种。最常见的是SDF(结构数据文件，一种包含多个结构和相关数据字段的化学结构格式）。这种格式的优点是它包含二维或三维结构，因此我们可以立即开始处理文件，而无需将标识符转换为结构。这意味着我们存放的最终结构更有可能与原始结构完全匹配。SDF格式的缺点是它是专门化的——许多用户可能不熟悉它，或者没有创建和显示文件的软件。

我们还收到不同的电子表格格式（excel、csv、tsv），其结构编码在基于文本的符号系统中，如微笑或InChI公司这种格式的优点是不需要专门的软件（前提是提交者对化合物使用SMILES或InChI）。缺点是结构需要在加工和沉积到ChemSpider之前转换为SDF。此外，这些格式包含有关原子及其连接性的信息，但缺少布局信息。这可能会引入错误，因为不同的结构绘图包可能会以稍微不同的方式解析这些结构，从而导致最终沉积结构的更改。

筛选条件

根据我们的经验和化学知识，我们判断化学结构的标准是明确的化学规则和不太明确的“经验法则”的混合。下面是这两者的示例。

空结构、查询原子和不正确的价

第一个过滤器是最简单的——ChemSpider是一个以结构为中心的数据库，因此不可能存放任何缺少结构的输入条目。

类似地，每个ChemSpider记录都需要一个单独定义的化学结构，因此我们排除了使用查询原子来表示变量原子或连接点的任何内容。

另一个简单的过滤器是排除原子具有无效价的结构。

充电不平衡

一般来说，ChemSpider中的条目应表示真实的、可隔离的化合物。这意味着我们过滤出总电荷不为零的结构。然而，我们对某些情况例外，在这些情况下，反离子通常不重要，只考虑带电物种是有用的，例如胆碱(ChemSpider记录).

包含未定义立体中心的结构

未定义的立体中心本身并不代表化学错误。然而，像下面所示的结构（胆固醇没有任何定义的立体中心）经常出现，尽管化学上是有效的，但它们不太可能代表预期的结构。

胆固醇骨架无立体化学

因此，我们有一个经验法则，排除包含两个以上未定义立体中心的结构。这不是一个硬性规定，而是试图在排除上述结构和包含未定义立体中心是有意且正确的结构之间取得平衡。

未定义立体中心的计数（通过检查InChI确定）有时包括常规排除立体化学楔的情况。例如，磷酸基团上没有楔形物的核酸和没有明确立体化学的金刚烷基团-用楔形物绘制这些化合物是不常见的，用户在搜索时很少使用楔形物。这些潜在的假阳性被筛选出来并手动审查。然后，馆长可以决定是否将它们包括在沉积中，从而提高过滤器的整体精度。

包含许多组件的结构

这是另一条经验法则——一种正确描述的化学物质可以含有多少独立成分没有上限。然而，根据经验，我们发现，排除具有四个以上独立组件的结构会删除最明显的无意义条目（例如。试图描绘合金)同时保留大多数正确条目。

应用这一规则时，药物分子是误报的主要来源，因为它们通常是多水合物和/或具有多个反离子的盐（例如。盐酸伊立替康三水合物). 排除的水合物结构或含有普通药用盐的结构被标记为供人类审查。

同义词过滤器

此过滤器将指定给给定结构的同义词与其分子公式进行比较，并执行一些“常识”检查。例如，一个相对常见的错误是关联salt表单的名称（例如盐酸莫扎瓦普坦)带有自由底座的结构(莫扎瓦普坦). 在这种情况下，过滤器会删除包含“盐酸盐”的同义词，因为分子式不包含Cl。

智能

智能(维基百科页面)是描述一般化学结构的一种方式。它以SMILES为基础，但具有其他功能，允许指定可变链长、键数、氢数、可变键序或一个位置的多个潜在元素。

我们使用SMARTS来识别结构中常见的错误特征。其中包括：

五价氮描绘的叠氮化合物和重氮基团
与主体结构无关的“浮动”烷烃（可能是由于绘图程序中的意外点击引起的）
金属羧酸盐，描述为具有元素金属原子的质子化羧酸
六氟磷酸盐（和类似物种）被描述为五氟化磷和一个单独的氟离子

SMIRKS公司

SMIRKS是SMILES的进一步扩展，用于描述反应。我们不使用它来表示真实的反应，而是定义结构转换——允许我们修复简单的结构错误，这些错误可以通过破坏和创建键来解决。

一个例子是连接电荷分离的格氏试剂以提供更准确的描述：

重新连接Grignard

有机计量学

以机器可读格式编码有机金属结构的困难已被充分记录(化学杂志。信息模型。51, 12, 3149-3157). 有一个正在进行的IUPAC项目扩展InChI的功能但就目前而言，挑战依然存在。

每个ChemSpider记录基本上都基于InChI，因此我们受到当前限制的约束。这意味着我们不能描述配位键或非整数级键——任何绘制的键都被解释为标准共价键，每个原子贡献一个电子。

虽然我们通常不能以人类化学家喜欢的方式来表示有机金属结构，但我们仍然试图从各种可能的折衷中选择“错误最小”的结构。

二茂铁是这个问题的一个典型例子，说明了我们必须考虑的几个问题。下面显示了绘制二茂铁的几种常见方法（还有更多）。

将二茂铁结构转换为摩尔格式可能会导致分子式、键序或价的错误

所示的大多数结构都利用了化学绘图包的扩展功能，以一种对人类化学家有吸引力且易于理解的方式来表示二茂铁的键合。不幸的是，一旦转换为简化但通用的mol格式，其中一些特性就会丢失，导致无意义的结构。虽然结构D没有改变，但这种表征还有其他问题：铁的化合价不正确，也不能表征环戊二烯配体的芳香性。

我们可以用有限的方法来描述ChemSpider中的二茂铁及其相关结构，但没有一种方法能够准确地表示键合，也没有一种观点能够满足无机化学家的要求。然而，我们可以从可能的折衷中选择“最不坏的”，并允许机器可读性：

我们的妥协

尽管这种结构(ChemSpider记录)没有捕获二茂铁的触觉，而且单个碳上的电荷定位不准确，它保留了正确的总电荷和价，并且没有显示配体是sigma-键合的。

更广泛地说，我们应用一些规则和转换来标准化有机金属结构的表示。其中许多规则涉及根据金属和配体的性质，选择将金属-碳（或金属-杂原子）描述为共价还是离子。同样，在机器可读结构的限制范围内工作时，有必要做出妥协，但我们试图将“更离子”和“更共价”键分类。以下是一些示例：

从第1组和第2组金属上断开氧气
将氧气连接到所有其他金属
从钠、钾和钙中分离碳
将碳连接到第11组和第12组金属、p块金属和一些类金属

正如预期的那样，像这样的一般规则在某些情况下会失败。因此，我们有额外的、更具体的规则来覆盖例外情况，我们会反复完善这些规则。

但这些错误仍然出现在ChemSpider中！

目前，所述过滤仅适用于进入ChemSpider的新数据。多年来建立的完整ChemSpider数据库当然包含了这里描述的每个错误的示例。为了修复这些遗留错误，我们打算通过相同的质量过滤器运行整个数据库。这是一项重要的任务，有一些特定的挑战：需要人工审查的文件变得更大，处理时间和内存/CPU开销很高，数据集越大，出现误报的可能性越大。为了应对这些挑战，我们正在花时间完善新沉积的工艺，并通过过滤器运行完整ChemSpider数据库的子集定期检查我们的进度。我们知道您需要访问您可以信任的数据，所以我们希望确保这一点是正确的。随着项目的进展，我们将继续向您更新，敬请期待！

关闭注释关于ChemSpider预沉积过滤器

将RSC CIFS添加到ChemSpider

2013年12月9日

艾琳·戴著。

我们很高兴地宣布，我们刚刚向ChemSpider导入了1047个CIF，这些CIF的晶体结构是之前在RSC论文中报告的（可作为ESI获得），用于ChemSpier的相关化合物，并将这些CIF链接回原始文章和CCDC的webCSD，例如。带有RSC商品CIF的示例化合物（请参阅CIF信息框）。由于上传到ChemSpider中的每个CIF都必须与ChemSpier化合物相关联，因此这项任务的难点在于计算出2D分子结构（在.mol文件格式)对于每个3D晶体结构（in.cif文件格式)–这尤其困难，因为CIF只包含关于每个原子位置的信息，而不包含原子在晶体中如何相互键合或是否带电的信息。
最终，我们希望这个CIF到mol的转换（以及整个上传）能够以编程方式执行，而无需人工干预。然而，目前还没有可靠的方法来做到这一点，尽管有一些程序，如OpenBabel公司可用于从每个CIF中提取mols，此转换的可靠性不是100%。
因此，作为今年夏天南安普顿大学的一个学生实习项目（与南安普顿大学的另一个学生实习项目，在ChemSpider中共享论文数据)我们使用OpenBabel（2.3.2版，从命令行运行，选项为-i cif inputfilename.txt-o mol-m–unique-d–AddPolarH）为RSC存档中的所有cif提取mol（截至2013年6月，超过43000个文件），并招募了Julija Kezina（如下所示）审查这些转化的结果，以确保只有良好的结构和CIF对才能沉积到ChemSpider，并更好地理解转化过程中的问题，以期解决这些问题。一个立即显而易见的问题是，因为获得的2D结构只是3D结构沿细胞轴的投影，而细胞轴并不总是最清楚地显示分子的方向，即使它们在原子之间有写化学连接，所以所有的分子结构都是贯穿的OpenEye的清洗算法之前进行审查。

Julija Kezina——南安普顿大学实习生，检查了CIF到Mol的转换

Julija将输出mol文件中的每个结构与原始CIF文件中的结构进行比较，以判断转换是否准确。此外，作为额外检查，所有输出mol结构都提交给ChemSpider验证和标准化平台过滤出有结构问题的分子（例如立体化学、价态或拥塞问题）。
总的来说，Julija检查的大约30%的CIF到mol的转换是良好的，原子和离子的连接正确（尽管其中大约30%需要重新定位原子位置以手动或使用ChemDraw的清洁功能清洁或整理结构）。其中1047个分子只含有一个分子（不含溶剂分子或共晶体等），是那些与相应的CIF一起沉积到ChemSpider中的分子。
成功转化率最高的期刊为分子生物系统(57%),医学化学通讯(51%),有机和生物分子化学（44%）和绿色化学（44%）–通常是关于有机小分子的期刊。
朱莉娅当时在国家晶体学服务局办公室在西蒙·科尔斯教授的共同指导下，我们非常感谢他们对CIF文件格式更精细方面的帮助和建议。

CIF到摩尔的转换不成功

在如此庞大而多样的一组结构上运行和评估OpenBabel给了我们一个有用的机会来识别和分类遇到的最常见问题。在这里，我们将分享这些并给出一些示例，这些示例将帮助识别管道中的一些简单修复，这些修复可能有利于整个社区，并在这样做时用作测试用例。我们将向OpenBabel论坛由于OpenBabel是开源的，希望在未来通过与其他开发人员的合作来解决其中的至少一些问题。

以下OpenBabel错误看起来可能最容易修复：

细节	例子
类别：BAD_NITRO 频率：233 描述：在结构抽屉中有不同的硝基表示方法——OpenBabel目前通过用五价氮生成摩尔来表示硝基。在ChemSpider中，我们选择使用电荷分离的硝基来避免这种情况。解决方案：允许OpenBabel为硝基提供不同的输出选项，以输出更正后的mol文件中所示的硝基。	到岸价：CCDC 194360公司化学蜘蛛：10001804
类别：BAD_MULT 频率：434 描述：尽管使用–unique选项运行OpenBabel（应该根据分子英寸筛选出重复的分子），但结果mol文件中仍然存在重复的分子（完全相同，包括立体化学）解决方案：在使用–unique选项运行时修复OpenBabel，使其正常工作。	到岸价：CCDC 229590号化学蜘蛛：3915
类别：BAD_MISSINGPARTOFMOLECULE 频率：724 说明：部分分子缺失原因：OpenBabel不理解晶体对称性——只有CIF中明确列出位置的原子包含在生成的mol文件中，而那些通过对称性推断的原子则不包含在内。解决方案：让OpenBabel从CIF文件中的对称性生成完整的分子，或者建议在OpenBabel之前运行一个脚本/程序，该脚本/程序可以处理CIF以生成另一个包含所有原子的CIF。	到岸价：CCDC 185091号化学蜘蛛：11917
类别：BAD_PARTIALOCCUPANCY 频率：432 描述：CIF文件中特定原子的多个站点的部分占用原因：在CIF文件中，有时指定了多个站点的位置，但占用率小于1–OpenBabel无法识别这一点，并假设所有站点的占用率都是1，因此mol文件中存在一些原子或碎片的副本。解决方案：如果_atom_site_occupancy小于1，则将原子分组为相互替代的原子（按类型、接近度以及总占用率为1的原子）并且只选择其中一个包含在最终mol文件中（站点占用率最高的文件，或者如果两个占用率相等，例如0.5，则随机选择一个）。请注意，需要保持一致性，例如，如果丢弃一个C，那么所有具有部分占用的相邻H也将被丢弃，但与包含的C相连的H也将包括在内（如所附示例中所示）。	到岸价：CCDC 854369公司化学蜘蛛：68005704

许多问题都是由输入CIF中的不同步或错误引起的，但OpenBabel总体上并没有很好地处理这些问题（例如，通过编写错误消息和终止程序），而是在大多数情况下进入了无限循环，程序挂起。由于这一点，并且由于OpenBabel转换是较长脚本的一部分，所有OpenBabel作业都必须在任意超时的情况下运行，这样，如果在此超时后仍在运行，它们就会被终止，这可能会丢弃一些有效但长时间运行的OpenBabell作业。我们将调查是否有可以在CIF上自动执行的验证程序，以筛选出存在这些问题的验证程序（类似于CCDC的EnCIFer但是当OpenBabel遇到这些问题时，它能够很好地退出，从而使其更加可靠，因此不需要预先验证。下表列出了这些问题：

细节	例子
类别：CIF_NOCOORDINATES 频率：378 描述：cif不包含任何坐标原因：一些CIF包含粉末衍射细化数据，但不包含坐标。解决方案：OpenBabel已经发出了一个错误：“CIF错误：找不到原子！（在数据块XXX中）”——如果发现了，只需终止程序即可（而不是尝试继续）。
类别：CIF_MISSINGLOOP 频率：85 说明：cif缺少“loop_”行解决方案：在尝试进行转换之前，首先检查预期位置是否至少有一个loop_行。	到岸价：CCDC 753484号
类别：CIF_COMMENTEDFIELD 频率：36 描述：如果在CIF的注释部分中有一个CIF字段名，OpenBabel不会忽略它并进入infinte循环解决方案：确保OpenBabel忽略注释掉的CIF字段名（在一对分号之间）是很容易的。	到岸价：CCDC 840581公司

以下OpenBabel错误是最常见的，但很难修复。它们产生于这样一个问题，即CIF格式没有记录原子/离子上的电荷或原子/离子之间的邦格类型，因此OpenBabel需要计算出它们，这很难正确执行。

细节	例子
类别：BAD_CHARGEMISSING 频率：830 描述：分子中的一个或多个离子在生成的mol文件中带有错误的电荷	到岸价：CCDC 879075号化学蜘蛛：68005707
类别：BAD_WRONGCOORDINATION 频率：747 描述：分子中的一个或多个原子或离子配位错误-在金属离子、S、P、Se和B中观察到问题	到岸价：加拿大中央银行218529 化学蜘蛛：26579734
类别：BAD_BONDMISSING 频率：587 描述：分子中的一个或多个键的顺序错误，例如单键而不是双键。	到岸价：加拿大中央银行926530 化学蜘蛛：34226187
类别：BAD_WRONGBOND 频率：452 说明：单键/双键顺序错误。	到岸价：CCDC 203663号化学蜘蛛：238575
类别：BAD_NOCOORDL 频率：52 说明：与配体无配位。	到岸价：CCDC 218360公司化学蜘蛛：68005705
类别：BAD_MISSINGH 频率：18 说明：缺氢。	到岸价：CCDC 220380公司化学蜘蛛：21188989

此外，生成的mol文件也存在一些问题，OpenBabel无法修复这些问题（因为这些问题是由于输入CIF文件的错误或限制导致的，这些错误或限制无法追溯修复），或者太难修复和/或出现的次数太少，不值得付出努力：

- 共有237例CIF中存在溶剂分子（其中许多含有缺失的氢、分子或部分分子的部分占据等），从而在生成的mol文件中产生虚假的氧、分子碎片和自由基（参见CIF：CCDC 213787号和ChemSpider记录：68005706). 其中148种情况只是水溶剂分子，其中氢原子缺失或分离。溶剂分子的定义较差是衍射的CIF文件的限制，因此OpenBabel不可能在它们的输出摩尔中更好地定义它们。然而，使用-r选项运行OpenBabel以去除除最大连续片段外的所有片段，非常成功地去除了这些有问题的溶剂分子，因此不需要采取进一步的行动来处理这个问题，我们将来将使用这个选项。
- 有81个案例中，原始CIF中至少有一个氢元素缺失（或有3个案例中所有氢元素缺失）-参见CCDC 259871号.
- 一些CIF包含对应于连续网络的晶体结构，而不是小分子（例如聚合物、MOF、沸石、POM），这些小分子无法以摩尔格式捕获-请参阅川庆钻探206593.
- 在少数（24）种情况下，获得的摩尔文件中的立体化学定义不正确。然而，由于OpenBabel对立体化学进行了很好的解释，并且这些案例相对较少，因此可能不值得打扰苹果车来进一步调查这些–请参阅加拿大中央银行238611以及ChemSpider化学蜘蛛9419187.

关闭注释关于向ChemSpider添加RSC CIFS

平面上有更多六边形

2013年10月25日

由Colin Batchelor编写。

最近，我听说有人骑自行车从约翰·奥格罗茨（John O'Groats）到兰兹庄园（Lands End），全程1400公里，全程逆风行驶，因为从地图上看，这里好像是下坡路，因此更容易。（我很感激尼尔·斯温斯顿曼彻斯特大学（University of Manchester）

你可能认为页面上的“向下”在3D空间中不太可能是“向下”，但有一个有趣的例外，至少对“向下”的某些解释是这样的。

不久前我对我的谢菲尔德演讲做了一个调侃，它现在已经在网上了在这里和在这里演讲的数学主题是重新绘制小分子中的糖环，以便化学信息系统能够正确地对其进行索引。引子显示了六边形的分类，因此我们可以知道要应用哪些规则。

事实证明，对于我们在实践中看到最多的六边形，即椅子六边形和哈沃斯六边形来说，至少如果六边形本身的长轴在页面上大致水平，那么如果一个键指向页面上的“下方”，当我们从“上方”重新绘制六边形时，然后债券仍将向下，需要用虚线债券重新绘制。同样适用，经必要修改对于“向上”的债券。

到目前为止，简单得令人痛苦。有时任务确实比看起来容易。不过，还有两件事需要解决。其中一个很简单，涉及到在任何给定结构中绘制立体键的众所周知的规则(我以前提到过). 另一个是整理分子，这样布局算法就不会破坏你所有的好工作。这有点棘手，我需要再看看已经有什么工具可以做到这一点。

关闭注释平面上的更多六边形

平面中的六边形

2013年4月17日

由Colin Batchelor编写。

我将在7月的第六届谢菲尔德化学信息学联合会议上发言一般和特殊糖分子结构的验证和标准化这是一位品酒师。

特别是糖

化学结构算法的一个大问题是，它们通常无法处理化学家习惯于绘制糖分子的方式。它们将失去糖环周围的立体化学，使D-葡萄糖崩解，例如，转化为L-葡萄糖，更不用说阿洛糖、altrose、gulose和其他所有物质。

（我应该注意的是，ChemDraw可以正确解读椅子立体声，但它在很大程度上是个例外。）

确定椅子原子正确立体化学的第一步是识别椅子六边形。这就是本文的主题。

你曾经和卫星导航坐在同一辆车里吗（美国读者：这和GPS是一样的）？虽然人类导航员会给出一般指示，如“直走所有环形交叉口，直到我们到达红狮”，但卫星导航只会给出单步本地指示。“在环形交叉路口，从第三个出口走。”“100米后，左转。”机器结构的感觉是这样的。算法需要一个原子一个原子、一个键一个键地绕着结构一步，而不是像你或我一样一瞬间就意识到六边形是一把椅子或一艘船。

识别我们正在处理的六边形的诀窍是看在每个原子处我们是向左还是向右。如果我们一直朝着同一个方向转动，那么我们就得到了一个正六边形。如果我们朝一个方向转动一次，然后朝另一个方向再转动两次，然后在第一个方向转动一遍，然后在另一个角度转动两次的话，我们就有了一把椅子。你还可以画其他六种六边形，它们都与相应的旋转顺序一起在下面描述。

他们中的一些人很熟悉，比如船、旋转船和信封。其他人就不那么了。

当我们确定椅子上的原子时会发生什么？我很快会更详细地介绍这一点，但同时这里是新奥尔良ACS春季会议的幻灯片：

关闭注释关于平面中的六边形

楔子、大麻和格里斯配菜

2012年11月9日

由Colin Batchelor编写。

不（这不是一篇关于碳水化合物的文章，尽管标题如此！）

模糊立体化学是一个长期存在的问题。即使有人知道某个特定分子中的所有立体中心，他们也不一定会用机器甚至人可以解释的方式来绘制它们。键的尖端或钝端是指立体中心，这是有规律的，令人惊讶的是，你经常会看到它们被错误地操作。

今天，我将讨论IUPAC关于绘制立体中心的一个特别建议，这一建议乍一看可能令人惊讶，即在给定的立体中心中可能只有一个立体键。如果你有一个楔形键连接到一个原子上，你不可能有一个散列键连接到同一个原子。而且反之亦然.

这是为什么？

您可能会认为，随着您提供更多信息，您正在使图表更容易解释。然而，你的行为直接违背了正常的沟通原则。你的信息量超出了要求，这给读者敲响了警钟。你想说什么？如果你问过路人时间，他们说“嗯，现在是格林威治标准时间六点半”，你有权想知道他们为什么引用时区。也许他们是想搞笑。

保罗·格莱斯（Paul Grice）在20世纪70年代思考了整个问题，并提出了一套四个原则，总结为格言，即听众（或读者）认为演讲者在遵循这些原则。这些是：

要诚实。不要说你认为是假的。不要说你缺乏足够证据的话。

让我们希望这一点在任何化学绘图中都是隐含的！

根据需要做出信息丰富的贡献。不要让你的贡献超出要求。

如果一个原子上有两个甲基，不要做一个楔形物和一个杂凑物。您没有添加新信息！

除非你的目标受众是学生，否则不要用字母C标记碳纤维。

相关性：

在大尺度上：不要用任何旧分子来解释文章，确保所提到的分子实际上是相关的。

然而，按照绘图本身的比例：例如，如果一个普通的p块原子有三个键，请确保它们彼此成120度角。如果它们不是，例如其中两个是直角的，读者就会推断出发生了什么奇怪的事情。

请明确：

确保你所有的双键看起来都像双键，而不是与另一个单键平行的单键。我怀疑ChemDraw的成功很大程度上是因为它能绘制出吸引人、清晰的化学图形。

人们是否曾故意藐视这些格言？

哦，是的。人们在试图搞笑或在政治采访中经常藐视这些格言。同样，你在专利中看到的化学图纸中也有各种各样的格赖斯违规行为：不完全延伸到原子的键，标记为Y（Y是钇！）或Q或W（也是钨）的R基团，或其他一些不寻常的字母，等等。为什么专利中的这种情况比期刊文章中的要频繁得多，这留给了读者一个练习。

关闭注释关于楔子、大麻和格蕾丝的配菜

正确看待糖

2012年8月16日

由Colin Batchelor编写。

你可能不这么认为，但你非常擅长在脑海中绘制二维图并将其转换为三维形状。不，真的，你是。

图1。透视图中的半乳糖

以图1中的半乳糖为例。即使你不是化学家，你也能分辨出戒指的哪些部位在前面和后面，哪些键指向上，哪些键向下。如果你真的是一名化学家，你已经被训练应用这种几何直觉来计算五个立体中心中的每一个中心发生了什么。

然而，如果你问InChI算法关于这个分子的立体化学，它会说那里没有立体化学，你看到的是对哪个原子与哪个原子相连的无立体描述。由于我们使用InChI算法来判断两个记录是否描述同一个分子，这让我们陷入了困惑，ChemSpider中有数千个条目都来自这样的绘图，因此缺乏立体化学。

（更多…）

关闭注释正确看待糖

细节	例子
类别：BAD_NITRO 频率：233 描述：在结构抽屉中有不同的硝基表示方法——OpenBabel目前通过用五价氮生成摩尔来表示硝基。在ChemSpider中，我们选择使用电荷分离的硝基来避免这种情况。解决方案：允许OpenBabel为硝基提供不同的输出选项，以输出更正后的mol文件中所示的硝基。	到岸价：CCDC 194360公司化学蜘蛛：10001804
类别：BAD_MULT 频率：434 描述：尽管使用–unique选项运行OpenBabel（应该根据分子英寸筛选出重复的分子），但结果mol文件中仍然存在重复的分子（完全相同，包括立体化学）解决方案：在使用–unique选项运行时修复OpenBabel，使其正常工作。	到岸价：CCDC 229590号化学蜘蛛：3915
类别：BAD_MISSINGPARTOFMOLECULE 频率：724 说明：部分分子缺失原因：OpenBabel不理解晶体对称性——只有CIF中明确列出位置的原子包含在生成的mol文件中，而那些通过对称性推断的原子则不包含在内。解决方案：让OpenBabel从CIF文件中的对称性生成完整的分子，或者建议在OpenBabel之前运行一个脚本/程序，该脚本/程序可以处理CIF以生成另一个包含所有原子的CIF。	到岸价：CCDC 185091号化学蜘蛛：11917
类别：BAD_PARTIALOCCUPANCY 频率：432 描述：CIF文件中特定原子的多个站点的部分占用原因：在CIF文件中，有时指定了多个站点的位置，但占用率小于1–OpenBabel无法识别这一点，并假设所有站点的占用率都是1，因此mol文件中存在一些原子或碎片的副本。解决方案：如果_atom_site_occupancy小于1，则将原子分组为相互替代的原子（按类型、接近度以及总占用率为1的原子）并且只选择其中一个包含在最终mol文件中（站点占用率最高的文件，或者如果两个占用率相等，例如0.5，则随机选择一个）。请注意，需要保持一致性，例如，如果丢弃一个C，那么所有具有部分占用的相邻H也将被丢弃，但与包含的C相连的H也将包括在内（如所附示例中所示）。	到岸价：CCDC 854369公司化学蜘蛛：68005704

ChemSpider博客

“化学信息学”类别档案

ChemSpider数据清理

实验性质

同义词

简单检查

结构/同义词比较

结构

删除了同义词

参与进来

ChemSpider预沉积过滤器

格式和标识符

筛选条件

空结构、查询原子和不正确的价

充电不平衡

包含未定义立体中心的结构

包含许多组件的结构

同义词过滤器

智能

SMIRKS公司

有机计量学

但这些错误仍然出现在ChemSpider中！

将RSC CIFS添加到ChemSpider

CIF到摩尔的转换不成功

平面上有更多六边形

平面中的六边形

楔子、大麻和格里斯配菜

正确看待糖

类别

档案室

Meta公司