跳到主要内容

ClassyFire:具有全面、可计算分类法的自动化化学分类

摘要

背景

长期以来,科学家们一直渴望使用分类法和/或本体来描述、组织、分类和比较对象。与生物学、地质学和许多其他科学学科相比,化学世界仍然缺乏标准化的化学本体论或分类法。在化学分类方面进行了几次尝试;但它们大多局限于手动或半自动化的基本应用程序。这是令人遗憾的,因为综合的化学分类和描述工具不仅可以提高我们对化学的理解,还可以提高化学与许多其他领域之间的联系。例如,一种化合物的化学分类可以帮助预测其在人类中的代谢命运、药物的可药性或与之相关的潜在危险等。然而,由于化学结构的数量庞大(数以千万计的化合物)和复杂性,任何人工分类工作都几乎是不可能的。

结果

我们开发了一个全面、灵活、可计算的纯结构化学分类法(ChemOnt),以及一个计算机程序(ClassyFire),该程序仅使用化学结构和结构特征,自动将所有已知化合物分配到一个由4800多个不同类别组成的分类法中。这个新的化学分类法由多达11个不同级别(王国、超级类、类、子类等)组成,每个类别都由明确的可计算结构规则定义。此外,每个类别都使用基于共识的命名法命名,并根据其所含化合物的特征共同结构属性进行描述(英语)。ClassyFire Web服务器可通过以下网址免费访问:http://classyfre.wishartlab.com/此外,Ruby API版本可在https://bitbucket.org/wishartlab/classyfre_api,提供对ClassyFire服务器和数据库的编程访问。ClassyFire已被用于注释超过7700万种化合物,并已集成到其他软件包中,以自动生成超过100000种化合物的文本描述和/或推断其生物特性。本文还提供了其他示例和应用。

结论

ClassyFire与ChemOnt(ClassyFire's综合化学分类法)相结合,现在允许化学家和化学信息学家进行大规模、快速和自动化的化学分类。此外,可自由访问的API允许轻松访问超过7700万种“ClassyFire”分类化合物。这些结果可以用来帮助注释研究得很好的以及不太为人所知的化合物。此外,这些化学分类可以用作数据集成和许多其他化学信息相关任务的输入。

背景

分类和本体组织了关于概念及其关系的复杂知识。生物学是最早使用这些概念的领域之一。分类法是有助于对概念或对象进行层次分类的简化方案[1]. 它们通常限于特定的域和连接一个节点到另一个节点的单一关系类型。本体论共享分类法的层次结构。然而,与分类法不同的是,它们通常有多种关系类型,实际上是为了提供特定学科、领域或研究领域中实体或概念的类型、属性和相互关系的正式命名[2,]. 此外,本体提供了一个系统来创建跨不同领域的概念之间的关系。分类法和本体论都可以用来帮助科学家解释、组织或提高他们对自然世界的理解。此外,分类法和本体可以用作标准词汇表,以帮助提供推理/推理能力。事实上,分类法和本体论在许多科学领域都得到了广泛的应用,包括生物学(林奈(Linnean)分类法)[4]地质(BGS岩石分类方案)[5]亚原子物理学(第八种方法)[6],天文学(恒星分类系统)[7,8]和药理学(ATC药物分类系统)[9]. 最广泛使用的本体之一是基因本体(GO)[10]它用于根据基因的分子功能、细胞位置和生物过程注释基因及其产品。给定一种特定的酶,例如人类细胞溶质磷脂酶(PLA2G4A)及其GO注释,可以推断其底物PC的细胞位置[14:0/22:1(13Z)](HMDB07887)。此外,由于PLA2G4A注释有GO术语“磷脂分解代谢过程”,因此可以推断PC[14:0/22:1(13Z)]是该生物过程的产物。

化学家在开发标准化命名法(IUPAC)和绘制或交换化学结构的标准化方法方面取得了很大成功[11,12]化学领域仍然缺乏一个标准化的、全面的、明确定义的化学分类法或化学本体来有力地描述、分类和注释化学结构。因此,来自不同化学专业的化学家经常试图创建特定领域的本体论。例如,药物化学家倾向于根据药物活性(抗高血压、抗菌)对化学品进行分类[9]而生物化学家倾向于根据化学物质的生物合成来源(白三烯、核酸、萜类)对其进行分类[13]. 不幸的是,这些不同的分类方案没有简单的一对一映射,其中大多数仅限于极少数的领域特定分子。因此,在过去十年中,人们对开发更通用的化学分类法和化学本体的兴趣日益浓厚。

迄今为止,大多数旨在分类和描述化合物的尝试都是基于结构的。这主要是因为化合物的生物活性受其结构的影响[14]. 此外,化合物的结构可以很容易地用各种格式表示。基于结构的化学分类或本体方案的一些示例包括ChEBI本体[15],医学主题词表(MeSH)[16]和LIPID MAPS分类方案[13]. 这些数据库和本体/同义词表非常优秀,已用于各种研究,包括化学富集分析[17]和基于知识的代谢模型重建[18]等等。然而,它们都是手动生成的,因此使分类/注释过程有些冗长、容易出错和不一致(图1). 此外,它们需要大量的人类专家时间,这意味着这些分类系统只覆盖了已知化学空间的一小部分。例如,在PubChem数据库中[19],截至2016年6月,>91000000种化合物中只有0.12%是通过MeSH同义词库进行实际分类的。

图1
图1

Valclavam在PubChem(CID 126919)和ChEBI(ChEBI:9920)数据库中进行了注释。b条在PubChem中,它被错误地指定为β-内酰胺类,这是一种含硫化合物。此外,尽管后者可以是无机的也可以是有机的,但将单一化合物描述为有机和无机是错误的。的及物性是(_a)关系没有得到满足,这使得类推理变得困难。在ChEBI中,相同的化合物被正确地归类为肽。然而,与PubChem一样,注释是不完整的。“clavams”和“azetidines”等的课堂作业缺失

还有其他一些更古老或不太为人所知的化学分类方案、本体论或分类法值得一提。化学碎片编码系统[20]可能是最古老的分类学或化学分类方案。它由德温特世界专利索引(DWPI)于1963年开发,以便于对专利中报告的化合物进行手动分类。该系统由2200个数字代码组成,对应于一组预定义的、具有化学意义的结构碎片。德温特索引员仍在使用该系统,他们手动将专利化学品分配给这些代码。然而,该系统被认为过时且复杂。同样,使用化学碎片代码需要专家的实践和广泛指导。20世纪70年代开发了一种更自动化的德温特指数替代品,称为HOSE(球形环境层次组织)代码[21]. 这个层次化的子结构系统,可以根据原子的球形环境自动描述原子和完整环的特征。它采用了一种易于实现的算法,该算法在核磁共振化学位移预测中得到了广泛应用。然而,HOSE系统不提供命名的化学类别分配,也不提供本体或定义的化学分类法。最近,化学本体论(CO)系统[22]已描述。CO被设计成类似于基因本体(GO)系统,是第一个正式化的开源、自动化功能组本体之一。CO功能组可以通过Checkmol自动分配给给定的结构[23],一个免费的程序。CO的功能组分配准确且一致,并已应用于几个小数据集。然而,一氧化碳系统仅限于约200个化学基团,因此它只覆盖非常有限的化学空间。此外,Checkmol速度非常慢,在非常大的数据集上使用是不切实际的。索迪亚克[24]是另一个很有前途的化合物自动分类工具。它使用了一个全面的化学本体和一个优雅的基于结构的推理逻辑。SODIAC是一个设计良好的商业软件包,可以快速、一致地对化合物进行分类。基本的化学本体可以免费下载,SODIAC软件是封闭源代码,对学者来说是免费的。它是封闭来源的事实显然限制了社区反馈或发展的可能性。此外,SODIAC本体并没有为其大多数术语提供文本定义,并且其对无机和有机金属化合物的覆盖范围有限。针对化学分类或聚类的其他显著努力包括基于最大公共子结构(MCS)的方法[25,26]Shuffenhauer等人提出的迭代脚手架分解方法[27]以及Chepelev等人描述的基于语义的方法[28]. 然而,这些方法大多是原理验证方法,并且只在少数化合物类上进行了验证,这些化合物类只覆盖了丰富化学空间的一小部分。此外,它们非常依赖于数据集。因此,分类与化学界的命名期望不符,特别是对于复杂化合物类别。

总的来说,应该清楚的是,虽然已经进行了许多尝试来创建化学分类法或本体论,但其中许多是专有的或“封闭源”的,大多数需要手动分析或注释,大多数范围有限,许多没有提供有意义的名称、定义或描述符。这些缺点突出表明,需要开发具有健壮本体的开放获取、开源、快速、全自动化、综合化学分类工具,以生成符合化学家(即领域专家)和社区期望的结果。此外,此类工具必须以与所分析的化学实体类型无关的一致方式快速对化学实体进行分类。

开发一个完全自动化、全面的化学分类工具还需要使用定义明确的化学层次结构,无论是分类法还是本体论。这意味着必须明确定义层次结构构造的标准、关系类型和层次结构的范围。此外,还需要一组明确的分类规则和一个全面的数据字典(或本体)。此外,全面的化学分类要求分类法/本体中的化学类别必须以计算机可解释的格式准确描述。由于新的化合物和新的“化学物质”一直在开发或发现,分类法/本体必须灵活,任何扩展都不应强制对分类程序进行根本性修改。在这方面,Hasting等人[29]提出了一系列有助于开发基于智能化学结构的分类系统的原则。该模式的主要标准之一是可以使用组合性将不同的基本特征组合成复杂的类别定义。这一点非常重要,因为化学类在结构上是多样的。此外,对其核心结构的准确描述有时需要表达约束(如替换模式)的能力。如今,通过使用逻辑连接和结构处理技术(如SMiles ARbitrary Target Specification(SMARTS)格式),可以在一定程度上实现这一点。

本文描述了一个全面、灵活、可计算的化学分类法,以及一个完全注释的化学本体(ChemOnt)和一个化学分类词典。这些组件是一个名为ClassyFire的网络可访问计算机程序的基础,该程序允许对基本上所有已知的化学实体进行基于规则的自动结构分类。ClassyFire使用了许多现代计算技术,并绕过了前面提到的系统和软件工具的大部分限制。本文还描述了ClassyFire背后的原理、分类规则、分类设计、测试条件下的性能及其潜在应用。ClassyFire已成功用于DrugBank中6000多个分子的分类和注释[30],>25000个分子位于LIPID MAPS Lipidomics Gateway[31],HMDB中>42000分子[32],ChEBI中>43000个化合物[15]PubChem中的分子数超过6000000[19]等等。这些化合物涵盖了广泛的化学类型,如药物、脂类、食物化合物、毒素、植物化学物质和许多其他天然及合成分子。ClassyFire免费提供http://classyfre.wishartlab.com此外,用Ruby编写的ClassyFire API提供了对ClassyFire服务器和数据库的编程访问。可在以下网址获取:https://bitbucket.org/wishartlab/classyfre_api.

方法

创建可计算的化学分类法需要三个关键组成部分:(1)定义明确的层次分类结构;(2) 化学类词典(有完整的定义和类别映射);以及(3)用于将化学品分配到分类类别的可计算规则或算法。下面将详细介绍这些组件中的每一个。

第1部分:层次分类结构

分类法需要定义良好的结构化层次结构。按照标准符号,我们使用术语“类别”来指代任何化学类别(在任何级别),每个类别都对应于一组化学物质。这些类别以树状结构排列(附加文件1). 连接这些不同类别的主要关系类型是“是(_a)“关系。选择树结构的基本原理是通过简单的数据结构提供详细的注释,这很容易被人理解。此外,如结果部分所述,ClassyFire提供了一个化合物所有父代的列表,这使得推断其所有祖先变得容易。受原始林奈生物分类学的启发[4],我们指定术语Kingdom、SuperClass、Class和SubClass分别表示化学分类的第一、第二、第三和第四级。最高级别(王国)将化学品分为两类:有机化合物和无机化合物。有机化合物是指其结构中含有一个或多个碳原子的化合物。无机化合物是指非有机化合物,但少数“特殊”化合物除外,包括氰化物/异氰化物及其各自的非烃类衍生物、一氧化碳、二氧化碳、硫化碳和二硫化碳。有关当前例外情况的完整列表,请参阅附加文件1将化合物分为这两个王国符合最现代的化学观点,并且很容易根据化合物的分子式进行分类。分类模式中的其他级别取决于下面描述的更详细的定义和规则。超类(包括26个有机和5个无机类别)由具有一般结构标识符的化合物的属类组成(例如,有机酸和衍生物、苯丙素和聚酮、有机金属化合物、均相金属化合物),每一类都涵盖数百万个已知化合物。SuperClass级别之下的下一个级别是Class级别,它现在包括764个节点。类别通常由更具体的化学类别组成,具有更具体和可识别的结构特征(嘧啶核苷、黄烷醇、苯并氮杂卓、锕盐)。化学类别通常包含超过100000种已知化合物。Classes下面的级别代表SubClasses,它通常由>10000个已知化合物组成。当前分类法中有1729个子类。此外,还有2296个其他类别低于子类级别,涵盖分类级别5-11。

除根类别(化学实体)外,这一广泛的化学分类法总共包含4825种有机(4146)和无机(678)化合物的化学类别。总的来说,这种化学分类法可以表示为一棵树,最大深度为11级,每个节点的平均深度为5级(图2). 与任何结构化分类法一样,创建一个定义明确的层次结构可以将重点放在化学空间的一个子领域或特定级别的分类上。可以在附加文件中找到该分类层次结构的更完整描述1:表S1。使用开放生物和生物医学本体(OBO)格式提供的化学分类及其层次结构[33],这可能有助于其与语义技术方法的集成。生成的OBO文件由OBO-Edit生成[34],可从ClassyFire网站下载。

图2
图2

分类法作为树的图示

组件2——化学类词典

ClassyFire的化学本体或ChemOnt中的每个节点或类别名称都是通过从科学文献和可用的化学数据库中提取常见或现有的化学分类类别术语来创建的。我们使用现有的术语来避免“重新发明轮子”。通过使用化学文献中已经存在的公认或广泛使用的术语,我们认为分类法(以及相应的本体论)应该更容易被采用和理解。这一词典的创建过程是反复的,需要手动审查大量专门的化学数据库、教科书和化学知识库。由于相同的化合物通常可以分为多个类别,因此对每个类别术语的特异性进行了分析。那些被确定为明确通用的术语(例如有机酸、有机杂环化合物)或描述了大量已知化合物的术语被指定为超类。高度特异的术语(例如,α-氨基酸或衍生物、育亨宾生物碱)或描述数量较少且明显属于较大超类的化合物的术语被指定为类或亚类。这项任务还取决于它们与更高级别类别的关系。在某些情况下,使用多种等效术语来描述相同的化合物或类别(咪唑啉类与二氢咪唑类)。为了解决这些争议,客观地衡量了使用竞争性术语的频率(使用谷歌页面统计数据或文献计数统计数据)。频率最高的通常优先考虑。然而,也注意到了科学界和专家小组。如果可用,IUPAC术语用于命名特定类别。否则,如果专家明确推荐了一组(不太常用)术语,这些术语将优先于我们最初的“受欢迎程度”选择标准最初选择的术语。例如,术语“咪唑”(229000次谷歌点击)和“二氢咪唑”(4590次谷歌点击)。然后添加其他流行术语作为同义词。ChemOnt术语数据集中总共添加了9012个英语同义词。

在许多情况下,为文献中未明确定义的化学类别创建了新的SuperClass和Class术语。其中,产生的“新”类别通常是根据IUPAC有机和无机化合物命名法构建的。因为我们的化学词典是根据现存的或通用的术语建立的,所以它包含了许多在(生物)化学术语中常用的社区特定类别(例如初级胺、类固醇、核苷)。此外,由于活性和生物有趣化合物的多样性,添加了许多与特定化学活性相关的化学类别或基于仿生骨架的化学类别(例如,α-硫肽、哌啶基哌啶)。例如,咪唑[1,2-a]嘧啶类化合物(CHEMONTID:0004377)中的几种化合物显示出GABA(a)拮抗活性,并有可能治疗焦虑症[35].

在所有字典术语都被识别和编辑后(迄今为止有4825个术语),每个术语都使用精确但容易理解的文本描述进行正式定义,其中包括与该化学类别相对应的结构特征(图). 这些形式化定义和相应的类别映射构成了结构分类算法和下面描述的分类规则的基础。一旦定义,本化学分类词典中的术语将逐步添加到分类结构中,以形成基于结构的层次结构,这是ClassyFire化学分类方案的基础。通过分类结构和化学分类词典的结合,ChemOnt可以被正式视为一个本体(尽管纯粹是一个结构本体)。

图3
图3

化学分类学。OBO-Edit软件对分类法进行了说明,显示了定义、同义词、参考和扩展信息

组件3——分类算法

我们分类算法的本质是使用化学分类词典中包含的结构定义和术语对化合物进行分类。这需要将英文文本定义转换为一组可计算的规则,每个定义由一个或多个化学结构和/或一组可以其他方式表示的特征特征组成。在我们的分类算法中,用于化学结构表示的主要格式是SMARTS格式[28]. SMARTS是一种分子模式匹配语言,与流行的SMILES分子语言相关,可用于指定分子中的子结构模式。例如,噻唑是一种杂环化合物,含有由一个硫原子、一个氮原子和三个碳原子组成的五元芳香环。这类化合物可以用以下SMARTS表达式描述:

$$[\$ ([\# 16] - 1 - [\# 6] = [\# 6] - [\# 6] = [\# 7] - 1),\$ ([\# 16] - 1 - [\# 6] = [\# 6] - [\# 7] = [\# 6] - 1)]$$

转换我们的《化学分类词典》中的4825个定义,创建了>9000个SMARTS字符串。每个SMARTS字符串的有效性首先通过对小组阳性或阴性示例化合物进行上层结构搜索进行测试。在大多数情况下,手动生成的SMARTS字符串或其组合足以代表绝大多数化学类别(附加文件2:图S1)。然而,在某些情况下,SMARTS字符串无法表达给定化合物必须满足的特定约束,以便分配给给定类别。例如,SMARTS字符串不能描述具有可变数目的特定键或特定原子的结构。解决这一问题的一种方法是列举不同的模式,这很容易导致组合爆炸。对于这些例外情况,我们使用了Markush格式[36],可通过ChemAxon的Marvin工具获得。使用Markush格式,可以表示取代基的变化、位置的变化以及化学结构中结构基团的频率变化。ClassyFire使用的Markush模式仅占ClassyFires数据库中模式集的4%左右。此外,一些化学类别更适合通过基于结构模式、物理化学性质或化学公式等特征的逻辑表达式组合来定义(附加文件2:图S2)。例如,烷烃,它是具有通式C的无环支链或无支链碳氢化合物n个H(H)2n+2,可以正式表示为以下规则组合:

$$RingCount\left(A\right)=0\wedge AtomCount\ left({C,A}\right$$

哪里原子计数(X(X),A类)是分子A中X型原子的数量,铃声计数(A类)是化合物A中的环总数,以及原子总数(A类)是化合物A中的原子总数。在极少数情况下,某些类别的化合物无法使用任何SMARTS字符串、Markush表示、结构模式、物理化学性质或化学公式以明确和正式的方式准确描述。其中包括某些类别的脂质和类脂质分子、苯丙素、聚酮、肽模拟物和生物碱等。在这些情况下,类别被定义为正式表达的子类别的联合。

同样重要的是要记住,化学物质可以作为结构嵌合体或不同共价连接的化学结构、构建块或结构域的组合存在。因此,一些化学品(图1)可能属于多个化学类别。为了简化化学分类过程,我们选择了与化合物的最大或最主要结构特征相对应的类别进行优先排序(见下文)。这一决定基于化学家的观察和历史趋势,即根据最主要结构特征的大小(即原子数)手动对化合物进行分类。此外,识别最大特征是一种易于测量且完全客观的技术。如果两个或多个主要结构特征的大小相等,则使用稍后描述的方法来选择其中一个特征。在ClassyFire的算法中,如果结构特征由结构表示,则其特征权重等于该子结构中的非氢原子数。如果结构特征由逻辑项组合表示,则其重量是满足定义约束条件的最小化合物的非氢原子总数。

任何自动分类工具都必须提供与专家手动分配结果相同或接近相同的结果。因此,对某些众所周知的化学类别进行了少量事后调整,这些化学类别通常由其生物化学背景确定。例如,我们创建了一个名为“苯基丙烷和聚酮”的类别。苯丙素和聚酮可以被描述为由氨基酸苯丙氨酸(苯丙素)或丙二酰辅酶A的脱羧缩合物(聚酮)合成的小有机化合物。这些班级最好描述为他们孩子的结合。“苯丙素和聚酮”类别目前有34个直接子类和273个后代类别,其中包括类黄酮。从生物化学家的角度来看,将类黄酮化合物描述为苯丙素而不是色酮(一个可以合法用于描述类黄酮的术语)更准确。

将其他分类模式和词汇映射到ClassyFire的分类法

如前所述,有许多著名的在线化学数据库开发了自己的手动注释化学分类法和/或本体。例如,ChEBI本体[15]除了基于结构的子本体之外,还为化学角色提供了一个子本体。脂质图[13]重点研究脂质和类脂质分子,并根据其生物合成来源对其进行分类。MeSH是一个由超过50000个术语组成的同义词库,其中大约1/3涵盖了化学实体或其类别。在开发ClassyFire使用的ChemOnt分类法时,我们的目标是创建一个一致的化学分类法,部分受这些方法的启发。在这方面,ChemOnt被映射到其他三个广泛使用的化学层次或分类(ChEBI、LIPID MAPS和MeSH)。这是通过为每个ChemOnt类别指定一个或多个同义词,并指定相应的术语相似性级别或范围来实现的。对于任何ChemOnt术语,同义词都可以具有相同的含义(精确范围)、更具体的含义(窄范围)或不太具体的意义(宽范围)。在某些情况下,同义词的含义可能稍有不同,因此无法为其指定上述三个范围类别中的任何一个。在这种情况下,它被简单地称为相关同义词。

在与ChEBI开发团队的共同努力下,创建了一个本体查找表,以将ClassyFire(和ChemOnt)的分类法映射到化学实体的ChEBI子本体。在适用的情况下,为ChemOnt术语指定了一个确切的CHEBI同义词。否则,会指定一个或多个广义同义词,最好是映射到其父代的同义词。在某些情况下,还指定了狭义CHEBI同义词。值得一提的是,就ChEBI而言,由于某些哲学差异,一些术语可能看起来是给定ChemOnt类别的确切同义词,但实际上具有不同的含义。例如,ChEBI明确区分了“羧酸”和“羧酸阴离子”,而ChemOnt则没有。因此,ChEBI术语“羧酸”是ChemOnt的“羧酸“的狭义同义词。总共创建了6014个类别映射,每个类别平均有1.24个ChEBI同义词。每个ClassyFire类别都有一个或多个映射的ChEBI术语。这项工作突出了两个系统的一些相似性和差异性,并建议了一些改进(例如:要添加的类别)。使用此培训信息,ClassyFire已被修改并用于注释ChEBI数据库中的>43000个小分子。ChEBI数据库(版本126)的综合注释作为补充文件(附加文件),也可以从ClassyFire网站下载。迄今为止,这些结果已被ChEBI开发团队用于注释ChEBI数据库中的10000多种化合物。在脂质生物学方面,lipid MAPS联盟为脂质提供了标准的化学本体[13]. 因此,我们在ChemOnt中设计了脂质亚群,以与lipid MAPS分类方案紧密一致。共有789个ClassyFire类别映射到307个LIPID MAPS术语中的一个。因此,结合ClassyFire和LIPID MAPS本体,对约35000种小代谢物进行分类,这些代谢物可从LIPID MAPS-Lipidomics Gateway访问[31],由国家普通医学科学研究所赞助的资源[37]和国家卫生研究院共同基金[38]. 由于此映射,添加了多个类别分配以补充LIPID MAPS分类。ClassyFire也被手动映射到PubChem数据库中使用的MeSH同义词库,尽管只是部分映射。到目前为止,已有844个ClassyFire类别映射到至少一个对应的MeSH术语,总共945个映射到MeSH同义词库。这种MeSH映射可能会再持续一到两年。

PubChem等数据库中可用的结构中有相当大一部分对应于化学混合物。例如,一些药物或杀虫剂是由几种有机化合物合成的。ClassyFire已被编程用于对此类混合物进行分类。底层算法允许它在分别考虑有机部分和整体的同时分配类。例如,有机化合物和氯阴离子(无机)的混合物将被指定为有机氯盐类别,而不是无机化合物类别。

分类过程

如图所示4ClassyFire分类过程包括四个步骤:(1)创建和预处理化学实体;(2) 特征提取;(3) 基于规则的类别分配与类别约简;(4)直接母公司的选择。以下将对此进行更详细的描述:

图4
图4

化学品分类工作流程

步骤1-创建和预处理化学实体

此步骤涉及创建一个或多个化学实体对象(存储在数据库中),并计算物理化学特性和结构特性。这些特征中的大多数,例如(芳香、脂肪族)环的数量,用于分类。其他的,如质量,用于基于文本的搜索(参见下面的用例)。使用ChemAxon的JChem API(15.5.25.0版)计算物理化学性质。ClassyFire接受不同类型的化学输入:SMILES、SDF、InChI、IUPAC名称和FASTA序列文件。不同类型的化学输入如图所示5.SMILES、SDF和InChI字符串是化学实体的常见结构表示格式,可直接用于结构搜索操作或生成物理化学特性。相反,每个IUPAC名称都使用OPSIN库转换为相应的结构[39]在创建任何化学对象并随后进行预处理之前。如果化学物质(蛋白质、DNA或RNA分子)输入以FASTA格式提交,则每个序列都被标识为核苷酸或肽序列类型。这一步很重要,因为单字母序列的解释会因序列类型而异。ClassyFire web服务器还允许用户通过MarvinSketch Chemical Drawing Applet提交查询,该Applet允许用户导入或绘制化学结构,然后将其导出为SMILES字符串。

图5
图5

ClassyFire接受的不同类型的输入

步骤2-特征提取

ClassyFire程序的第二步涉及基于上部结构搜索操作和各种属性计算的组合生成结构特征。ClassyFire结合了几种结构模式检测方法。大多数特征都是通过上层结构搜索来检测的,上层结构搜索是在其包含9000多个手动设计的SMARTS模式和Markush结构的库中执行的。每一个术语都是通过对小组化合物的反复测试和改进(如有必要)来验证的。该库集成在ChemAxon的JChem Base中。ChemAxon的Marvin 5.11.5软件包用于生成这些图案,从小官能团(例如氨甲酰基)到复杂骨架(例如(3′–>5′)-环状二核苷酸双(硫代磷酸)图案)。在导入数据库之前,每个结构模式都要经过一系列标准化操作,包括归一化和芳构化。在上层结构搜索之前,每个查询复合词都要进行相同的操作。这使得程序能够处理电荷、价和芳香构型的差异。

ClassyFire中使用的另一种特征检测方法涉及将特征与逻辑连接符的使用以及基数限制相结合。对逻辑表达式定义的每个结构特征进行求值,以便将该特征分配给查询复合。例如,ClassyFire可以根据无机化合物的元素含量及其包含的含氧阴离子列表(如果有的话)来检测其特定特征。这些功能由ClassyFire模块中嵌入的规则描述,该模块专门处理无机化合物。在某些情况下,使用结构模式、化学公式或物理化学性质不足以生成特征。例如,白三烯类描述了花生四烯酸的衍生物,含有三个羟基和四个双键,其中三个是共轭的。三个共轭键的位置以及非共轭键的相对位置可以变化,从而产生大量组合。因此,上层建筑搜索可能不会返回命中。为了对白三烯进行分类,ClassyFire除了进行结构搜索外,还使用标准的IUPAC命名法来检查这些约束是否得到满足。附加文件中说明了这种方法2:图S3。任何查询化学实体的IUPAC名称都是由JChem API提供的ChemAxon的结构到名称转换引擎生成的。IUPAC名称可以提供关于给定化合物的母体的有价值信息,以及相对于该母体的取代基的位置、数量和名称。我们开发了一个模块,该模块使用一组约200个正则表达式和规则,以便通过解析IUPAC名称准确检测给定查询复合词的结构特征。

步骤3-基于规则的类别分配和类别缩减

生成结构特征列表后,每个特征都映射到分类法中相应的类别或节点。手动编译的字典用于基于规则的类别分配,该字典提供每个功能的权重和类别。类别分配完成后,将构建一个非冗余的化学类别列表。这是通过迭代减少一组化学类别来实现的。对于每一对化学类别,如果存在父-子关系(例如,二恶烷[父]和1,2-二恶烷[child]),则只保留子节点(1,2-二氧烷)。

第4步——选择直属母公司

直接父类是由描述化合物的最大结构特征定义的类别。它是从上一步中获得的非冗余类别列表中选择的。如果两个或多个结构特征具有最大权重,则选择直接父元素的过程将考虑到编码在每个节点的结构键中的环数、杂环数、环原子数、环杂原子数、卤素原子数、稠环数和杂原子总数。在某些情况下,最大的功能可能不如另一个功能具有描述性或相关性。例如,类黄酮糖苷的糖苷部分可以比类黄酮部分大得多。然而,术语“类黄酮糖苷”比术语“糖苷”的信息量更大,因为它描述了糖单元和类黄酮的存在,糖苷相互连接。在这种情况下,例外情况是,术语“类黄酮苷”被选为“糖苷”。人工编译了一小部分(但并非详尽无遗)此类异常。

整个ClassyFire程序已转换为基于web的资源。它是一个RESTful web应用程序,位于http://classyfre.wishartlab.com它允许用户以SMILES、SDF或InChI格式、IUPAC名称或单字母氨基酸和核酸(FASTA)表示法提交一个或多个查询分子。可以使用MarvinSketch小程序以文本形式输入、上传或绘制查询结构。建议所有查询结构都以手性或异构形式表示,以确保更精确的分类。这是因为不同的ClassyFire类别可以用相同骨架的立体异构体表示。一些例子包括3-α-羟基甾体(CHEMONTID:0003232)和3-β-羟基甾醇(CHEMENTID:0003233),它们都是3-羟基甾类的亚类(CHEMON TID:00027)。例如,当用同分异构结构字符串表示时,化合物,例如雄甾酮,可以归类为3-α-羟基类固醇。然而,如果用标准结构表示,它只会被归类为3-羟基类固醇,这就不那么精确了。提交后,查询由ClassyFire分类工具处理,然后对实体或序列进行分类,然后对结果进行进一步处理、格式化并显示在HTML输出页面上(图6,7). 分类结果也可以在JSON中下载[40]、SDF[41],或CSV[42]格式。除了提供标准的化学分类数据外,ClassyFire还返回化学取代基列表,这些取代基是分子中包含的结构特征(官能团、亚结构或基序)。对于许多化合物,ClassyFire还提供了一个称为“分子框架”的次要属性。分子框架从脂肪族/芳香性和环数方面对化合物进行了总体描述。例如,苯被描述为芳香族单环化合物,而丁醇被描述为脂肪族无环化合物。“分子框架”属性不适用于有机化合物的混合物。除了提供自动化学分类服务外,ClassyFire web服务器还提供了许多强大的基于文本的搜索选项,稍后将介绍这些选项。

图6
图6

ClassyFire网站上的Valclavam分子(CID126919)分类结果。对结构表示和分类树进行了说明。分类结果可以以不同格式下载

图7
图7

ClassyFire网站上的Valclavam分子(CID126919)分类结果。提供了分子结构特征的详细列表,以及基于结构的文本描述

培训和评估

ClassyFire项目的培训和评估是在整个项目开发过程中进行的,使用来自几个著名数据库的数据集,其中包含数千种药物[30],脂质[13,32]、食品化合物[43]、毒素、环境污染物以及其他有机和无机化合物。根据计算出的ClassyFire分类,手动比较和评估了越来越大、越来越多样化的手动分类化学品集(从100多种化合物到6000多种化合物),以确保程序正确分类了之前培训周期中未见过的新化合物或化合物。手动分类是根据化学分类词典中的定义生成的。此外,从提供与ClassyFire相同类别描述的文献和其他资源中收集了各种化合物的分类。随着错误或编程错误的识别,类定义被迭代地细化。如果发现缺少的类别,或者如果化合物被更合适地划分为新类别,则将其添加到化学分类词典(以及ClassyFire算法)中。其他数据库(如LIPID MAPS)提供的分类模式有助于识别新类别[13]、中国电子商务研究院[15]和DrugBank[30]. 这个迭代优化过程一直进行到基本上在最大的测试集中也没有发现错误的赋值。

除了在整个项目的培训和开发阶段进行这些手动一致性检查外,我们还对ClassyFire的最终版本(2.0版)进行了独立的性能评估。通过从DrugBank、LIPID MAPS Lipidomics Gateway、HMDB中随机选择800个独特结构来构建测试集[32]、和T3DB[44]. 这些化合物都包含在PubChem数据库中。我们使用了一个专家小组,根据《化学分类词典》中的定义来评估每个类别分配的正确性。在适用的情况下,我们还验证了直接父母是否包括在ChEBI或LIPID MAPS分配的分类列表中。

结果和讨论

上一节中描述的分类过程被实现到一个计算机程序和一个名为ClassyFire的自由访问的web服务器中,该服务器可在http://classyfre.wishartlab.com此外,一个开源Ruby API(https://bitbucket.org/wishartlab/classyfre_api)允许用户以编程方式访问web服务器,以便提交查询、检索分类结果以及与实体相关的属性。完整的分类法可以从ClassyFire的主页下载。

举例说明了ClassyFire对抗生素化合物Valclavam的分类和本体注释。如图所示,ClassyFire根据分类法中最具描述性的节点返回分类法分类(图6). 直接亲本“二肽”代表了Valclavam结构中最主要的部分。然而,什么是最具描述性的概念可能因用户而异,也可能因上下文而异。例如,环状脱硫肽也可归类为内酰胺。由于这种模糊性,ClassyFire还显示了一个备选父项列表(图7)提供了该化学品的更详细描述。替代父类是指描述化合物但彼此之间或与直接父类之间没有祖先-后代关系的类别。如果可用,ClassyFire将返回中间节点。这些节点是子类(深度为4的任何类别)的后代,但深度低于直接父类。

此外,ClassyFire还提供了分子框架和所有已识别的取代基(或结构特征)的列表。此外,还为非专家提供了基于文本的英语复合描述。基于文本的描述源自ClassyFire的化学分类词典。为了促进不同来源数据的集成,ClassyFire还包含了一个来自其他常用化学数据库的交叉引用数据库,这些数据库使用不同的分类法/本体,例如KEGG[45]、中国电子商务研究院[15],脂质图[13]、和MetaCyc[46]. 这些交叉引用和备用数据库分类通常作为ClassyFire输出提供(如果可用)。

为了加快ClassyFire的处理时间,它曾经处理过的所有化学结构以及它曾经产生过的所有相应分类/本体输出都存储在本地MySQL数据库中。这允许ClassyFire web服务器对那些以前处理过的查询复合数据(迄今为止超过7000万个复合数据)进行简单查找。因此,对于之前分析的化合物,ClassyFire web服务器需要<50ms才能返回答案。对于完全新颖的化合物,ClassyFire web服务器对结构进行分类平均需要540毫秒。

ClassyFire分类结果评估

在对ClassyFire进行迭代开发、测试和手动评估后,在由来自各种化学类别的超过30000种化合物组成的多个数据集上,对ClassyFire培训阶段未使用的800种化合物进行了正式测试。其中,药物、食品化合物、合成化合物和生物相关代谢物选自PubChem(附加文件4:第1页)。在一台具有4个CPU CentOS节点、3.6 GB RAM、最多运行16个线程的计算机上,分类过程花费了249.9秒。然后由来自三个不同国家的七名化学专家组成的小组对结果进行手动审查(附加文件4:第2页)。共进行了21102项类别分配,平均每个化合物分配26.38项。在这个特定的测试集上,ClassyFire总共分配了1308个不同的类别。8说明了类别分配的一些示例。其目的是评估计算规则能够反映基于文本的描述的准确性,这些描述本身通常用于对化合物进行分类。基于这些文本描述,以及来自文献和科学数据库的赋值,对每个化合物的注释进行了审查,以确定可能丢失或错误的赋值。

图8
图8

ClassyFire对测试集中12种化合物的课堂作业示例

在这项测试中,共检测到17个假阳性(共21102个作业)。例如,bixin二甲酯(CID14413719)被误分类为无环二萜。从结构角度来看,该化合物包含四个连续的异戊二烯单元链,这是二萜的特征(图9a) ●●●●。然而,bixin二甲酯在LIPID MAPS和ChEBI数据库中均被归类为C40类异戊二烯(四萜烯)。更准确地说,bixin二甲酯属于一类被称为脱辅基蛋白的化合物,它是由类胡萝卜素的氧化裂解产生的。因此,番茄红素代谢产物bixin二甲酯根据其生物合成来源被归类为四萜类。根据其结构,可以认为碧欣二甲酯应归类为二萜;但根据其生物学特性,应将其归类为四萜衍生物或载脂蛋白二萜(CHEBI:53186)。鉴于ClassyFire旨在根据结构而非生物或生物合成基础对化合物进行分类,这种“错误分类”是完全可以理解的,可以说不是错误分类。在这个测试集中,我们还检测到13个缺失的赋值(假阴性)。缺少赋值的化合物的一个例子是实验药物胞苷-5′-二磷酸-β-δ-木糖(CID46936568),它仅被归类为嘧啶核苷二磷酸,但未被归类为嘌呤核苷酸糖(图9b) ●●●●。

图9
图9

冲突和缺失的课堂作业示例。Bixin二甲酯(CID14413719)的结构。b条胞苷-5′-二磷酸-β的结构-d日-木糖(CID 46936568)

为了评估ClassyFire的整体性能,根据其在800个化学实体中的出现次数,为每个类别分配一个标准化权重。这样,与人口较少的类别(即层次结构较低的类别)相比,人口较多的类别(例如,分类层次结构较高的类别)的错误或缺失分配将受到更多惩罚。每个类别平均分配给2.6个化合物。ClassyFire获得7067.04分,或最高7067.24分的99.97%。平均而言,ClassyFire能够重现基于文本的描述,准确率为99.8%,召回率为99.9%。

比较自动注释和手动注释

自动化化学分类背后的主要动机是提供全面、准确和快速的化学注释,以减轻手动分类的成本和潜在错误。虽然ClassyFire比手动分类方法快很多倍,但我们还想评估它与手动分类相比的准确性和完整性。因此,我们对ClassyFire从上述测试集中随机选择的20种化合物的结果与ChEBI数据库中手动整理的注释进行了详细比较。本次比较使用了2015年4月1日发布的第126期ChEBI。我们没有使用更新版本的ChEBI,因为在过去一年中,ClassyFire实际上被用于指导ChEBI数据库的手动注释过程。为了提供完整的ChEBI注释,使用脚本根据所选ChEBI版本推断20种化合物中每种化合物的祖先列表。每个化合物平均分配了近33个ChEBI类别(附加文件5:第1页)。另一方面,ClassyFire平均每个化合物返回约31个类别。本文的方法部分中描述的本体查找表用于将ClassyFire返回的类别映射到ChEBI类。该映射平均返回27个术语,比ChEBI最初提供的术语少大约6个术语。

这种差异可以用几个因素来解释。首先,术语映射背后的想法是将每个ChemOnt类别分配给一个等效的ChEBI术语,或者,如果不适用,分配给彼此没有父子关系的最接近的ChEBI类。因此,“伯胺”类别(CHEMONTID:0002450)仅被映射到等价的ChEBI术语“伯胺(ChEBI:32877)”,而不是其母体。此外,这两个层次结构的构建方式不同。虽然ChemOnt构建为树,其中每个节点不超过一个父节点,但ChEBI术语可以有多个父节点。为了进行比较,我们对预测的ChEBI项列表及其推断的父项进行了补充(附加文件5:第2页)。当考虑扩展列表时,集合中的每个化合物被分配给将近45个预测的ChEBI术语。其中,平均有近14个术语从手动ChEBI注释中缺失。这些可以添加到ChEBI中,以提供更完整和一致的注释。根据ChEBI提供的33个术语,ClassyFire无法平均返回每个化合物超过2个术语。这可能意味着应该向ChemOnt层次结构中添加更多术语,或者可以改进查找表。在某些情况下,所使用的术语基于结构和功能分类。例如,用于苯唑西林(CID 6196)的术语β-内酰胺抗生素(CHEBI:27933)。由于ChemOnt严格基于结构,因此这些术语不适用。总的来说,ClassyFire能够重现约94%的ChEBI注释,但也能够提出新的术语,从而准确地将注释数量再增加43.6%。

本文提出的方法利用各种化学信息技术来精确检测结构特征并对化学实体进行分类。ClassyFire分类算法有助于(部分)克服以前开发的自动化化学分类工具的许多局限性[24,26,27]. 例如,制定了一些规则来对无机化合物和有机金属化合物进行分类,而目前的任何本体论都没有全面涵盖这些化合物。大多数类别,例如苯二氮卓类,可以用一种或多种结构模式准确描述。其他如生物碱和衍生物只能被定义为几个亚类的分离。此外,ClassyFire利用IUPAC名称来识别某些模式,这些模式可能由于不同的替换或脱氢模式而无法通过标准结构搜索检索。例如,我们描述了一种基于IUPAC名称对白三烯进行分类的方法,因为没有单一的结构骨架能够充分准确地描述每一种化合物。

限制

尽管ClassyFire提供了许多功能,并且使用了不同的方法来规避到目前为止提到的一些形式化问题,但ClassyFire仍存在某些局限性。例如,ClassyFire对IUPAC名称作为分类功能的依赖继续导致一些问题,尤其是对白三烯等化合物。这是因为白三烯的分类也部分基于其生物合成来源。某些在一个双键位置氧化或还原的白三烯衍生物仍然被归类为白三烯,尽管它们可能不再具有三个共轭双键或第四个双键。例如,在LIPID MAPS数据库中发现的10,11-dihydro-12-oxo-LTB4(LMFA03020041)。可以通过仔细研究这些化合物来改进,以找到更常见的结构模式。目前,根据碳-碳双键的数量,这些白三烯可分为羟基二十碳二烯酸、羟基二十碳三烯酸或其他二十碳五烯酸。此外,IUPAC名称可能很难用于某些复杂的结构,例如大型稠环系统。ClassyFire的另一个局限性在于它严重依赖使用不完美结构表示格式的预定义化学模式。由于ClassyFire继承了标准化学结构表示法(即SMILES、SMARTS、Markush)的一些局限性,因此某些类型的“三明治化合物”(如茂金属)和合金(如铬合金)的分类精度不如预期。

为了规避上述限制,并为了制定标准分类法,ClassyFire和ChemOnt可以受益于国际纯粹与应用化学联合会(IUPAC)以及其他化学标准化或数据报告机构的参与。这些小组可以帮助提出更新/更好的分类,并提供长期连续性,反过来,这将有助于实现更可持续和更一致的化学品分类方法。目前,ClassyFire代码仅与商业ChemAxon JChem软件包兼容。为了确保ClassyFire的可持续性,我们致力于迅速(到2016年12月)使ClassyFires成为一个完全开源的项目,可以从全球化学信息学界的贡献中受益。ClassyFire的持续维护和进一步开发将在代谢组学创新中心(TMIC)、国家卫生研究所(NIH)、欧洲生物信息学研究所(EBI)以及IUPAC的联合监督下实现。我们相信,这将有助于科学界参与并更广泛地采用ClassyFire和ChemOnt。

用例

如前所述,综合化学分类模式和定义明确的化学本体系统的优点和应用是多方面的。化学分类使化学信息易于索引、组织、搜索和交换。它还使化学注释自动化、执行复杂的化学搜索、快速识别化合物以进行特定化合物的预测以及破译关键生物分子相互作用的模式成为可能。为了说明这一点,我们提供了一些示例用例,展示了如何使用ClassyFire的化学分类来帮助解决一些常见的化学信息学任务。

示例1:PubChem数据库的分类

公共化学[19]是由国家生物技术信息中心维护的免费化学数据库。截至2016年6月,该数据库存储了9100多万个化学实体的化学、物理化学和生物信息,成为世界上最大的开放式化学数据库。然而,尽管PubChem的规模很大,但数据库中只有0.12%的化合物被指定为化学类别或医学主题分类(MeSH)。MeSH是一个由国家医学图书馆制作的手动维护、控制的词汇表。它用于索引、编目和搜索生物医学和健康相关文档,包括PubMed中列出的所有摘要和论文[47]. 在过去40年中,PubMed中只有11.5万种化合物被手动指定为MeSH分类,但PubChem中列出了6000万种化合物。鉴于PubMed中列出的文档数量迅速增加,手动分配MeSH类将变得越来越困难。此外,使用标准MeSH方法无法手动注释PubChem中的所有6000万种化合物。因此,我们决定使用ClassyFire自动注释和分类所有PubChem(以及所有PubMed化学品)。PubChem化合物的基于结构的分类是在22个CentOS四核CPU上通过并行计算进行的,每个CPU有3.6 GB的RAM。该操作在424小时内完成,每个化合物平均550毫秒(ms)。分类结果已提交给PubChem开发小组。该小组正在积极展示ClassyFire对所有PubChem化合物的分类,从而允许用户根据其ChemOnt分类查看、查询和访问化合物。这应该在2016年末完成。随着PubChem的全面分类,PubMed文档的索引将变得更加容易。将基于结构的注释与生物数据相结合也可以帮助科学家进行各种项目,例如基于本体论的化学富集分析[17]. 此外,通过ClassyFire,现在可以执行各种快速数据搜索和PubChem数据检索,如下所述。

示例2:快速搜索和数据检索

化学数据库通常可以通过物理化学参数(例如质量)查询,而其他数据库可以搜索功能基团(例如酮或羧酸)的存在以及其他属性。然而,同时具有取代基约束和质量约束的化学数据库的查询是非常困难的。对于大型数据库,这将需要对数百万种化合物进行基于结构的搜索,这可能需要几分钟的时间,即使这些化合物被完全索引。此外,某些结构约束无法使用传统的结构处理格式(如SMARTS)表示。此外,传统的亚结构或基于结构的搜索不允许搜索属于“烷烃”或“生物碱和衍生物”类别的化学品。用取代基或化学分类信息注释化学数据库可以使这类取代基和质量约束搜索变得非常快速和容易。ClassyFire正是支持这种灵活的搜索,因为它允许用户通过基于各种参数定义一组条件来选择化合物,如化学类别、质量、环数等。这些类型的搜索组合在质谱学、,其中,必须根据物理化学性质和有关其假定取代基的相对模糊信息来识别化合物。弹性搜索支持ClassyFire的文本搜索操作[48],一个开源搜索和分析引擎。因此,根据ChemOnt术语,可以从ClassyFire数据库(截至2016年6月)中存储的7700多万种化合物中选择化合物。此外,当需要时,可以根据物理化学性质过滤结果。附加文件中提供了如何进行此类搜索的说明6:图S4,其中ClassyFire返回了“含有多个环或且质量低于700道尔顿的生物碱”的列表。该操作在509毫秒内通过基于文本的搜索返回30392次点击。基于文本的搜索结果可用于识别从生物样品中获得的未知结构。它们还可以用于探索和聚类从代谢组学或天然产物提取实验中分离的小分子。

示例3:自动化学注释

正在开发越来越多的化学数据库,其中需要对个别化学品进行详细描述。示例包括MetaCyc[46]、中国电子商务研究院[15],DrugBank[30]、T3DB、ECMDB[49]和FooDB[43]. 在许多情况下,这些描述必须由专家和注释员手动编写和编辑。对于著名的化学品来说,写一篇全面的描述是微不足道的。然而,对于鲜为人知的化学品或文献极少的化学品,即使是20到30个单词的简短文本描述,也可能需要花费数小时的图书馆调查和阅读。由于ClassyFire有一个全面的化学分类词典,其中包含数千个20-50个单词的不同化合物类别的文本描述,因此可以使用该词典自动描述或注释晦涩或鲜为人知的化合物。特别是,ClassyFire被用于为中的化合物生成13100多个有意义的20到50个单词的描述,这些化合物从药物到毒物都有,但没有可用的文献数据。这些精确但自动生成的复合描述现在可在HMDB、ECMDB、T3DB、FooDB和YMDB中使用[50].

结论

在本文中,我们描述了一个全面的、可计算的化学分类法,以及一个基于结构的本体,它允许对世界上大多数已知化学品进行全自动分类。我们特别描述了:(1)一个定义明确的层次分类结构,由多达11个分类层次组成;(2) 免费提供的化学分类词典(或本体论),包含4800个以上经过仔细识别和精确描述的化学分类术语,以及9000多个同义词;(3) 根据化合物的结构对其进行分类的一套9000多个客观规则、模式和标准;以及(4)一个计算机程序和一个免费的网络服务器(称为ClassyFire),可以对化合物进行快速、准确、自动化的基于规则的分类。据我们所知,这是第一个免费提供的系统,能够自动、准确和全面地将世界上大多数已知化学实体按所示规模组织成结构类。

ClassyFire的源代码和ChemOnt的化学组学定义的灵活性,以及它们的开放可访问性,应使Classy Fire和ChemOnt能够轻松进化,以适应不断变化的化学观点,以及新发现的天然和合成化学品支架数量的增加。除了对有机化合物进行广泛的分类之外,我们还根据分子式和原子类型对674类无机化合物进行了全面的分类。我们相信这是为无机化合物设计一个全面的可计算化学分类法的首次重大尝试。

ClassyFire的性能表明,通过仅依赖结构特性,可以快速、依赖数据集的方式准确计算化合物的分类。我们的数据表明,大多数化学类别可以由一个或多个结构模式表示。然而,在某些情况下,来自给定化学类别的化合物经历的反应(例如氧气损失、取代)可能与类别描述中描述的限制条件不匹配。在这些场景中提供准确描述的一些方法是添加更多模式、更新特定位置的约束,和/或开发一些启发式方法以实现更准确的分类。例如,为IUPAC名称解析创建更多规则可以帮助更准确地分配某些类。克服这些限制肯定会提高ClassyFire的整体性能。

重要的是要强调,这项分类工作并不是孤立进行的。它由馆长和开发人员联合开发和测试,其中包括PubChem、ChEBI、LIPID MAPS、DrugBank、HMDB等世界上一些最大和最流行的开放存取化学数据库。ClassyFire/ChemOnt分类法已经在其中几个数据库中使用,预计不久将被其他几个化学数据库采用。此外,通过共同努力,整个ClassyFire/ChemOnt分类法被映射到几个现有的分类/本体方案,例如ChEBI和LIPID MAPS本体。如前所述,ClassyFire的应用是多方面的,跨越了药物设计和代谢组学等领域。ClassyFire还发现了在化学健康与安全领域的应用,最近,基于小分子结构特征的危险评估越来越受到关注。

ClassyFire显然不是化学分类或化学分类/本体论的最终定论。考虑到全球化学空间的规模和复杂性,以及化学家和化学信息学专家快速发展的需求,我们预计该学科(以及该软件)将在未来几年内发生重大变化。因此,除了免费提供的web服务外,我们正在积极开发ClassyFire的一个版本,该版本具有免费访问的源代码和文档。我们致力于使该资源完全开源(到2016年12月)。我们相信,这项工作是朝着设计一个完全可计算、普遍接受的化学分类法和本体论迈出的重要第一步。

缩写

CSV(共赢价值):

逗号分隔的值

IUPAC公司:

国际纯化学与应用化学联合会

JSON格式:

JavaScript对象表示法

SDF(可持续发展基金):

结构数据文件

微笑:

简化分子输入线谱系统(SMILES)

工具书类

  1. Fridman Noy N,Hafner CD(1997)本体设计的最新技术。AI杂志18:53–74

    谷歌学者 

  2. Gruber TR(1995)关于用于知识共享的本体设计原则?Int J人类计算螺柱43(5-6):907–928

    第条 谷歌学者 

  3. Hoehndorf R、Schofield PN、Gkoutos GV(2015)《本体论在生物和生物医学研究中的作用:功能视角》。生物信息简介16(6):1069–1080

    第条 谷歌学者 

  4. Cain AJ(1958)林奈分类学体系中的逻辑和记忆。Linn Soc Lond程序169:114–163

    第条 谷歌学者 

  5. 英国地质调查局岩石分类计划(2016年)网址:http://www.bgs.ac.uk/bgsrcs/。2013年4月20日查阅

  6. Gell-Mann M,Ne'eman Y(1964)《八重路》。W.A.Benjamin,纽约

    谷歌学者 

  7. Malyuto V,Shvelidze T(1989)使用逐步线性回归自动定量恒星光谱分类技术。天体物理学空间科学155(1):71–83

    第条 中国科学院 谷歌学者 

  8. Singh HP、Gulati RK、Gupta R(1998)《利用主成分分析和人工神经网络进行恒星光谱分类》。Mon Not R Astron Soc蒙诺·拉斯顿学院295(2):312–318

    第条 谷歌学者 

  9. 解剖治疗化学(ATC)(2011)分类系统:结构和原理。http://www.whocc.no/atc/structure_and_principles/。2013年4月20日查阅

  10. Ashburner M、Ball CA、Blake JA、Botstein D、Butler H、Cherry JM等人(2000)《基因本体论:生物学统一的工具》。《自然遗传学》25(1):25–29

    第条 中国科学院 谷歌学者 

  11. Favre HA,Powell WH(eds)(2013)《有机化学命名》。IUPAC建议和首选名称2013。http://www.acdlabs.com/iupac/nomenclature/ed。英国皇家化学学会;2013

  12. Weininger D(1988)SMILES,一种化学语言和信息系统。1.方法和编码规则介绍。化学信息与计算科学杂志28:31–36

    第条 中国科学院 谷歌学者 

  13. Fahy E、Subramaniam S、Murphy RC、Nishijima M、Raetz CRH、Shimizu T等人(2009年)《脂质脂类脂类MAPS综合分类系统的更新》。《脂质研究杂志》50:S9–S14

    第条 谷歌学者 

  14. Fliri AF、Loging WT、Thadeio PF、Volkmann RA(2005)《生物光谱分析:将生物活性特征与分子结构联系起来》。美国国家科学院院刊102(2):261–266

    第条 中国科学院 谷歌学者 

  15. Hastings J、De Matos P、Dekker A、Ennis M、Harsha B、Kale N等人(2013)《生物相关化学的ChEBI参考数据库和本体:2013年增强》。核酸研究41(D1):D456–D463

    第条 中国科学院 谷歌学者 

  16. Rogers FB(1963)医学主题标题。公牛医疗自由协会51:114–116

    中国科学院 谷歌学者 

  17. Moreno P、Beisken S、Harsha B、Muthukrishnan V、Tudose I、Dekker A等人(2015)BiNChE:基于ChEBI本体论的化学富集分析网络工具和库。BMC生物信息16(1):56

    第条 谷歌学者 

  18. Zhukova A,Sherman DJ(2014)代谢模型的基于知识的概括。计算机生物学杂志21(7):534–547

    第条 中国科学院 谷歌学者 

  19. Kim S、Thiessen PA、Bolton EE、Chen J、Fu G、Gindulyte A等(2016)PubChem物质和化合物数据库。核酸研究44(D1):D1202–D1213

    第条 谷歌学者 

  20. 德温特世界专利索引参考信息(2016)。http://ip-science.thomsonreuters.com/support/patents/dwpiref/

  21. Bremser W(1978)Hose-一种新的子结构代码。《Ana Chim Acta》103(4):355–365

    第条 中国科学院 谷歌学者 

  22. Feldman HJ,Dumoniter M,Ling S,Haider N,Hogue CWV(2005)CO:用于识别功能群和小分子语义比较的化学本体。FEBS快件579(21):4685–4691

    第条 中国科学院 谷歌学者 

  23. Haider N(2016)checkmol/matchmol主页。http://merian.pch.univie.ac.网址:/~nhaider/cheminf/cmm.html

  24. Bobach C,Böhme T,Laube U,Püschel A,Weber L(2012)使用化学本体的自动化合物分类。化学信息学杂志4(12):40

    第条 中国科学院 谷歌学者 

  25. Vargyas M,Papp J,Csizmadia F,Csepregi S,Pappsá,Vadász P(2008)基于最大公共子结构的层次聚类。http://www.chemason.com/library/maximum-common-substructure-based-hierarchical-clustering-2/

  26. Rahman SA、Bashton M、Holliday GL、Schrader R、Thornton JM(2009)小分子子图检测器(SMSD)工具包。化学信息学杂志1(1):12

    第条 谷歌学者 

  27. Ertl P,Schuffenhauer A,Renner S(2011)脚手架树:脚手架宇宙中的有效导航。分子生物学方法672:245–260

    第条 中国科学院 谷歌学者 

  28. Chepelev LL、Hastings J、Ennis M、Steinbeck C、Dumoniter M(2012)《生物化学相关小分子的自组织本体论》。BMC生物信息13:3

    第条 中国科学院 谷歌学者 

  29. Hastings J、Magka D、Batchelor C、Duan L、Stevens R、Ennis M等人(2012),化学中基于结构的分类和本体论。化学信息学杂志4:8

    第条 中国科学院 谷歌学者 

  30. Law V,Knox C,Djoumbou Y,Jewison T,Guo AC,Liu Y等(2014)DrugBank 4.0:药物代谢的新视角。核酸研究42(D1):D1091–D1097

    第条 中国科学院 谷歌学者 

  31. LIPID MAPS Lipidomics Gateway(2011)2016年由国家普通医学科学研究所赞助的免费资源。http://www.lipidmaps.org/

  32. Wishart DS、Jewison T、Guo AC、Wilson M、Knox C、Liu Y等人(2013)HMDB 3.0——2013年人类代谢组数据库。核酸研究41(D1):D801–D807

    第条 中国科学院 谷歌学者 

  33. Smith B、Ashburner M、Rosse C、Bard J、Bug W、Ceusters W等人(2007)《海外建筑运营管理局铸造:本体的协调进化以支持生物医学数据集成》。国家生物技术25(11):1251–1255

    第条 中国科学院 谷歌学者 

  34. Day-Richter J、Harris MA、Haendel M、Clark JI、Ireland A、Lomax J等人(2007)OBO-edit-生物学家本体编辑。生物信息学23(16):2198–2200

    第条 中国科学院 谷歌学者 

  35. Goodacre SC、Street LJ、Hallett DJ、Crawforth JM、Kelly S、Owens AP等(2006)咪唑啉[1,2-a]嘧啶作为功能选择性和口服生物可利用的GABAAa2/a3结合位点激动剂,用于治疗焦虑症。医学化学杂志49(1):35–38

    第条 中国科学院 谷歌学者 

  36. Markush Technology(2016)用于分析虚拟组合库和Markush结构的工具包。https://www.chemason.com/products/markush-ip/

  37. 国家普通医学科学研究所(2016)https://www.nigms.nih.gov/Pages/default.aspx

  38. 国家卫生研究所(2016)https://www.nih.gov/

  39. Lowe DM、Corbett PT、Murray-Rust P、Glen RC(2011),结构的化学名称:OPSIN,一种开源解决方案。化学信息杂志模型51(3):739–753

    第条 中国科学院 谷歌学者 

  40. 介绍JSON(2012)ECMA-404 JSON数据交换标准。http://www.json.org

  41. Dalby A、Nourse JG、Douglas HounshellW、Gushrst AKI、Grier DL、Leland BA等人(1992)分子设计有限公司开发的计算机程序使用的几种化学结构文件格式的描述。化学信息与计算科学杂志32(3):244–255

    第条 中国科学院 谷歌学者 

  42. Shafranovich Y(2005)逗号分隔值(CSV)文件的通用格式和MIME类型。http://www.ietf.org/rfc/rfc4180.txt第页-1

  43. Wishart DS(2014)《食品数据库:食品数据库》。FooDB 1.0版。网址:http://foodb.ca

  44. Wishart D、Arndt D、Pon A、Sajed T、Guo AC、Djoumbou Y等(2015)T3DB:有毒污染物数据库。核酸研究43(D1):D928–D934

    第条 谷歌学者 

  45. Kanehisa M、Sato Y、Kawashima M、Furumichi M、Tanabe M(2016)KEGG作为基因和蛋白质注释的参考资源。核酸研究44(D1):D457–D462

    第条 谷歌学者 

  46. Caspi R、Altman T、Dreher K、Fulcher CA、Subhraveti P、Keseler IM等人(2012)代谢途径和酶的MetaCyc数据库以及途径/基因组数据库的BioCyc集合。核酸研究40(D1):D742–D753

    第条 中国科学院 谷歌学者 

  47. PubMed Health[互联网](2011)Bethesda(医学博士):美国国家医学图书馆。2011年1月1日。http://www.ncbi.nlm.nih.gov/pubmedhealth网站/

  48. 端到端搜索和分析平台(2015年),功能无限。http://www.elasticsearch.org/overview/

  49. Guo AC、Jewison T、Wilson M、Liu Y、Knox C、Djoumbou Y等(2013)ECMDB:大肠杆菌代谢组数据库。核酸研究41(D1):D625–D630

    第条 中国科学院 谷歌学者 

  50. Jewison T、Knox C、Neveu V、Djoumbou Y、Guo AC、Lee J等(2012)YMDB:酵母代谢组数据库。核酸研究40:D815–D820

    第条 中国科学院 谷歌学者 

下载参考资料

作者的贡献

DSW、RG发起并监督了这项研究。YD开发了分类法、分类算法、API,并执行了迭代测试和评估。RE共同开发了分类算法。YD、RE、CK共同开发了分类基础设施(包括服务器/数据库)。CS、JH、GO促进了与ChEBI.EF的协作本体映射工作,SS促进了与LIPID MAPS的协作本体绘制工作。EB促进了与NIH/PubChem的合作。LC提供了一些关于本体开发的想法。每位合著者都提供了重要反馈。EB、GO、EF、JH、CK、LC担任专家组成员,帮助审查定义,回答化学方面的具体问题,在某些情况下,选择类别名称。GO和EF分别共同监督了ChemOnt到ChEBI和LIPID MAPS的映射。在映射过程中,EF和GO也有助于识别本体之间定义的一些差异。所有作者阅读并批准了最终手稿。

致谢

我们要感谢迈克尔·威尔逊(阿尔伯塔大学)、亚当·马西耶夫斯基(阿尔伯达大学)、史蒂文·特纳(EBI)和文卡泰什·穆图克里希南(EBI。Steven Tuner帮助将ChemOnt映射到ChEBI本体,并帮助审查一些定义。他还担任专家小组成员。MW、AM、ST和VM都为ClassyFire的改进和完善提供了贡献和建议。此外,我们还要感谢Paul Thiessen(NIH)促进数据共享并将分类上传至PubChem数据库。埃文·博尔顿(Evan Bolton)想承认,这项工作在一定程度上得到了美国国立卫生研究院(National Library of Medicine)的校内研究计划(Intracellular Research Program)的支持。

竞争性利益

作者声明,他们没有相互竞争的利益。

可用性和要求

基金

该研究的资金由加拿大基因组、阿尔伯塔基因组、加拿大卫生研究院、阿尔伯达创新、国家研究委员会和国家纳米技术研究所提供。资助者在研究设计和数据收集方面没有任何作用。数据分析、决定出版或准备手稿。

作者信息

作者和附属机构

作者

通讯作者

与的通信大卫·S·威斯哈特.

其他文件

权利和权限

开放式访问本文根据Creative Commons Attribution 4.0 International License的条款分发(http://creativecommons.org/licenses/by/4.0/),它允许在任何媒体上不受限制地使用、分发和复制,前提是您对原始作者和来源给予适当的信任,提供知识共享许可的链接,并指明是否进行了更改。知识共享公共领域专用豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有说明。

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

Djoumbou Feunang,Y.、Eisner,R.、Knox,C。等。ClassyFire:具有全面、可计算分类法的自动化学分类。化学信息杂志 8, 61 (2016). https://doi.org/10.1186/s13321-016-0174-y

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/s13321-016-0174-y

关键词