跳到主要内容

代谢途径数据库的共识和冲突卡

摘要

背景

新陈代谢网络智人许多其他生物在多途径数据库中进行了描述。然而,事实证明,这些描述之间的一致性水平很低。我们可以通过识别相互冲突的信息并将其知识组合成一个单一、更准确、更完整的描述来利用这些不同的描述。然而,这项任务远非微不足道。

结果

我们引入了共识卡和冲突卡的概念(C2卡片)提供数据库同意或不同意的简明概述。每张卡片以单个基因、EC编号或反应为中心。这三个互补的观点使我们有可能区分代谢过程基础生物学上的分歧和差异,这些差异可以通过不同的决定来解释,即如何以及以何种细节来表示知识。作为概念证明,我们实现了C2人类,作为web应用程序http://www.molgenis.org/c2卡,涵盖五个人类路径数据库。

结论

C类2卡片可以简化路径数据库之间共识和冲突的识别,并降低专家贡献的门槛,从而有助于当前的对账工作。几个案例研究说明了C语言的潜力2识别代谢过程潜在生物学分歧的卡片。这些综述还可能指出有争议的生物知识,这些知识应该成为进一步研究的主题。最后,所提供的示例强调了手动管理的重要性和广泛社区参与的必要性。

背景

代谢途径数据库已被证明对广泛的应用非常有价值,从高通量数据分析到生物信息学表型预测。在过去十年中,通路数据库的数量显著增加,为越来越多的生物体提供了代谢网络的广泛描述[1,2]. 例如,几个关键生物体的代谢网络,酿酒酵母智人H.sapiens,甚至在多个数据库中描述。然而,对两个酵母网络的比较表明,这两个网络只同意36%的反应[]. 类似地,描述人类代谢网络的五个通路数据库只同意它们共同包含的6968个反应中的3%[4]. 考虑到这些数据库旨在表示同一生物体的代谢能力,一致性水平远远低于人们的预期和希望。对于观察到的缺乏共识,有几种解释。这些包括建立网络的不同方式、管理方式以及对文学的不同解读[5]. 斯托布的比较等。[4]还揭示了五个人类代谢网络在覆盖范围的广度和深度上的巨大差异。

对同一生物体的代谢网络进行多个描述的优点是,它们对同一生物系统提供了不同的观点,因此可以揭示有争议的生物学知识。此外,每个数据库都有一个特定的重点,其馆长也有特定的专业领域。因此,每个数据库都可能提供完整代谢网络之谜的补充部分。这些观察促使我们继续努力,巩固同一生物体的不同网络,并使用大量手动方法构建共识代谢网络[,6,7].

然而,将各种途径数据库中包含的代谢网络的所有知识结合起来,识别相互冲突的信息绝非易事。从多个数据库检索所有必需的信息本身已经是一项繁琐的任务。识别路径数据库与代谢过程的潜在生物学不一致的情况具有挑战性的一个原因是,每个数据库在如何表示知识方面做出了不同的决定[4,8]. 例如,一个特定的差异可以简单地用每个数据库描述代谢过程的不同粒度级别来解释,而不是用根本不同的生物学观点。其次,确定数据库是指同一基因还是同一代谢物仍然是一个挑战。第三,每个数据库对路径的定义也不同,这使得几乎不可能在较小规模上比较网络,,每个路径。第四,考虑的路径数据库数量越多,就越难确定共识和冲突。最近,有人提出了一些算法来半自动地合并同一生物体代谢网络的两种描述[9,10]. 这些方法主要解决了匹配代谢物的挑战,部分是通过与用户的交互。其合并描述的核心由两个网络中都可以找到的反应组成。然而,集成两个以上的描述将大大减小核心的大小并限制其效用[4]. 合并的描述还包含无法(精确)匹配的反应,因此对于其中一个描述来说是唯一的。然而,这种方法既不能解决数据库之间的冲突信息,也不能过滤出错误信息。此外,半自动方法并没有明确解决上述所有问题。例如,由于粒度差异导致的冲突没有考虑在内。虽然半自动方法为共识网络生成了一个有用的支架,但最终的描述仍然需要大量的手动管理。

总之,上述问题使基于可用路径数据库的单一、更准确和更完整网络的构建成为一个费力且主要是手动的过程[6]. 此外,这是一个持续的过程,因为科学文献和路径数据库中不断提供新的知识。

为了更容易地可视化多路径数据库的意见,我们引入了共识和冲突卡(C2卡片)。C类2卡片结合了来自特定目标生物体多途径数据库的知识。A和C2卡片可以以单个基因、酶委员会(EC)编号或感兴趣的反应为中心,并简要概述数据库对C实体的作用或不作用2卡片以为中心。这三个视角为路径数据库中包含的知识提供了补充视图。重要的是,使用这些观点会导致分歧,这些分歧是由关于如何以及在多大程度上表示知识的不同决定引起的。C类2卡片可用于协助对账工作,并使路径数据库的用户更加了解数据库之间当前存在的确切差异。

作为概念证明,我们实现了C2人类(http://www.molgenis.org/c2卡),它结合了以下五个常用人类通路数据库的知识:生物化学、遗传学和基因组结构(BiGG)知识库[11] (智人侦察1[12])爱丁堡人类代谢网络[13],人类循环[14]和京都基因和基因组百科全书数据库(KEGG)的代谢亚群[15]和Reactome[16]. 下面,我们首先概述C语言的各种功能2卡片,三种视角的综合优势,以及C2卡片可以帮助管理基因和代谢物标识符。接下来,我们描述几个案例研究,说明C的潜力2识别路径数据库之间冲突的卡片。最后,我们讨论了管理代谢网络的下一步。

结果

每个C2Card从特定基因、EC编号或相关反应的角度概述了多途径数据库的知识。A和C2Card回答了哪些数据库包含感兴趣的实体这一基本问题。重要的是,每张卡片都简明扼要地概述了数据库对感兴趣实体的看法。C的核心组件2卡片是一个表格,其中每一行包含以下基本元素:反应和EC编号、基因和路径数据库中与之关联的路径(图1). 如果有可用的信息,复合物和同工酶通过布尔运算符表示(见材料和方法)。上述任何元素都可能丢失,除了C2卡片居中。通过关注这些基本元素,概述保持简洁。有关路径数据库提供的其他信息,例如路径可视化和文献参考,直接链接到路径数据库中反应的原始条目。C的第二个核心组件2卡片是指每张卡片明确表示其上显示的反应的相似性。所有反应对之间的相似性都表示出来(基因和EC编号透视图;图1)或关于感兴趣的反应(反应视角;图1). 这里,反应相似性是指在两种反应中发现的代谢物的百分比(见材料和方法)。下面将更详细地讨论这三个视角中的每一个的优势。

图1
图1

两个C的示例 2 卡。C类2卡片位于CTPS公司基因(顶部)和C2点击C中Reactome的反应检索卡片2卡片位于CTPS公司基因(底部)。每个C2卡片由一个表组成,其中每一行包含以下基本元素:反应和EC编号、基因和路径数据库中与之链接的路径。可以通过单击表中的任何元素来切换透视图。有关路径数据库提供的其他信息,例如路径可视化和文献参考,直接链接到路径数据库中反应的原始条目。C的第二个核心成分2卡片是指每张卡片明确显示其上显示的反应的相似性。显示反应之间的重叠百分比,并根据重叠程度对相关单元格进行着色。路径数据库分配给代谢物和基因的ID信息通过单击偶像。对于EC编号,显示了NC-IUBMB链接的反应和名称。

三个互补的观点

C类2卡片对路径数据库中包含的知识提供了三种互补的观点(基因、EC编号、反应)。每个视角都可以回答各种类型的问题,适应不同的兴趣。重要的是,这三个视角可用于识别和补充一个(或多个)通路数据库中缺失的信息,使用其他通路数据库中的知识。

基因透视

“基因视角”显示了每个途径数据库的基因产物具有哪些代谢功能,如反应和与其相关的EC数所示。这种视角也可以回答编码同工酶或同一复合物成分的其他基因是否与同一反应相关的问题。

EC编号透视图

“EC编号视角”显示路径数据库(dis)同意特定类型转换的与EC编号相关的元素。它还可能揭示可能的替代底物,这是代谢途径数据库之间冲突的来源之一[4]. C类2以EC编号1.1.1.35(3-羟酰基-CoA脱氢酶)为中心的卡片提供了这种情况的示例(附加文件1). 例如,EHMN有62个与该EC编号相关联的独特反应,而HumanCyc和Recon 1只有两个独特反应。根据每个数据库,EC编号透视图还可以用于回答哪个基因编码具有特定酶功能的酶的问题。

反应视角

“反应视角”提供了一个简明的概述,说明了哪些基因和EC编号与每个途径数据库中感兴趣的反应相关。这种观点有助于解决代谢网络重建中常见的缺口,即催化已知代谢反应的基因产物缺失的情况[17]. 反应透视图(以及EC编号透视图)可用于在特定数据库中查找缺失基因的可能候选基因,或揭示该基因在所有途径数据库中缺失。

通过单击C中显示的任何实体2卡片一可以轻松切换视角。此外,每个C2卡在新窗口中打开,以同时查看C2从不同角度看,反应、EC编号和基因的三元组相连的卡片。使用这三种透视图对全面了解数据库的一致性和不一致性至关重要。例如,EC编号透视图既不能完全取代基因透视图,也不能完全取代反应透视图,如图中的示例所示2EC编号不能唯一识别反应或酶。如示例所示,通路数据库将不同的EC编号与相同的反应联系起来。此外,在这种情况下,数据库要么不同意基因产物的底物特异性,要么馆长根据反应而不是基因产物的功能分配EC编号(表1). 最后,在C中2卡片应用程序一还可以通过允许EC编号的第四个数字不匹配来在查询EC编号时撒下更大的网。与前三个数字相反,最后一个数字并不表示酶的特定亚类,只用于区分具有不同底物特异性的酶。

图2
图2

C的摘录 2 卡片以反应“ATP+UMP<==>ADP+UDP”为中心。不同的EC编号与相同的反应和基因相关,这说明了分配给CMPK1基因产物的酶活性的差异。匹配的EC编号具有相同的颜色。

表1NC-IUBMB中EC编号的定义

处理概念差异

结合不同的观点还提供了一种消除差异的方法,这些差异并不反映对潜在生物学的真正分歧,例如描述代谢物或转化的详细程度的差异。由于这种差异通常不会影响分配给反应的基因或EC编号,因此可以使用基因或EC号透视图来揭示这些差异。例如,一些数据库可能提供代谢物的特定形式,例如,α-D-葡萄糖或β-D-葡萄糖,而在其他数据库中使用更通用的形式,本例中为D-葡萄糖。数据库管理员选择通用版本的一个可能动机是,在实验中可能很难区分两种异构体。第二个例子是,一个数据库可以选择使用通用代谢物(如“长链醇”)描述单个反应中的生化转化,而不是使用更具体的代谢物示例描述多个反应,“十六醇”和“十八醇”,而不是另一个数据库中的“长链醇”。基因或EC编号视角可以用来揭示这种差异。第三个例子是,用于描述生物化学过程的步骤数量可能不同,这也将阻止反应水平上的完美匹配。然而,请注意,这种细节层次上的差异可能并不总是概念上的差异,也可能是由于对潜在生物学的分歧。中间步骤数量的这种常见差异也可以通过基因或EC编号的角度来揭示(图).

图3
图3

C的摘录 2 卡片中心为EC编号“4.2.1.3”(顺乌头水合酶)。一步(绿色)或两步(蓝色)将柠檬酸盐转化为异柠檬酸盐(TCA循环的一部分)。所有五个数据库都同意的EC编号和基因都加了下划线。

基因和代谢物特性

如前所述,在探索路径数据库中包含的基因、EC编号和反应之后,C2卡片也可以直接用于管理途径数据库分配给基因和代谢物的标识符(ID)。标识符对于跨多种资源明确识别基因和代谢物至关重要,并且能够将实验数据链接到代谢网络2卡片提供路径数据库分配给他们的标识符(见图1以及材料和方法)。明确指出过时或转移的标识符。对于基因,提供HUGO基因命名委员会(HGNC)符号,对于代谢物,提供其名称和同义词。如果在通路数据库中可用,还显示代谢产物的两个结构ID(InChI和SMILES)和化学公式。标识符上的信息有助于揭示可改进标识符分配给代谢物或基因的情况。首先,它可以发现在一个或多个通路数据库中完全缺乏ID的代谢物。其次,ID信息还可以帮助识别路径数据库将不同基因和代谢产物数据库中的ID分配给同一实体的情况。这可以用于为特定基因或代谢产物提供额外的标识符,这也可能有助于数据库之间的匹配。第三,它可以揭示路径数据库分别从同一基因组或代谢产物数据库中为其分配了多个标识符的基因和代谢产物。总之,C2卡片可以帮助进行大量手动管理,以将代谢网络的每个组成部分正确连接到外部数据库。

比较反应时正确匹配代谢物的能力受路径数据库管理员所做的不同决定的影响。例如,在Recon 1和HumanCyc中,代谢物的质子化状态分别在7.2和7.3的pH水平下测定。其他三个数据库始终使用中性形式的代谢物。如C所示2卡片位于CTPS公司基因(图1),这导致选择氨(NH)的EHMN和KEGG之间的反应不匹配)和选择了铵的侦察机1。基因和EC编号视角为揭示这种差异提供了一种可能的方法。C类2卡片应用程序通过允许用户在查询反应时指定允许一个或多个不匹配,提供了一种额外的方法来发现类似但不完全匹配的反应。表中给出了允许一个不匹配的查询结果示例2在本例中,反应仅在描述代谢物鸟氨酸的详细程度上有所不同。还要注意的是,基因和EC编号是匹配的,在这种情况下,这支持了这两个反应可以被视为等效的概念。允许不匹配还可以检索由于缺少标识符而无法确定一个或多个代谢物身份的反应,或者由于使用不同的同义词而阻碍了名称匹配的反应。

表2C的摘录 2 以反应“l-精氨酸+H”为中心的卡片 2 O→鸟氨酸+尿素'

C类2卡接口

C类2在包括Windows、Linux和Apple在内的所有主要平台上,可以使用支持JavaScript的通用浏览器访问卡片。A和C2以感兴趣的基因或EC编号为中心的卡片可以在一个步骤中检索到。从反应角度来看,提供了两种途径,其中任何一种都需要三个步骤。可以通过输入一个或多个代谢物或在其中一个途径数据库中选择它所属的途径来找到反应。有关如何检索C的更多详细信息2卡片描述在C上2信用卡网站(http://www.molgenis.org/c2卡). 检索后,C2卡片也可以下载用于离线使用。此外,对于每个数据库,C2其所有基因、EC编号和反应的卡片可以在单个ZIP文件中以tab分隔格式下载。

在web接口旁边,提供了R、SOAP(简单对象访问协议)和REST(表示状态传输)的编程接口,以支持C集合的编程查询2卡。一个可能的应用是对每个路径数据库进行计算分析。一个典型的例子是浓缩试验,以确定在给定的高通量实验中最可能受影响的路径的优先级。路径数据库之间在内容和概念上的差异可能很大[4]. 例如,在五个选定的人类路径数据库中,路径的数量从EHMN中的69条到HumanCyc中的257条不等(请参见材料和方法)。因此,可以预期,特定路径数据库的选择会影响路径富集分析的结果[18]. 因此,建议将分析应用于多路径数据库,以验证结果的稳健性。具体来说,为了适应路径富集分析,我们提供了两个额外的表,只能通过编程接口访问。在这些表中,每个途径数据库的代谢物和基因与相应的途径相关联。我们的反应比较结果可用于放大富集分析的结果,以查看发现的差异是否可能归因于数据库使用的不同途径定义。

提供的另一个功能是,通过检索感兴趣的代谢物参与的反应列表,可以查找包含在五个数据库中的任何一个数据库中代谢物的去向。此外,代谢物为“dead-end”的数据库,,它要么只被生产,要么被消费。提供的反应列表允许用户使用其他数据库中的信息,在特定数据库的网络中查找候选反应以解决这些死机问题。此列表中的所有反应都链接到相应的C2卡片。

C类2卡片案例研究

对于这三个视角中的每一个,我们都提供了一个源自C的具体例子2人类以下五个人类路径数据库之间的共识和冲突。这些例子都是从初级代谢过程中挑选出来的,强调了即使在代谢网络中经过充分研究的部分也仍然会发生冲突。此外,我们重点关注了数据库之间不容易解决的差异示例,这些差异可能指向冲突信息或互补信息。案例研究说明了为什么人工管理对于解决矛盾信息和确定在哪些情况下甚至需要进一步的生化实验来验证什么是正确的,什么是不正确的仍然至关重要。

案例研究一:基因透视

C类2卡片专注于CTPS公司基因(图1)显示该基因在所有五个数据库中都找到,并且通过每个数据库与相同的EC编号相关联。然而,数据库将基因与哪种反应联系起来是不同的。EHMN和KEGG都将基因与两种反应联系起来,,谷氨酰胺依赖性反应

谷氨酰胺 + 列车自动防护系统 + 大学转学分课程 + H(H) 2 谷氨酸盐 + ADP公司 + CTP公司 + 正磷酸盐

和铵依赖反应

+ 列车自动防护系统 + 大学转学分课程 ADP公司 + CTP公司 + 磷酸盐 + H(H) + .

Reactome和HumanCyc仅将该基因与谷氨酰胺依赖性反应关联,Recon 1仅与铵依赖性反应相关。C类2Card专注于Reactome的谷氨酰胺依赖反应(图1)显示Recon 1确实包含此反应,但仅将其链接到CTPS2型基因而不是CTPS公司。从EC编号的角度出发,可以进行相同的观察,因为两个基因都与相同的EC编号相连(未显示)。

两者的产品CTPS公司CTPS2型该基因含有谷氨酰胺酰胺转移酶结构域,序列相似性高。这一点以及两种基因产物具有相同的EC编号这一事实表明,它们具有类似的催化活性。对于乳杆菌众所周知,CTP合成酶自身水解谷氨酰胺产生的铵和其他胺供体外部来源的铵均可用于CTP合成[19]. 这些酶的人类对应物可能遵循与发现的相同的反应机制乳杆菌谷氨酰胺在室温下不稳定,会分解为铵离子和氧脯氨酸,这一事实支持了这一点。因此,人们可以假设CTPS公司CTSP2型应与以下两种反应相关联智人也。谷氨酰胺和铵依赖性活性CTPS2型最近确实在人类胚胎肾细胞中发现[20]. 这意味着可以通过将谷氨酰胺依赖性反应与CTPS公司和铵依赖反应CTPS2型在Reactome和HumanCyc中,需要将铵依赖反应添加到这两个基因中。在本案例研究中,数据库管理员可能会混淆NC-IUBMB对分配给两个基因产物的EC编号(EC:6.3.4.2)的描述。与EC编号相关的反应是

列车自动防护系统 + 大学转学分课程 + N个 H(H) = ADP公司 + 磷酸盐 + CTP公司

评论栏中写道“谷氨酰胺可以取代NH”. 这可能在一定程度上解释了反应层面的不一致。

案例研究二:EC编号视角

所有五个数据库中都有EC编号6.2.1.4(琥珀酸-CoA连接酶(GDP-forming))。他们都同意一个反应和两个与之相关的基因(图4,反应以灰色表示)。除HumanCyc外,所有数据库都认为该反应是线粒体途径三羧酸(TCA)循环的一部分。EHMN和KEGG也包含非常相似的反应(图4,反应用红色表示),仅在其共基质方面有所不同,,IDP/ITP而非GDP/GTP。虽然IDP在体外是这种酶的底物,但在体内极不可能发挥作用。由于ITPase的活性,与其他核苷酸相比,IDP和ITP的浓度非常低。即使ITPA基因发生突变,ITPase的残余活性仍然很大,IDP/ITP浓度仍然无法检测到[21]. 结论是,IDP/ITP作为共底物的反应不应包括在人类代谢网络的描述中。请注意,在本案例研究中,NC-IUBMB对该EC编号的描述可能会引起混淆。评论栏中指出,ITP可以代替GTP,这可能适用于其他生物体,但不适用于智人.

图4
图4

C的摘录 2 卡片以EC编号“6.2.1.4”为中心(琥珀酸-CoA连接酶(GDP-forming))。所有数据库中都有灰色反应,只有EHMN和KEGG中有红色反应。'|===|'表示数据库没有提供任何方向。基因由HGNC符号表示,通过Entrez Gene ID检索。基因是构成复合体的产物,它们被置于括号之间,并通过布尔运算符“and”连接(参见材料和方法)。如果基因产物是同工酶,则使用“或”。

案例研究三:反应视角

所有五个数据库都包含反应

脱氧尿苷 + 磷酸盐 < = = > 2 脱氧 d日 核糖 1 磷酸盐 + 尿嘧啶

并将其分配给类似命名的路径(表). 然而,对于欧盟的数字几乎没有达成一致意见。只有HumanCyc选择的一个符合这个反应,但是在这个数据库中没有与反应相关的基因。关于基因,数据库之间没有达成共识。对于UPP2型有明确的实验证据表明其基因产物催化了反应[22]. 编码的酶的活性UPP1型TYMP公司已在人类肝脏和胎盘中进行了评估[23]. 的产品UPP1型在胎盘中显示出催化该反应的活性。然而,在肝脏中没有检测到酶的活性,肝脏中的酶完成其主要功能,尿苷的磷酸化。的产品TYMP公司主要功能为胸苷磷酸化酶.已经测量了在肝脏和胎盘中催化脱氧尿苷反应的活性。对于PNP公司没有足够的证据明确证实或反驳其产物能够催化这种特定反应。需要进行额外的实验来确定该基因的产物是否能催化这种反应。这也说明,即使大多数数据库链接PNP公司对于这种反应,这不一定得到确凿证据的证实。我们可以得出结论,EHMN、HumanCyc和KEGG应至少将第2页这种反应的基因。这将解决HumanCyc中的“缺失基因”问题。此外,TYMP公司可能需要添加到Recon 1和HumanCyc中。阿尔索UPP1型可能需要添加到Recon 1、HumanCyc和KEGG。还要注意,大多数数据库都没有链接UPP2型尽管有明确的证据表明存在这种反应。

表3C的摘录 2 卡片以反应“脱氧尿苷+磷酸<==>2-脱氧-d-核糖1-磷酸+尿嘧啶”为中心

讨论

我们提出了共识和冲突卡的概念,以提供有关生物体代谢途径数据库中所含知识的简明概述。例如,在一个步骤中,人们可以找到一个感兴趣的基因,并查看数据库是否就其产物在代谢网络中的作用达成一致2卡片将提高对不同路径数据库之间存在差异的认识。其他举措还提供了一个基于网络的界面,用于浏览和搜索多路径数据库[24,25]. 然而,他们关注的是各种(路径)数据库的结合,而不是明确指出路径数据库之间的差异。此外,它们没有以C语言对五个选定数据库中的每一个数据库的内容提供清晰、紧凑的概述2卡是这样的。此外,C2卡片应用程序允许用户查找与感兴趣的反应相似但不完全相同的反应。C提供的三种观点2卡片应用程序提供了对路径数据库中包含的知识的补充视图。这使得有可能区分反映基础生物学上分歧的差异(案例研究I-III)和差异,这些差异可以通过,例如,关于如何表示知识的不同决策来解释(表2).

最终,为了调和差异并整合网络,需要手动管理。虽然是C2卡片可以突出数据库之间的差异,它无法区分一个(或多个)数据库中的错误,以及由于科学文献中缺乏共识而导致数据库不一致的情况。此外,对于任何给定的生物体,代谢途径数据库仍在完善、扩展和更正中。这使得区分互补信息和数据库管理员故意排除的案例变得非常困难,例如,反应或基因。即使路径数据库同意的部分也可能需要审查,因为数据库共享信息源并可能相互复制数据,从而可能传播不正确的信息。还需要手动管理,以明确地为基因和代谢物分配标识符。

总之,C2卡片提供了一个优雅的解决方案,将值得进一步检查的案例提请路径数据库管理员注意。这些综述还可能指出有争议的生物知识,这些知识应该成为进一步研究的主题。

结论

对人类和其他生物体代谢网络的生物学准确和完整描述对于,例如,增加我们对受疾病干扰的途径的了解,发现新的药物靶点,解释海量的高通量数据。实现更完整描述的关键一步是结合特定生物体的每个可用途径数据库所获取的知识。我们已经在pathway数据库中投入了大量的时间和精力,我们应该最大限度地从中受益。然而,它需要广大社区的承诺和支持,以构建一个初步共识网络,并利用领域专家、科学文献和各种途径数据库捕获的新知识来扩展该网络。C类2卡片可以在几个方面为这种努力做出贡献。如三个案例研究所示,C2卡片是未来重建活动中进一步手动管理人类代谢网络的完美起点[6]. 我们的应用程序可以通过多种方式进行扩展。例如,为了支持重建工作,除了现有的查找死胡同代谢物的工具外,我们还可以指示反应是否平衡。另一个可能的扩展是进一步扩展C中当前包含的五个路径数据库集2人类以及其他路径数据库。重要的是,C2也可以为其他生物体设置卡片应用程序(请参见http://www.molgenis.org/c2卡用于描述)。扩展C提供的三种观点2人类对多种生物的研究可以利用模型生物的代谢知识来解决人类路径数据库之间的冲突。请注意,这需要使用正交映射,如InParanoid[26].

作为整合途径数据库的指南,我们提供了在哪个数据库中可以找到哪些基因、EC编号和反应的概述。这些概述中的条目链接到相应的C2卡片。一开始可以对所有或大多数数据库中包含的反应进行整理。事实上,在所有五个人类代谢途径数据库中发现的反应中,有一半以上与反应相关的EC数量和基因没有一致意见[4]需要额外的管理。C类2如果已经建立了特定生物体的共识网络,卡片也可以使用。我们设想C2卡片应用程序可以作为一个中心平台,在该平台上,共识网络可以通过路径数据库中的可用知识进一步完善和扩展,而不用于其构建。我们计划扩大C2人类与社区驱动的共识人类代谢网络Recon 2[27],这是在本文审查期间发布的。通过将Recon 2作为参考点,我们可以将这种最先进的共识网络与其他途径数据库进行比较。C中所有反应的概述2人类例如,可能是扩大侦察2的候选来源。将共识网络和其他描述之间的差异提请专家注意,将有助于进一步完善侦察二号。作为建立这样一个平台的第一步,用户已经可以向C添加注释了2卡片,最好通过参考文献来证实。他们可以订阅C2他们感兴趣的卡片,并在添加新评论时收到电子邮件。在这个论坛中,贡献者可能持有的不同甚至矛盾的观点可以清楚地暴露出来。基于这些贡献,如果有足够的证据支持这一说法,策展人团队可以决定将必要的改变纳入共识网络。未来,我们可以通过允许人们对贡献进行排名来扩展论坛,将被认为最重要的论坛条目展现在前台,从而帮助策展人。值得注意的是,如案例研究三所示,这可能导致需要进行进一步的生化表征实验的结论。由于pathway数据库正在不断完善,并且正在添加新信息,我们还可以通过邮寄更新的或额外的C2卡。

重要的是要让领域专家积极参与到这一持续的管理过程中,即使他们可能只是间接受益于这一努力。为了尽可能降低障碍,C语言的web界面2卡片设计得易于使用,适合不同背景的用户。该应用程序也可以通过智能手机和平板电脑访问,允许C2几乎可以在任何地方查看和讨论卡片。此外,C2可以下载卡片供离线使用。C的管理2卡片是在单个反应或单个基因产物的代谢功能的水平上完成的。这可能会降低专家贡献的门槛,也允许(非常)详细地了解代谢网络中的一个步骤。激励专家贡献的一种方法是以“纳米出版物”的形式使贡献具有可追踪性和可引用性[28]. 纳米出版物由三部分组成:陈述,例如,蛋白质X(主体)催化(谓词)反应Y(客体),条件根据该声明,例如、特定隔间,以及起源声明,例如,作家和文学。除了鼓励专家分享他们的知识外,这也是确保馆长的贡献通过参考文献得到证实的一种方式。我们还计划包括在C中2人类WikiPathways的人类代谢途径[29],一个开放的平台,任何人都可以在其中贡献一条道路。通过整合该数据库中的知识,我们间接地获得了专家贡献知识的第二种方法。最终,为了重建一个与目标生物体的新陈代谢极为相似的生物化学网络,需要进行广泛的文献研究和额外的生物化学实验,以解决所揭示的所有冲突,并填补仍然存在的空白。因此,一个庞大而多样的社区的持续支持、时间和努力至关重要。C类2卡片可以简化路径数据库之间共识和冲突的识别,降低专家贡献的门槛,从而为这项工作做出贡献。

材料和方法

材料

C类2人类是基于我们之前使用的相同数据集构建的[4]为了比较五个路径数据库,,嗯,智人Recon 1、HumanCyc以及KEGG和Reactome的人类代谢亚群(表4). 对于每个反应,我们检索到:EC编号和与其相关的基因,以及反应是其中一部分的途径(表5). 为了比较反应,我们检索了每种代谢物,除了其主要名称和可用同义词外,化学式和以下五种类型的代谢物标识符(如果在特定途径数据库中可用):KEGG化合物、KEGG聚糖、PubChem、ChEBI和CAS。PubChem ID有两种类型,Substance和Compound。物质ID针对代谢物的储存者。化合物ID将同一代谢物的不同物质ID合并在一起。我们使用了CID-SID文件(ftp://ftp.ncbi.nih.gov/pubchem/Compound/Extras/CID-SID.gz)将PubChem Substance ID转换为PubChem-Compound ID。

表4使用的代谢途径数据库概述
表5Pathway数据库内容统计

虽然没有用于比较代谢物,但我们还检索了代谢产物的InChI和SMILES,当路径数据库提供时,作为附加信息。对于这些基因,我们检索了Entrez基因和Ensembl基因ID(如果可用)。为了进行显示和比较,我们将Entrez Gene和Ensembl Gene ID分别映射到Entrez基因和Ensempl数据库提供的相应HGNC符号。Entrez Gene ID和Ensemble Gene ID均不适用于HumanCyc中的396个基因。对于其中的106个基因,UniProt ID用于检索Entrez基因ID和/或Ensemble基因ID。所有过时的标识符和EC编号都转移到当前ID/EC编号(附加文件2). 如果不可能,ID或EC编号将被标记为已过时。所有数据都是根据主数据库的原始许可条款提供的。

方法

数据检索和存储

我们使用专用的内部脚本来检索C所需的数据2人类并将这些数据存储在本地MySQL数据库中。该数据库是为了便于比较基因、EC编号和反应而设计的。第二个数据库,针对生成C所需的查询进行了优化2人类(附加文件),是从此数据库派生的。为了避免在web应用程序中进行繁重的计算,第二个数据库包含基因和代谢物水平上的所有成对匹配,以及每对可能的反应之间的重叠百分比。注意,C2卡片本身是为给定的用户查询动态合成的。

匹配

在C中2人类基因、EC数、代谢物和反应匹配如下:

基因如果根据Entrez Gene ID和/或Ensemble Gene ID达成一致,则认为两个基因匹配。此外,这两种类型的基因标识符都映射到相应的HGNC符号。这为匹配与同一基因组数据库无关的基因提供了基础,、Entrez Gene或Ensembl,通过其HGNC符号。此外,我们计算了基因匹配的传递闭包。这意味着,如果数据库a和数据库B匹配某个特定基因,例如,在Entrez Gene ID上,以及上的数据库B和C之间,例如.,Ensemble Gene ID,则认为该基因也与数据库A和C相匹配。

EC编号除了五个数据库总共有71个不完整的EC编号外,EC编号的匹配很简单。组成完整EC编号的四个数字中可能会有三个数字丢失。这用“-”表示,例如,酶代码EC1.-.-.-。不完整的EC编号含义不明确[30]. 它们可能表明,酶活性的进一步规范是不可能的,但NC-IUBMB尚未包含特定酶活性的完整EC编号。为了减少虚假匹配的数量,不完整的EC编号被逐字匹配,,“-”未被视为通配符。

代谢物如果可用,根据KEGG化合物ID匹配代谢物。如果没有提供KEGG化合物ID,代谢物必须与其他四个标识符(KEGG聚糖、ChEBI、PubChem化合物或CAS ID)或名称匹配。在后一种情况下,我们还需要匹配化学公式。比较化学公式时忽略了H原子数的差异。此外,名称匹配区分大小写,空格和标点符号被忽略。此外,对于代谢物匹配,我们计算了传递闭包(见上文)。

反应对于反应,我们确定了他们同意的代谢物的百分比,尊重反应的两面,但忽略了反应的方向。我们没有考虑e-,H+,H2与这些特定代谢物反应有关的匹配反应中的O并不总是平衡的。此外,由于数据库中所述反应的pH值不同-和H+代谢产物可能包含在反应中,也可能不包含在反应内。此外,我们没有考虑反应的分区。两个反应的相似性通过重叠百分比来衡量:

匹配 代谢物 最大值 代谢物 R(右) 1 , 代谢物 R(右) 2 × 100 %

哪里R(右)1和R(右)2表示被比较的两个反应。此外,我们还计算了反应匹配的传递闭包(见上文)。

它取决于生物体和C中包含的特定途径数据库2卡片数据库,其中ID最适合用于比较基因和代谢物。只对代码和原始C语言做了一些更改2卡片数据库方案需要使用其他ID进行匹配。我们的网站上提供了更详细的更改说明(http://www.molgenis.org/c2卡).

构建web应用程序

C类2人类使用分子遗传学信息系统(MOLGENIS)工具包构建[31]. 该软件使生物信息学家能够使用简单而简短的XML文件对具有丰富数据结构和用户界面的完整web应用程序进行建模。从这个模型中,工具包自动生成Java语言的软件,提供基本的web用户界面(使用Freemarker模板,http://www.freemarker.org)和Java、R、SOAP和REST编程接口到底层MySQL数据库。在这些生成的软件的基础上,我们使用了MOLGENIS“插件”框架,用Java和JavaScript编写C语言特有的额外功能2人类,例如各种搜索选项。结果安装在标准Tomcat web服务器上,但也可以使用MOLGENIS嵌入式web服务器“独立”运行。C的本地安装2人类也可根据要求提供。所有代码和数据库方案都是开源的,可以作为构建C语言的基础2其他生物体的卡片申请。我们的网站上提供了一份操作手册(http://www.molgenis.org/c2卡). C的代码2卡应用程序位于http://www.molgenis.org/svn/c2cards/trunk/。还需要MOLGENIS核心项目的副本,可在http://www.molgenis.org/svn/molgenis/branches/molgeniso_c2cards.

代表

C中的每一行2卡片包含反应、EC编号、基因、与反应相关的途径以及源数据库的名称。如果将一个反应分配给多条路径,则对每条路径使用单独的一行。反应的代谢物由其主要名称表示,如途径数据库所示。虽然在匹配反应时没有考虑,但源数据库所示的反应方向和隔间显示在C中2卡片。如果未提供方向,则用“|==|”表示。多个EC编号用逗号连接。按照Recon 1中使用的惯例,产物为同工酶的基因通过布尔运算符“or”连接。如果基因产物形成复合物,则使用“and”。然而,EHMN和KEGG没有描述同工酶或复合物的句法机制。因此,如果EHMN和KEGG将多个基因与一个反应联系在一起,则它们通过逗号连接。基因由检索自Entrez基因的HGNC符号表示。然而,Entrez基因ID并不总是对每个基因都可用,并且当Entrez Gene ID可用时,HGNC符号也不总是可以检索到。在这些情况下,如果可用,我们使用集成基因ID来检索HGNC符号。对于358个基因,通过任何一种基因标识符类型都无法获得HGNC符号。在这种情况下,该基因由其Entrez基因或Ensembl基因ID表示,这取决于这两种基因中的哪一种是可用的。对于HumanCyc中的274个基因,这两个基因标识符也不可用,在这些情况下,HumanCcyc的内部基因标识符用于表示。如果多个HGNC符号链接到一个基因,则用两个下划线分隔。还要注意,HumanCyc和Reactome可能将多个Entrez基因ID链接到单个基因,这在大多数情况下也会导致多个HGNC符号。同样,KEGG和Reactome包含与多个集合基因ID相关的基因。

缩写

BiGG公司:

生物化学、遗传学和基因组结构

C2卡:

共识和冲突卡

欧盟委员会:

酶委员会

EHMN公司:

爱丁堡人类代谢网络

HGNC公司:

基因命名委员会

身份证件:

标识符

凯格:

京都基因和基因组百科全书

KGML公司:

KEGG标记语言

摩尔根群岛:

分子遗传学信息系统

NC-IUBMB公司:

国际生物化学和分子生物学联合会命名委员会

休息时间:

代表性状态转移

SBML:

系统生物学标记语言

SOAP:

简单对象访问协议

TCA公司:

三羧酸。

工具书类

  1. Karp PD,Caspi R:代谢数据库调查,强调MetaCyc家族。弓形虫毒素。2011, 85: 1015-1033. 10.1007/s00204-011-0705-2。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  2. Oberhardt MA、Palsson BØ、Papin JA:基因组尺度代谢重建的应用。分子系统生物学。2009, 5: 320-

    第条 公共医学 公共医学中心 谷歌学者 

  3. Herrgárd MJ、Swainston N、Dobson P、Dunn WB、Arga KY、Arvas M、Blüthgen N、Borger S、Costenoble R、Heinemann M:从系统生物学的社区方法获得的共识酵母代谢网络重建。自然生物技术。2008, 26: 1155-1160. 10.1038/nbt1492。

    第条 谷歌学者 

  4. Stobbe MD、Houten SM、Jansen GA、van Kampen AHC、Moerland PD:人类代谢途径数据库的关键评估:未来整合的垫脚石。BMC系统生物。2011, 5: 165-10.1186/1752-0509-5-165.

    第条 公共医学 公共医学中心 谷歌学者 

  5. Mo ML,Palsson BØ:理解人类代谢生理学:基因组对系统方法。生物技术趋势。2009, 27: 37-44. 2016年10月10日/j.tibtech.2008.09.007。

    第条 公共医学 中国科学院 谷歌学者 

  6. Thiele I,Palsson Bæ:重建注释大杂烩:系统生物学的社区方法。分子系统生物学。2010, 6: 361-

    第条 公共医学 公共医学中心 谷歌学者 

  7. Thiele I、Hyduke DR、Steeb B、Fankam G、Allen DK、Bazzani S、Charusanti P、Chen FC、Fleming RM、Xiung CA:人类病原体知识库和数学模型的社区努力沙门氏菌鼠伤寒LT2。BMC系统生物。2011, 5: 8-10.1186/1752-0509-5-8.

    第条 公共医学 公共医学中心 谷歌学者 

  8. Wittig U,De Beuckelaer A:代谢途径数据库的分析和比较。简要生物信息。2001, 2: 126-142. 10.1093/bib/2.2.126。

    第条 公共医学 中国科学院 谷歌学者 

  9. Radrich K、Tsuruoka Y、Dobson P、Gevorgyan A、Swainston N、Baart G、Schwartz JM:整合代谢数据库以重建基因组规模的代谢网络。BMC系统生物。2010, 4: 114-10.1186/1752-0509-4-114.

    第条 公共医学 公共医学中心 谷歌学者 

  10. Chindelevitch L、Stanley S、Hung D、Regev A、Berger B:MetaMerge:扩大基因组规模的代谢重建,并应用于结核分枝杆菌。基因组生物学。2012年第13期:R6-10.1186/gb-2012-13-1-R6。

    第条 公共医学 公共医学中心 谷歌学者 

  11. Schellenberger J、Park JO、Conrad TM、Palsson BØ:BiGG:大规模代谢重建的生化遗传和基因组知识库。BMC生物信息。2010, 11: 213-10.1186/1471-2105-11-213.

    第条 谷歌学者 

  12. Duarte NC、Becker SA、Jamshidi N、Thiele I、Mo ML、Vo TD、Srivas R、Palsson BØ:基于基因组和文献数据的人类代谢网络的全球重建。美国国家科学院院刊2007,104:1777-1782。10.1073/pnas.0610772104。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  13. Hao T,Ma HW,Zhao XM,Goryanin I:爱丁堡人类代谢网络的分区。BMC生物信息学。2010, 11: 393-10.1186/1471-2105-11-393.

    第条 谷歌学者 

  14. Romero P、Wagg J、Green ML、Kaiser D、Krummenacker M、Karp PD:从完整人类基因组对人类代谢途径的计算预测。基因组生物学。2004年6月:R2-10.1186/gb-2004-61-R2。

    第条 公共医学 公共医学中心 谷歌学者 

  15. Kanehisa M、Goto S、Sato Y、Furumichi M、Tanabe M:KEGG,用于集成和解释大规模分子数据集。《核酸研究》2012,40:D109-D114。10.1093/nar/gkr988。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  16. Croft D、O'Kelly G、Wu G、Haw R、Gillespie M、Matthews L、Caudy M、Garapati P、Gopinath G、Jassal B:反应组:反应、途径和生物过程数据库。《核酸研究》2011,39:D691-D697。10.1093/nar/gkq1018。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  17. Orth JD,Palsson BØ:系统化缺失代谢知识的生成。生物技术生物工程。2010, 107: 403-412. 10.1002/位22844。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  18. Elbers CC、van Eijk KR、Franke L、Mulder F、van der Schouw YT、Wijmenga C、Onland-Moret NC:使用全基因组途径分析来揭示复杂疾病的病因。基因流行病学。2009, 33: 419-431. 10.1002/gepi.20395。

    第条 公共医学 谷歌学者 

  19. Willemoës M:内部谷氨酰胺水解产生的氨和溶液中存在的羟胺之间的竞争,通过乳酸乳球菌CTP合酶催化将其掺入UTP。生物化学与生物物理学Arch Biochem Biophys。2004, 424: 105-111. 2016年10月10日/j.abb.2004.01.018。

    第条 公共医学 谷歌学者 

  20. Kassel KM,Au DR,Higgins MJ,Hines M,Graves LM:通过磷酸化调节人胞苷三磷酸合成酶2。生物化学杂志。2010, 285: 33727-33736. 10.1074/jbc。M110.178566。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  21. Bierau J、Lindhout M、Bakker JA:肌苷三磷酸酶的药理学意义。药物基因组学。2007, 8: 1221-1228. 10.2217/14622416.8.9.1221.

    第条 公共医学 中国科学院 谷歌学者 

  22. Johansson M:一种新的人类尿苷磷酸化酶的鉴定。生物化学与生物物理研究委员会。2003, 307: 41-46. 10.1016/S0006-291X(03)01062-3。

    第条 公共医学 中国科学院 谷歌学者 

  23. el-Kouni MH,el-Kooni MM,Naguib FNM:人类和小鼠嘧啶核苷磷酸化酶活性和底物特异性的差异:5-氟嘧啶化疗的意义。癌症研究,1993,53:3687-3693。

    公共医学 中国科学院 谷歌学者 

  24. Kamburov A、Pentchev K、Galicka H、Wierling C、Lehrach H、Herwig R:ConsensusPathDB:走向更完整的细胞生物学。《核酸研究》2011,39:D712-D717。10.1093/nar/gkq1156。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  25. Cerami EG、Gross BE、Demir E、Rodchenkov I、Babur O、Anwar N、Schultz N、Bader GD、Sander C:Pathway commons,生物途径数据的网络资源。《核酸研究》2011,39:D685-D690。10.1093/nar/gkq1039。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  26. Östlund G、Schmitt T、Forslund K、Köstler T、Messina DN、Roopra S、Frings O、Sonnhammer ELL:InParoid 7:真核生物正畸分析的新算法和工具。《核酸研究》,2010年,38:D196-D203。10.1093/nar/gkp931。

    第条 公共医学 公共医学中心 谷歌学者 

  27. Thiele I、Swainston N、Fleming RMT、Hoppe A、Sahoo S、Aurich MK、Haraldsdottir H、Mo ML、Rolfsson O、Stobbe MD:人类新陈代谢的社区驱动全球重建。国家生物技术。2013, 31: 419-425. 10.1038/nbt.2488。

    第条 中国科学院 谷歌学者 

  28. Groth P,Gibson A,Velterop J:纳米出版物的解剖。信息服务和使用。2010, 30: 51-56.

    谷歌学者 

  29. Pico AR、Kelder T、van Iersel议员、Hanspers K、Conklin BR、Evelo C:WikiPathways:为人们编辑路径。《公共科学图书馆·生物》。2008年,6:e184-10.1371/journal.pbio.0060184。

    第条 公共医学 公共医学中心 谷歌学者 

  30. Green ML,Karp PD:由于部分EC编号的语义模糊,路径数据库中的基因组注释错误。《核酸研究》2005,33:4035-4039。10.1093/nar/gki711。

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  31. Swertz MA、Dijkstra M、Adamusiak T、van der Velde JK、Kanterakis A、Roos TE、Lops J、Thorisson GA、Arends D、Byelas G:MOLGENIS工具包:一键式快速原型制作生物软件。BMC生物信息。2010年11月12日-

    第条 谷歌学者 

下载参考资料

致谢

我们要感谢Erik Roos在这个项目的初始阶段对web应用程序的贡献,Joeri van der Velde在最后阶段的贡献,以及Dave Speijer的有益讨论。我们还感谢匿名审稿人为改进论文的表述和理解性而提出的有益意见和建议。本研究是在荷兰生物信息中心(NBIC;网址:http://www.nbic.nl),由BSIK支持;荷兰蛋白质组学中心通过荷兰基因组计划(NGI)资助;荷兰系统生物学联合会(NCSB)的研究计划,该计划是荷兰基因组计划/荷兰科学研究组织的一部分。信息技术得到了欧洲研究委员会拨款(编号232816)和玛丽·居里国际重返社会拨款(编号249261)在第七个欧洲共同体框架计划内的支持。

作者信息

作者和附属机构

作者

通讯作者

与的通信佩里·D·摩尔兰.

其他信息

相互竞争的利益

作者声明,他们没有相互竞争的利益。

作者的贡献

MDS设计了C2卡并开发了web应用程序C2人类.TR和MAS使用C的专用插件扩展了MOLGENIS工具包2人类.PDM为web应用程序的设计做出了贡献。信息技术为案例研究的解释做出了贡献。MDS和PDM撰写了手稿;IT、MAS和AHCvK帮助起草了手稿;AHCvK和PDM监督了该项目。所有作者阅读并批准了最终手稿。

电子辅助材料

12918_2012_1102_MOESM1_ESM.xls

附加文件1:C的示例 2 卡片。A和C2以EC编号为中心的卡片可能会显示可能的替代底物,这是代谢途径数据库之间冲突的来源之一(Stobbe等人,BMC系统生物学,5:165,2011)。C类2以EC编号1.1.1.35(3-羟酰基-CoA脱氢酶)为中心的卡片就是这种情况的一个例子2卡片通过web应用程序导出到Excel文件。除了C的核心表之外,该文件还包含2卡片,以及反应比较的概述,以及C中代谢物、基因和EC编号的信息2卡片。如第一张工作表所示,与EC编号1.1.1.35相关的独特反应的数量(不考虑区隔)从HumanCyc中的2个和EHMN中的Recon 1到62个不等。(XLS 642 KB)

12918_2012_1102_MOSM2_ESM.pdf

附加文件2:每个数据库的已传输和过时标识符和EC编号。五个途径数据库中每一个的转移和废弃EC编号、基因和代谢物标识符的数量。(PDF 9 KB)

12918_2012_1102_MOSM3_ESM.pdf

附加文件3:数据库方案C 2 人类.C数据库中的表概述2人类。只有三个“forum_topic”表、总览表和包含五个人体路径数据库比较统计信息的表是针对C的2人类。生成数据库所需的SQL脚本位于:http://www.molgenis.org/svn/c2cards/trunk/data/c2carsdb_empty.sql。(PDF 667 KB)

作者提交的原始图像文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章,根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0),允许在任何媒体上不受限制地使用、分发和复制,前提是正确引用了原作。

转载和许可

关于本文

引用这篇文章

医学博士Stobbe、医学硕士Swertz、I.Thiele。等。代谢途径数据库的共识和冲突卡。BMC系统生物 7, 50 (2013). https://doi.org/10.1186/1752-0509-7-50

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1752-0509-7-50

关键词