跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2010年7月1日;38(Web服务器问题):W78–W83。
2010年6月2日在线发布。 doi(操作界面):10.1093/nar/gkq482
预防性维修识别码:下午2896180
PMID:20519200

R(右)蜘蛛:通过结合Reactome和KEGG数据库中的信号和代谢途径对基因列表进行基于网络的分析

摘要

R(右)spider是一种基于网络的工具,用于利用Reactome和KEGG数据库中积累的人类生物学核心途径和反应的系统知识分析基因列表。R(右)spider实现了一个基于网络的统计框架,它提供了对所提供基因列表中基因关系的全局理解,并充分利用了Reactome和KEGG知识库。R(右)spider为几个模型生物提供了一个用户友好的对话框驱动的web界面,并支持大多数可用的基因标识符。R(右)spider免费提供http://mips.helmholtz-muenchen.de/proj/rspider.

简介

高通量技术使生物研究人员能够同时研究数百或数千个基因。检测在不同的细胞条件下差异表达或共表达的基因或蛋白质。然而,根据实验得出的基因/蛋白质列表生成关于潜在生物机制的假设对生物学家来说仍然是一项非平凡的任务。2002年,提出了一种使用基因本体(GO)的计算机化分析方法来处理这个问题(1,2). 目前,有超过25种工具执行这种类型的分析,但有一些不同(3–13). 最近,计算方法试图解释或至少可视化实验衍生基因的路径上下文(14–17). 在这方面,应该提到最近在(17,18)它超越了基因对,并通过在整个通路中传播在基因水平上测量的扰动来完全捕获信号通路的拓扑结构。然而,为全球网络推理开发严格的统计方法一直是一项具有挑战性的任务。

最近,我们引入了一个基于网络的计算框架,用于解释来自高通量研究的基因/蛋白质列表(19,20). 我们的方法克服了常用富集分析方法的一个主要瓶颈(21)通过提供网络模型,将来自不同途径的基因联合成一个单一的连接网络。采用蒙特卡罗程序估计推断模型的重要性,从而提供严格的定量统计控制(22). 基于web的工具KEGG spider(19),采用基于网络的方法探索KEGG数据库中积累的代谢反应(23). 与其他工具相比,KEGG蜘蛛能够更深入地了解代谢变化的基因组基础(19).

尽管KEGG蜘蛛是一种强大的工具,但它仅限于代谢相关基因,这些基因覆盖人类基因组的10%以下(约1100个基因)。很明显,许多其他重要的细胞过程,例如调控和信号通路,仍然没有被推断的网络模型所揭示。另一方面,Reactome知识库(24,25)是一个动态扩展的项目,它提供了关于人类反应和途径的高质量专家编写的同行评审知识,涵盖3916种人类蛋白质(截至30版)。为了使用Reactome知识为实验人员提供高效的基于网络的工具来分析高通量数据,我们开发了R(右)spider,它实现了基于网络的方法,并充分利用了Reactome知识库中积累的数据。R(右)蜘蛛结合反应组和KEGG知识数据库,涵盖来自信号和代谢途径的蛋白质。

我们想指出的是,公共领域中还有其他可用的信号和代谢数据库,如人工策划的BioCarta、NCI或推断数据(26)或(27).R(右)蜘蛛可以在Reactome和KEGG、Nature Curated路径之间切换(网址:http://pid.nci.nih.gov/)和BioCarta(网址:www.biocarta.com).

材料和方法

全球反应组蛋白网络

反应组(网址:http://www.reactome.org/)是专家-撰写、同行评审的人类反应和途径知识库。我们使用了一个以tab分隔的文件,该文件指定了从反应组数据导出的蛋白质-蛋白质相互作用对(http://www.reactome.org/download/current/home_sapiens.interactions.txt.gz). “相互作用”的含义相当广泛:两个蛋白质序列发生在同一个复合体中,或者它们发生在相同或相邻的反应中。对于人类基因组,全球反应体蛋白质网络涵盖约3700个蛋白质(包括与人类蛋白质相互作用的非人类物种的蛋白质),涉及约83 000个独特的成对相互作用(基于版本30)。

全球代谢基因网络

KEGG数据库是底物-产物对(反应物对)的化学结构转换模式的集合。有关构建全球代谢基因网络所用程序的详细描述,请参阅参考文献(19). 由此产生的全球代谢基因网络通过边缘将任何两个与共享共同化合物(来自主反应对)的反应相关的基因连接起来。就人类基因组而言,全球代谢基因网络涵盖约1100个基因,涉及约15000种独特的成对相互作用。

整体参考网络

为了将这两个网络结合起来,反应体蛋白质网络被转化为一个基因网络。在许多情况下,几个蛋白质映射到同一个基因,由此产生的基因网络具有较少的节点和边。一旦KEGG和Reactome网络具有相同类型的节点标识符,它们就可以合并。对于人类基因组,由此产生的完整网络覆盖了约3700个基因,涉及约50000个独特的成对基因相互作用。

网络推理程序和统计处理

网络推理和蒙特卡罗模拟计算程序的详细信息P(P)-价值观可以在我们之前发表的论文中找到(19,20,28).

最初,输入列表中的基因被映射到全局参考网络。此时,输入列表的所有节点都被断开。在第一步中,所有距离为1的节点对通过边连接,并提取连接的子网。节点数最多的子网称为推断网络模型D1。在第二步中,距离为2的输入列表中断开的节点通过边连接。推导出具有最大输入节点数的子网络,称为网络模型D2。在下一步中,距离为3的输入列表中的断开节点通过边连接,并推断出网络模型D3(具有最大输入节点数的子网络)。模型D2和D3包含不在输入列表中的节点,但添加这些节点是为了连接网络模型中的输入节点。我们将这些增加的节点称为中间基因或缺失基因。

让我们假设N个将输入列表中的基因映射到参考网络。接下来,我们将值N作为输入列表的大小。我们推断网络模型D1、D2、D3。让我们将S1、S2、S3表示为推断网络模型中的输入节点数。我们还将S1、S2、S3作为各自型号D1、D2、D3的尺寸。给定输入列表中映射基因的数量(N个),我们将模型的大小(值S1、S2、S3)视为统计数据。我们必须估计从随机生成的基因列表中获得相同或更大尺寸模型的概率,该列表具有N个基因映射到参考网络。

为了生成背景分布BD1、BD2、BD3,我们重复以下模拟过程k个时间,其中k个指定较高的显著性级别。随机基因列表Lj公司大小为N个(等于输入列表的大小)是通过从全球基因网络中采样基因生成的。索引j个= 1 …k个指定每个k个随机模拟。上述网络推理过程应用于随机列表Lj公司并推导出网络模型D1、D2、D3。让我们表示随机列表的推断模型D1、D2、D3的大小(输入基因的数量)Lj公司作为R1j个,R2j个,R3j个因此,重复模拟过程k次后,我们得到背景分布R1j个(j个= 1…k个)对于D1型,背景分布R2j个(j个= 1…k个)对于型号D2和背景分布R3j个(j个= 1…k个)对于型号D3。

为了估计推断出的网络模型D1对输入基因列表的重要性,将值S1与分布R1进行比较j个.让n个是分布R1中的值的数量j个等于或大于S1。估计P(P)(P(P)-值)计算为P(P)= (n个+ 1)/k个.以同样的方式P(P)-对模型D2和D3的值进行了估算。

统计处理对推断模型的质量控制起着重要作用。很明显,给定一个基因列表和一个参考网络,人们总是可以推断出一些模型,通过放宽可能的中间基因的数量,该模型将覆盖列表中的所有基因。对于任何类似的工具,都有一个非常简单的测试:该工具必须能够识别随机的基因列表,并返回平均不重要的结果P(P)-随机情况的值。在20份提交的不同随机生成的基因列表中,平均只有1例在0.05(1/20)的水平上具有显著性。P(P)-蒙特卡罗程序提供的值与P(P)-value:随机基因列表获得相同质量模型的概率。

反应组和KEGG标准通路的富集

为了计算典型反应体和KEGG途径的富集,我们还使用了蒙特卡罗程序。在这种情况下,我们随机抽取k个基因(输入列表中的基因数)是所有基因集合(或用户提供的背景基因集合)的100倍,每次我们都会估计P(P)-基于超几何分布的最佳路径值。因此,我们得到了大小为100的最佳分布P(P)-随机抽取的k个基因的值,我们将其与P(P)-与我们的原始列表相关的最佳(任何)路径的值。调整后的估计P(P)-蒙特卡罗程序的值由随机模拟的份额给出,其中最佳P(P)-值等于或高于(小于)P(P)-与我们的原始基因列表相关的最佳(任何)路径的值。

结果

R(右)十字轴(http://mips.helmholtz-muenchen.de/proj/rspider)是一个免费提供的基于网络的工具,实现了一个无路径的统计框架,用于解释高通量研究的基因列表。R(右)蜘蛛可用于几种模式生物(小家鼠,褐家鼠,秀丽隐杆线虫,酿酒酵母,拟南芥,黑腹果蝇). 此外,R(右)spider可以选择切换到公共域信号通路数据库中的其他可用通路,即Nature Curated通路(网址:http://pid.nci.nih.gov/)和BioCarta(网址:www.biocarta.com).

R(右)spider有一个简单、用户友好的界面。作为输入,它接受多种类型的基因或蛋白质标识符,例如来自“Entrez gene”的标识符(29),“UniProt/Swiss-Prot”(30)、“雨果基因符号”、“UniGene”、“合奏”(31),'参考序列'(32)和“Affymetrix”(33). 作为输出,用户获得网络模型(D1、D2、D3),其中(1,2,)表示输出模型中任何两个被视为“连接”的输入基因之间的最大距离。网络模型(D1、D2或D3)表示具有最大输入基因数的连接子网络。R(右)spider提供了一份关于推断网络模型(D1、D2、D3)的统计显著性的报告,以及富集反应组或KEGG通路的目录。对于每个模型(D1、D2、D3),都提供了一个链接以获得图形可视化效果。可视化由美杜莎软件包执行(34). 我们想指出的是,在线可视化功能是有限的。因此,我们建议将推断出的网络模型下载为文本文件(可视化页面上提供了链接),并使用免费软件包(Cytoscape、Meduza)进行网络可视化。使用这些程序,用户可以生成高质量的图形(34,35).

图形输出

在图形输出中,输入基因由矩形表示,并由输入基因ID指定。中间基因由三角形表示,并由Entrez Gene Symbols指定。化合物由圆圈表示,并由化合物名称指定(如果名称长度超过10位,则使用化合物KEGG id)。不同的颜色用于指定典型反应体或KEGG途径。一般来说,多达11条最具代表性的路径(就模型中的基因数量而言,输入基因和中间基因都被计算在内)是有色的。在大多数情况下,一个基因可以与多条通路相关。因此,R(右)蜘蛛对基因着色执行了严格的分级程序。首先,根据任何给定途径中存在于模型中的基因数量对途径进行排序。最具代表性的途径将被涂成红色。有色基因(红色)被排除在外,并且仅考虑剩余的基因来重新排列途径。下一个最具代表性的路径将用蓝色表示。有色基因(红色和蓝色)被排除在外,路径被重新排序,只考虑其余的基因。这一过程将继续进行,直到13条路径被着色,或者没有覆盖至少两个基因的路径。因此,颜色具有严格的层次结构:红、蓝、绿等。颜色前的数字表示层次顺序(图1). 很明显,一些红色基因也可能属于蓝色(绿色等)途径,但反之亦然。

保存图片、插图等的外部文件。对象名为gkq482f1.jpg

网络模型第3天由返回R(右)蜘蛛提交了360个位于典型Sézary综合征拷贝数改变区域的候选基因(37). 方框代表输入基因,三角形代表中间基因(添加用于连接两个输入基因的基因,对于D3型,任何两个输入的基因之间最多允许有两个中间基因),圆圈代表两个连接基因的共同底物或产物的化合物。钻石用于指定典型反应体或KEGG途径的颜色。

表:交互上下文

对于报告模型中的每个基因,R(右)spider提供了完整的交互上下文。此信息汇总在“交互对”表中。对于Reactome,有四种类型的交互作用:“direct_complex”、“indirect_complex”、”reaction”或”neighbouring_reaction“。在KEGG数据库中,相互作用表示一种化合物(连接的基因被分配给使用同一化合物的不同反应),或者很少通过反应ID表示(两个连接的基因催化相同的代谢反应)。边缘可以由几个不同的交互支持,所有交互都将被报告,并提供到源数据的相应链接。

例子

我们在我们的网站上展示(http://mips.helmholtz-muenchen.de/proj/rspider/example.html)数百个分析示例R(右)通过文本挖掘从不同生物背景下的蛋白质组学研究中自动提取的基因列表蜘蛛(36). 在这里,我们详细介绍了一个示例,以演示我们的工具的潜在好处。

目前,许多临床研究旨在揭示具有特定表型的复杂疾病的可能致病机制和新的治疗靶点。例如,Sézary综合征与侵袭性皮肤T细胞淋巴瘤/白血病有关。在维米尔的研究中等。(37)对20例患者的恶性T细胞进行了基于高分辨率阵列的比较基因组杂交,以揭示Sézary综合征典型的高度复发性遗传改变。据报告,至少35%的患者出现了拷贝数改变的最小共同区域,共包含约360个候选基因(见参考文献37中的表1)。

这些基因中只有22个映射到KEGG代谢途径。因此,为了进行比较,KEGG spider的分析报告称,推断的网络模型并不重要(P(P)=∼0.1). 相反,结合Reactome和KEGG数据的整体参考网络的考虑为Sézary综合征中拷贝数改变基因背后的可能分子机制提供了更有趣的见解。在这种情况下,360个基因中的92个被映射到集成网络。网络模型D3允许任何两个输入基因之间最多有两个缺失的基因,将92个映射的候选基因中的74个连接到一个无中断的网络中。该模型具有统计意义(P(P)< 0.01).R(右)spider从构成完整参考网络的3700个人类基因中随机抽取92个基因1000次;在993例病例中,得到的网络模型D3的大小小于74个基因。因此,该模型的显著性约为0.01。

R(右)spider提供了图形模型。所考虑的例子的网络模型D3,它覆盖了74个基因(P(P)<0.01),见图1输入列表中的蛋白质用矩形表示,中间蛋白质用三角形表示,化合物用圆圈表示。颜色用于指定反应体和KEGG标准途径。

与其他可用的路径分析工具相比,R(右)蜘蛛提供了基因功能关系的全局视图。例如,提交至Onto-express(17)结果报告了几个(~10)富集的途径,并有可能将它们单独可视化。这当然是有价值的信息。然而,最佳模型(富集路径“癌症路径”)涵盖19个基因。未披露路径之间的关系以及富集路径未涵盖的基因之间的作用和关系。因此,与Onto-express相比R(右)蜘蛛表明,位于塞萨里综合征中拷贝数经常改变的区域的基因是依赖性的,尽管它们属于广泛的信号和代谢途径。在这种情况下,用户获得了一个新创建的通路,该通路包含74个基因,并实际运行于几个典型的反应体和KEGG通路。

结论

各种现代基因组技术产生了基因列表。更好地理解将已确定的基因结合在一起的生物机制,可以为更好地理解正在研究的现象提供线索。R(右)蜘蛛提供了一种可能性,可以积极利用反应组知识库中积累的各种性质的生物过程的知识以及KEGG数据库中与代谢相关的过程,以破译实验衍生基因列表背后的机制。无路径统计框架与最先进的路径和反应公共可用数据库相结合,使得R(右)spider是解释基因组数据的一个非常有吸引力的工具。

基金

开放获取费用资助:欧洲生物信息学研究所,威康信托基因组校园;Reactome的开发得到了美国国立卫生研究院的资助(P41 HG003751页)欧盟拨款LSHG-CT-2005-518254“ENFIN”。

利益冲突声明。未声明。

致谢

我们感谢Philip Wong的有益讨论。

参考文献

1Draghici S,Khatri P,Martins RP,Ostermeier GC,Krawetz SA。基因表达的全球功能分析。基因组学。2003;81:98–104.[公共医学][谷歌学者]
2Khatri P,Draghici S,Ostermeier GC,Krawetz SA。使用onto-express分析基因表达。基因组学。2002;79:266–270.[公共医学][谷歌学者]
三。Subramanian A、Tamayo P、Mootha VK、Mukherjee S、Ebert BL、Gillette MA、Paulovich A、Pomeroy SL、Golub TR、Lander ES等。基因集富集分析:解释全基因组表达谱的基于知识的方法。程序。美国国家科学院。科学。美国。2005;102:15545–15550. [PMC免费文章][公共医学][谷歌学者]
4Reimand J、Kull M、Peterson H、Hansen J、Vilo J.g:Profiler——一种基于网络的工具集,用于对大规模实验中的基因列表进行功能分析。核酸研究。2007;35:W193–W200。 [PMC免费文章][公共医学][谷歌学者]
5Masseroli M,Martucci D,Pinciroli F.GFINDer:通过动态注释、统计分析和挖掘的基因组功能整合发现者。核酸研究。2004;32:W293–W300。 [PMC免费文章][公共医学][谷歌学者]
6Martin D、Brun C、Remy E、Mouren P、Thieffry D、Jacq B.GOToolBox:基于基因本体的基因数据集功能分析。基因组生物学。2004;5:R101。 [PMC免费文章][公共医学][谷歌学者]
7Khatri P、Voichita C、Kattan K、Ansari N、Khatri A、Georgescu C、Tarca AL、Draghici S.Onto-Tools:2006年新增和改进。核酸研究。2007;35:W206–W211。 [PMC免费文章][公共医学][谷歌学者]
8Dietmann S、Georgii E、Antonov A、Tsuda K、Mewes HW。DICS储存库:疾病相关基因列表的模块辅助分析。生物信息学。2009;25:830–831.[公共医学][谷歌学者]
9Berriz GF、King OD、Bryant B、Sander C、Roth FP。使用FuncAssociate表征基因集。生物信息学。2003;19:2502–2504.[公共医学][谷歌学者]
10Antonov AV、Schmidt T、Wang Y、Mewes HW。ProfCom:一种网络工具,用于分析从高通量数据中识别的基因组的复杂功能。核酸研究。2008;36:W347–W351。 [PMC免费文章][公共医学][谷歌学者]
11Antonov AV、Dietmann S、Wong P、Lutter D、Mewes HW。GeneSet2miRNA:在基因列表中发现合作miRNA活性的特征。核酸研究。2009;37:W323–W328。 [PMC免费文章][公共医学][谷歌学者]
12Khatri P、Bhavsar P、Bawa G、Draghici S.Onto-Tools:一套基于本体论的网络可访问工具,用于高通量基因表达实验的功能设计和解释。核酸研究。2004;32:W449–W456。 [PMC免费文章][公共医学][谷歌学者]
13Alexa A,Rahnenfuhrer J,Lengauer T。通过去相关GO图结构2改进基因表达数据中功能组的评分。生物信息学。2006;22:1600–1607.[公共医学][谷歌学者]
14Adler P、Reimand J、Janes J、Kolde R、Peterson H、Vilo J.KEGGanim:高通量数据的路径动画。生物信息学。2008;24:588–590.[公共医学][谷歌学者]
15Reimand J、Tooming L、Peterson H、Adler P、Vilo J.GraphWeb:挖掘具有功能重要性的基因模块的异质生物网络。核酸研究。2008;36:W347–W351。 [PMC免费文章][公共医学][谷歌学者]
16Berger SI、Posner JM、Ma’ayan A.Genes2Networks:使用哺乳动物蛋白质相互作用数据库连接基因符号列表。BMC生物信息学。2007;8:372. [PMC免费文章][公共医学][谷歌学者]
17Draghici S、Khatri P、Tarca AL、Amin K、Done A、Voichita C、Georgescu C、Romero R。通路水平分析的系统生物学方法。基因组研究。2007;17:1537–1545. [PMC免费文章][公共医学][谷歌学者]
18Tarca AL、Draghici S、Khatri P、Hassan SS、Mittal P、Kim JS、Kim CJ、Kusanovic JP、Romero R。新型信号通路影响分析1。生物信息学。2009;25:75–82. [PMC免费文章][公共医学][谷歌学者]
19Antonov AV、Dietmann S、Mewes HW。KEGG蜘蛛:全球基因代谢网络背景下的基因组数据解释。基因组生物学。2008;9:R179。 [PMC免费文章][公共医学][谷歌学者]
20.Antonov AV、Dietmann S、Rodchenkov I、Mewes HW。PPI蜘蛛:在蛋白质相互作用网络的背景下解释蛋白质组学数据的工具。蛋白质组学。2009;9:2740–2749.[公共医学][谷歌学者]
21Khatri P,Draghici S.基因表达数据的本体论分析:当前工具、局限性和开放性问题。生物信息学。2005;21:3587–3595. [PMC免费文章][公共医学][谷歌学者]
22Westfall PN,Young SS公司。基于重采样的多重测试:P值调整的示例和方法。纽约:John Wiley&Sons,Inc;1993[谷歌学者]
23Ogata H、Goto S、Sato K、Fujibuchi W、Bono H、Kanehisa M.KEGG:《京都基因和基因组百科全书》。核酸研究。1999;27:29–34. [PMC免费文章][公共医学][谷歌学者]
24Matthews L、Gopinath G、Gillespie M、Caudy M、Croft D、de BB、Garapati P、Hemish J、Herjakob H、Jassal B等。人类生物途径和过程的反应组知识库。核酸研究。2009;37:D619–D622。 [PMC免费文章][公共医学][谷歌学者]
25Vastrik I、D’Eustachio P、Schmidt E、Gopinath G、Croft D、de BB、Gillespie M、Jassal B、Lewis S、Matthews L等。反应组:生物途径和过程的知识库。基因组生物学。2007;8:R39。 [PMC免费文章][公共医学][谷歌学者]
26Kitano H,Oda K.免疫系统中的健壮性权衡和宿主-微生物共生4。摩尔系统。生物。2006;2:2006. [PMC免费文章][公共医学][谷歌学者]
27Ma’ayan A、Jenkins SL、Neves S、Hasseldine A、Grace E、Dubin-Thaler B、Eungdamrong NJ、Weng G、Ram PT、Rice JJ等。哺乳动物细胞网络中信号传播期间调控模式的形成16。科学。2005;309:1078–1083. [PMC免费文章][公共医学][谷歌学者]
28安东诺夫AV,Mewes HW。BIOREL:评估基因网络相关性的基准资源。FEBS信函。2006;580:844–848.[公共医学][谷歌学者]
29Wheeler DL、Barrett T、Benson DA、Bryant SH、Canese K、Chetvernin V、Church DM、DiCuccio M、Edgar R、Federhen S等。国家生物技术信息中心数据库资源。核酸研究。2006;34:D173–D180。 [PMC免费文章][公共医学][谷歌学者]
30.Boutet E、Lieberherr D、Tognolli M、Schneider M、Bairoch A.UniProtKB/Swiss-Prot。方法分子生物学。2007;406:89–112.[公共医学][谷歌学者]
31Hubbard TJ、Aken BL、Beal K、Ballester B、Caccamo M、Chen Y、Clarke L、Coates G、Cunningham F、Cutts T等,2007年合奏。核酸研究。2007;35:D610–D617。 [PMC免费文章][公共医学][谷歌学者]
32Pruitt KD、Tatusova T、Maglott DR.NCBI参考序列(RefSeq):基因组、转录物和蛋白质的精选非冗余序列数据库。核酸研究。2007;35:D61–D65。 [PMC免费文章][公共医学][谷歌学者]
33Liu G、Loraine AE、Shigeta R、Cline M、Cheng J、Valmeekam V、Sun S、Kulp D、Siani-Rose MA。NetAffx:Affmetrix问题和注释。核酸研究。2003;31:82–86. [PMC免费文章][公共医学][谷歌学者]
34Hooper SD,Bork P.Medusa:交互图分析的简单工具。生物信息学。2005;21:4432–4433.[公共医学][谷歌学者]
35Shannon P、Markiel A、Ozier O、Baliga NS、Wang JT、Ramage D、Amin N、Schwikowski B、Ideker T.Cytoscape:生物分子相互作用网络集成模型的软件环境。基因组研究。2003;13:2498–2504. [PMC免费文章][公共医学][谷歌学者]
36Antonov AV、Dietmann S、Wong P、Igor R、Mewes HW。PLIPS是蛋白质组学研究报告的蛋白质列表的自动收集数据库。J.蛋白质组。物件。2009;8:1193–1197.[公共医学][谷歌学者]
37Vermeer MH、van Doorn R、Dijkman R、Mao X、Whittaker S、van Voorst Varder PC、Gerritsen MJ、Geerts ML、Gellrich S、Soderberg O等。Sezary综合征的新型和高复发性染色体改变。癌症研究。2008;68:2689–2698.[公共医学][谷歌学者]

来自的文章核酸研究由以下人员提供牛津大学出版社