跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
数据库(牛津)。2011; 2011年:bar031。
2011年10月17日在线发布。 数字对象标识:10.1093/数据库/bar031
预防性维修识别码:项目经理197281
PMID:22012987

Reactome生物城

摘要

Reactome是一个开源、专家撰写、手动策划和同行评审的反应、途径和生物过程数据库。我们提供了一个直观的基于web的用户界面来获取知识和一套数据分析工具。Reactome BioMart为生物学家和生物信息学家提供了一个单一的web界面,用于执行简单或详细的Reactiome数据库查询,聚合来自不同来源的数据,并提供了将实验和计算结果与生物途径相关信息集成的机会。

数据库URL: 网址:http://www.reactome.org

项目描述

Reactome项目旨在系统地将人类蛋白质与其分子和细胞功能联系起来,以创建人类生物反应、途径和过程的知识库,该知识库既可以用作在线百科全书,也可以用作数据挖掘和分析的系统生物学平台(1–4). Reactome策展人与作为作者和同行评审员的领域专家合作创建这些注释。由此产生的通路的分子解剖被广泛地交叉引用到Ensemble、NCBI Entrez基因和UniProt数据库、HapMap和UCSC基因组浏览器、ChEBI和KEGG化合物小分子数据库、GO和PubMed(5–14).

截至2011年6月(第37版),Reactome数据库包含6248个人类蛋白质,分为4354个反应和1153条途径,并得到8942份出版物的支持。Reactome中的生物途径包括信号传递、先天和后天免疫功能、转录调节、翻译、凋亡和经典的中间代谢(15,16). Reactome数据库包括20种不同进化模式生物的计算推断路径和反应,包括GO参考基因组注释项目中的所有12种物种(11).

Reactome体现了一种简化主义数据模型,它将生物学中的各种事件表示为亚细胞隔室中的反应,这些反应将输入物理实体转换为输出物理实体。”“转化”不仅包括经典生物化学的化学转化,还包括分子从一个位置到另一个位置的运输,信号转导中的配体-受体结合,以及大分子的修饰和降解。Reactome在基于知识的框架Protégé中捕获物理实体和事件(17). 类(或框架)描述了不同的概念,如反应、物理实体和细胞隔室。属性(或槽)包含实例的属性,例如作为反应输入和输出参与的分子的身份。反应的物理实体可以是蛋白质、核酸、大分子复合物、化合物或光子。所有实体都位于亚细胞隔室中,大分子实体也可以被切割、修饰或采用不同的结构构象。反应组中的每个修饰分子都表示为一个单独的实体,修饰事件可以注释为一个反应,其中输入为未修饰实体,输出为修饰形式。翻译后修饰用PSI-MOD中的术语表示(18). 通过对翻译后修饰、构象变化和亚细胞位置的注释,物理实体的变体实例数量可能很大。“参考物理实体”类通过存储分子的不变特征(如名称)来解决这种情况,分子结构和外部参考数据库的链接,如核酸的EMBL、蛋白质的UniProt和小分子的ChEBI(9,10,19). 大分子复合物参与许多反应体反应,由两个或多个其他实体(例如蛋白质、核酸、小分子和其他复合物)结合而成。这些属性捕捉了复合体成分的身份及其亚细胞位置。提供了类定义的词汇表和数据模型的完整规范(http://wiki.reactome.org/index.php/Glossary_Data_Modelhttp://www.reactome.org/cgi-bin/classbrowser?DB=gk_current)。

从Reactome网站可以访问Simple搜索工具,它允许Reactiome用户查询整个Reactomes数据库和网站。用户可以提交单词、数据库标识符或短语,并检索相应的数据库记录列表。高级(扩展)搜索提供Reactome数据库的可定制、逻辑和复杂查询。具体来说,此扩展搜索方法通过多个属性值为数据库中的实例提供基于模式的完整查询。查询可以与布尔“AND”运算符组合在一起。为了支持更系统的数据挖掘、交互式分析和建模,Reactome以BioPAX、SBML、PSI-MITAB和Protégé格式以及MySQL数据库的形式提供通路和反应数据(17,20,21). 想要跨多个数据库执行高级综合搜索的生物学家和生物信息学家面临的一个挑战是,单个查询非常耗时,生成的结果通常需要进一步格式化。在本文中,我们重点关注简单易用且高度可定制的Reactome BioMart界面,这是一个科学家高效查询和集成path和其他实验数据集的平台。例如,通过使用BioMart,Reactome用户可以通过单个web界面将一个Reactiome查询链接到一个ENSEMBL查询,从而找到与所选Reactomes路径中的基因相关的Affymetrix探针标识符。

Reactome生物集市

由安大略省癌症研究所和欧洲生物信息学研究所(EBI)、BioMart联合开发(网址:www.biorart.org)是一个功能强大的面向查询的数据管理系统(22–24). BioMart门户提供了一个易于使用的界面,允许用户快速创建Reactome等数据库的简单或复杂批量查询,而无需了解其数据模型或编程技能的任何专业知识。用户可以控制数据的“过滤”方式,以限制集成的记录和与结果中包含的数据列相对应的“属性”。超过40个可公开访问的BioMart数据库的存在,以及在单个查询中组合两个或多个BioMart-数据集的能力,允许以多种原始格式整合来自多个来源的生物信息。Reactome BioMart web界面可从位于ReactomeHome主页(和大部分ReactomeWeb页面)主导航栏中的“工具”菜单访问。Reactome BioMart也可以通过BioMart-Central Portal访问,网址为http://www.biomert.org/biomart/martview/,在那里还可以使用其他BioMart(25,26). 可以通过BioMart web界面生成简单或复杂的查询,以查询Reactome数据库。预格式化查询可以在BioMart页面的顶部访问,而常规BioMart查询界面位于固定查询选择器的下方。还可以使用Perl API和基于URL/XML的查询以编程方式访问Reactome BioMart中的路径数据。Reactome BioMart web界面的顶部是按钮,允许用户查看其查询在web服务API查询和URL/XML格式中的外观。Reactome BioMart还提供了一个SOAP web服务API,允许用户和第三方分析工作流(包括Galaxy、BioConductor和Cytoscape)访问Reactiome数据。(27–29).

查询示例

通过BioMart查询Reactome数据分三步进行。选择要在Reactome中搜索的信息源将初始化查询。然后应用用户选择的过滤器来细化搜索。Reactome BioMart支持大量内部和外部数据库登录号和标识符,并支持批量查询以限制查询。最后,通过用户界面中的下拉菜单或单选按钮选择过滤数据的特定特征,并通过输出网页显示。Reactome提供三种类型的BioMart查询:预格式化(罐装)、常规查询和联合查询。无需详细了解BioMart查询界面,即可使用一组标准(或预格式化)查询(图1). 根据是否允许单个或多个数据项,数据输入将有所不同。当允许单个项目时,条目表单会显示一个选择器来选择项目,例如物种。如果允许多个数据项,输入表单将显示一个文本框,在其中输入由换行符分隔的项,例如Entrez Gene标识符列表。标准查询选择器允许用户从一个当前可用的查询中选择:

  • 查找特定物种的路径列表(多个数据项)。用户可以使用此查询列出Reactome针对所选物种已知的所有路径。
  • 查找特定路径的反应列表(多个数据项)。给定一个反应组稳定途径标识符列表,这个屏蔽查询将检索这些途径中涉及的所有反应。如果在没有任何数据值的情况下启动查询,则将检索所有已知路径中涉及的所有反应。
  • 查找特定路径的蛋白质列表(多个数据项)。给定一个反应体稳定途径标识符列表,这个罐装查询检索所有参与该途径的蛋白质。如果在没有任何数据值的情况下启动此查询,则将返回所有已知通路中涉及的所有蛋白质。
  • 查找特定蛋白质的复合物列表。此固定查询将查找Reactome中的所有复合物,其成分包括任何提交的UniProt蛋白质标识符列表。如果原始查询中没有提交数据值,它将返回所有复合物及其相关蛋白。该屏蔽查询的示例如所示表1.

    表1。

    常规Reactome BioMart查询示例

    数据集集合过滤器属性
    复杂的限于包含这些ID的复合体:REACT_4500复杂物种名称
    蛋白质DB_ID
    蛋白质标识符
    复杂DB_ID
    复杂稳定ID
    蛋白质名称

    搜索和提取人类蛋白质和反应注释所需的反应组数据集“过滤器”和“属性”。

  • 查找特定基因的路径列表给出一个Entrez基因标识符列表,这个罐装查询检索Reactome中涉及这些基因的所有路径。如果在未提交任何数据值的情况下启动查询,则将返回所有路径及其相关基因。
  • 查找特定路径的基因列表。给出反应体稳定途径标识符的列表,这个罐装查询检索其蛋白产物参与该途径的所有基因。如果用户在未提交任何数据值的情况下启动此查询,则将返回所有已知路径中涉及的所有基因。
  • 查找特定基因的反应列表.给定一个Entrez基因ID列表,这个罐装查询检索Reactome中涉及这些基因蛋白产物的所有反应。如果在未提交任何数据值的情况下启动查询,则将返回所有反应及其相关基因。

保存图片、插图等的外部文件。对象名称为bar031f1.jpg

Reactome BioMart罐头查询。(A类)固定查询选择器允许用户从当前可用的查询中进行选择。(B类)固定查询的结果表。

默认情况下,查询将返回包含前十行数据的结果预览。一旦用户查看了数据(可能对原始查询进行了修改),就可以导出完整的数据集。可以以多种格式下载结果,例如HTML表、选项卡和逗号分隔值文件或Excel电子表格。对于大型和复杂的查询,用户还可以选择下载压缩的结果文件(.gz),或者在文件可以下载时通过电子邮件通知用户。

常规的Reactome BioMart查询界面允许用户定义简单或复杂的查询(图2). 第一步是选择“数据库”和“数据集”以启动查询。Reactome提供了四个可用于BioMart查询的数据集,即“复杂”、“路径”、“交互”和“反应”。例如,选择“反应”数据集将限制查询包含反应注释。下一步是选择“过滤器”以限制查询,例如“物种限制”-智人,为检索数据智人而不是Reactome已知的所有物种。选择“属性”将明确定义结果中显示的数据,如中的示例所示表2。与固定查询一样,常规BioMart查询的结果以HTML表的形式预览,也可以以支持的格式下载。

保存图片、插图等的外部文件。对象名为bar031f2.jpg

Reactome BioMart常规查询。(A类)“数据库”选择器选择REACTOME数据库。(B类)“数据集”下拉菜单。(C类)“过滤器”页面允许用户将查询范围缩小到提供的UniProt标识符和人工注释。(D类)确定结果表中要显示的列的反应“属性”。

表2。

常规Reactome BioMart查询示例

数据集集合过滤器属性
反应物种限制:智人反应稳定ID
反应DB_ID
反应名称
蛋白质UniProt ID
蛋白质名称

搜索和提取人类蛋白质和反应注释所需的反应组数据集“过滤器”和“属性”。

Reactome BioMart促进了跨不同数据集的查询集成,提供了组合来自不同来源的注释数据的选项。左侧面板中的第二个“数据集”链接用于选择另一个数据集,从而可以将Reactome数据与另一个数据库中的数据集集成(图3). 为了形成联邦查询,所涉及的数据集需要共享至少一个公共属性,通常是一个分子标识符。例如,ENSEMBL标识符提供数据链接,以创建一个查询,将Reactome“路径”数据集与ENSEMBL数据集相结合。目前,可以使用ENSEMBL和UniProt查询Reactome(7,9)直接从Reactome BioMart门户网站获取。通过Central BioMart门户网站,其他数据集可以与Reactome数据集查询合并,如PRIDE、COSMIC、国际淘汰小鼠联盟(IKMC)项目(表3),Vectorbase和Wellcome Trust Sanger Institute(WTSI)小鼠遗传学项目(30–35).

保存图片、插图等的外部文件。对象名为bar031f3.jpg

来自BioMart Central Portal的组合Reactome-IKMC查询结果。Reactome和IKMC数据集“过滤器”和“属性”在结果表的左侧可见。

表3。

Reactome BioMart-IKMC组合查询示例

数据集集合过滤器属性
通路物种限制:路径稳定ID
(反应组)小家鼠路径DB_ID
路径名称:糖尿病路径路径名称
IKMC基因和产物(IKMC)IKMC项目/管道:EUCOMM和NorCOMM标记符号
MGI登录ID
IKMC项目
IKMC项目ID
状态
鼠标可用
ES细胞可用
可用矢量

从Reactome中搜索和提取小鼠糖尿病途径注释所需的数据集“过滤器”和“属性”,以及有关IKMC项目中小鼠敲除试剂可用性的信息。

讨论

Reactome是一种在线手动管理的途径资源,它提供了从代谢到DNA复制和修复到信号级联的生物过程的分子细节的综合视图。它的数据模型允许以一致的方式表示这些不同的过程,以便于作为在线文本和大规模表达式数据集的数据挖掘、建模和分析资源使用。Reactome BioMart web界面允许生物学家和生物信息学家轻松查询和检索Reactome-通路、反应、复杂和交互注释,并将此信息与他们自己的实验数据集成。我们的管理实践和数据模型允许Reactome捕获涵盖范围非常广泛的人类生物学的路径注释。当我们将Reactome注释扩展到新的信号通路、组织特异性过程和通路(包括正常发育)以及疾病过程(如感染和恶性转化)时,Reactiome BioMart中的内容将扩展以支持这些附加注释。我们在Reactome BioMart中开发了一个名为“蛋白质”的新数据集(36). 一旦该数据集发布,用户将能够搜索和检索蛋白质的翻译后修饰数据,例如修饰类型、修饰残基、蛋白质序列上修饰残基的坐标、蛋白质序列的起始和终止位置,以及修饰蛋白的细胞隔室。联合临床数据集与Reactome BioMart的未来集成将看到搜索基因组、转录组和表观基因组数据并将其与Reactome途径数据集成的能力。例如,反应体途径数据可通过国际癌症基因组联盟(ICGC)数据门户网站获得,该网站利用BioMart访问50种不同肿瘤类型和亚型的数据(37,38). Reactome小组将继续支持开发和分发用于路径信息管理的开放软件,以鼓励数据标准化、分析和集成。

基金

Reactome数据库的开发得到了美国国立卫生研究院国家人类基因组研究所的资助(资助编号P41 HG003751页); 欧盟第六框架计划“ENFIN”(批准号LSHG-CT-2005-518254型). 开放获取费用资金:美国国立卫生研究院拨款编号P41 HG003751页.

利益冲突。未声明。

致谢

本文中描述的Reactome网站、数据模型和数据分析工具的开发是Reactomes管理员和开发人员协同工作的结果。作者还感谢许多与我们合作构建反应体途径内容的科学家。

工具书类

1Croft D、O'Kelly G、Wu G等。反应组:反应、途径和生物过程数据库。核酸研究。2011;39:D691–D697。 [PMC免费文章][公共医学][谷歌学者]
2Matthews L、Gopinath G、Gillespie M等。人类生物途径和过程的反应组知识库。核酸研究。2009;37:D619–D6122。 [PMC免费文章][公共医学][谷歌学者]
三。Vastrik I,D’Eustachio P,Schmidt E等。反应组:生物途径和过程的知识库。基因组生物学。2007;8:R39。 [PMC免费文章][公共医学][谷歌学者]
4Joshi-Tope G、Gillespie M、Vastrik I等。反应组:生物途径的知识库。核酸研究。2005;33:D428–D532。 [PMC免费文章][公共医学][谷歌学者]
5Maglott D,Ostell J,Pruitt KD,Tatusova T.Entrez基因:NCBI中以基因为中心的信息。核酸研究。2011;39:D52–D57。 [PMC免费文章][公共医学][谷歌学者]
6Fujita PA、Rhead B、Zweig AS等。UCSC基因组浏览器数据库:2011年更新。核酸研究。2011;39:D876–D882。 [PMC免费文章][公共医学][谷歌学者]
7Flicek P、Amode MR、Barrell D等,2011年合奏。核酸研究。2011;39:D800–D806。 [PMC免费文章][公共医学][谷歌学者]
8联合会,基因本体论。2010年的基因本体论:扩展和完善。核酸研究。2010;38:D331–D335。 [PMC免费文章][公共医学][谷歌学者]
9Jain E、Bairoch A、Duvaud S等。生命科学基础设施:UniProt网站的设计和实施。BMC生物信息学。2009;10:136. [PMC免费文章][公共医学][谷歌学者]
10Degtyarenko K、Hastings J、de Matos P、Ennis M.ChEBI:开放的生物信息学和化学信息学资源。货币。协议。生物信息学。2009第14章,第14单元9。[公共医学][谷歌学者]
11联合会,基因本体论。基因本体论的参考基因组项目:跨物种功能注释的统一框架。公共科学图书馆计算。生物。2009;5:e1000431。 [PMC免费文章][公共医学][谷歌学者]
12Kanehisa M、Araki M、Goto S等,KEGG将基因组与生命和环境联系起来。核酸研究。2008;36:D480–D484。 [PMC免费文章][公共医学][谷歌学者]
13Frazer KA、Ballinger DG、Cox DR等。第二代人类单倍型图谱,超过310万SNP。自然。2007;449:851–861. [PMC免费文章][公共医学][谷歌学者]
14McEntyre J,Lipman D.PubMed:弥合信息差距。CMAJ。2001;164:1317–1319. [PMC免费文章][公共医学][谷歌学者]
15Jassal B、Jupe S、Caudy M等。反应组中三个主要GPCR家族的系统注释。数据库。2010[Epub即将出版;2010年7月29日;doi:10.1093/database/baq018][PMC免费文章][公共医学][谷歌学者]
16Demir E、Cary MP、Paley S等。路径数据共享的BioPAX社区标准。自然生物技术。2010;28:935–942. [PMC免费文章][公共医学][谷歌学者]
17Noy NF,Crubezy M,Fergerson RW,et al.Protege-2000:开源本体论开发和知识获取环境。AMIA年度。交响乐团。程序。2003:953. [PMC免费文章][公共医学][谷歌学者]
18Montecchi-Palazzi L、Beavis R、Binz PA等。蛋白质修饰数据表示的PSI-MOD社区标准。自然生物技术。2008;26:864–866.[公共医学][谷歌学者]
19Goujon M、McWilliam H、Li W等。EMBL-EBI的新生物信息学分析工具框架。核酸研究。2010;38:W695–W699。 [PMC免费文章][公共医学][谷歌学者]
20Demir E、Cary MP、Paley S等。路径数据共享的BioPAX社区标准。自然生物技术。2010;28:935–42. [PMC免费文章][公共医学][谷歌学者]
21Hucka M、Finney A、Sauro HM等。系统生物学标记语言(SBML):生化网络模型的表示和交换媒介。生物信息学。2003;19:524–531。[公共医学][谷歌学者]
22Zhang J、Haider S、Baran J等。生物城:大型合作项目的数据联合框架。数据库。2011(本期),doi:10.1093/database/bar038。[PMC免费文章][公共医学][谷歌学者]
23Smedley D、Haider S、Ballester B等。BioMart–生物查询变得简单。BMC基因组学。2009;10:22. [PMC免费文章][公共医学][谷歌学者]
24Durinck S、Moreau Y、Kasprzyk A等,《生物超市和生物导体:生物数据库和微阵列数据分析之间的强大链接》。生物信息学。2005;21:3439–3440.[公共医学][谷歌学者]
25Guberman JM、Ai J、Arnaiz O等。生物商业中心门户:生物社区的开放数据库网络。数据库。2011(本期),doi:10.1093/database/bar041。[PMC免费文章][公共医学][谷歌学者]
26Haider S、Ballester B、Smedley D等。生物商业中心门户——统一访问生物数据。核酸研究。2009;37:W23–W27。 [PMC免费文章][公共医学][谷歌学者]
27Goecks J、Nekrutenko A、Taylor J.Galaxy:支持生命科学中可访问、可复制和透明计算研究的综合方法。基因组生物学。2010;11:R86。 [PMC免费文章][公共医学][谷歌学者]
28《生物导体:计算生物学和生物信息学的开放软件开发》。基因组生物学。2004;5:R80。 [PMC免费文章][公共医学][谷歌学者]
29Shannon P、Markiel A、Ozier O等。细胞景观:生物分子相互作用网络集成模型的软件环境。基因组研究。2003;13:2498–2504. [PMC免费文章][公共医学][谷歌学者]
30Vizcaino JA、Reisinger F、Cote R、Martens L.PRIDE:数据提交和分析。电流原蛋白科学。2010第25章,第25-4单元。[公共医学][谷歌学者]
31Oakley DJ、Iyer V、Skarnes WC、Smedley D.BioMart作为国际敲除鼠联盟的集成解决方案。数据库。2011(本期),doi:10.1093/database/bar028。[PMC免费文章][公共医学][谷歌学者]
32Shepherd R、Forbes SA、Beare D等。使用癌症生物城体细胞突变目录进行数据挖掘。数据库。2011(本期),doi:10.1093/database/bar018。[PMC免费文章][公共医学][谷歌学者]
33Ringwald M、Iyer V、Mason JC等。IKMC门户网站:国际淘汰老鼠联盟数据和资源的中心入口。核酸研究。2011;39:D849–D855。 [PMC免费文章][公共医学][谷歌学者]
34Lawson D、Arensburger P、Atkinson P等。载体库:无脊椎动物载体基因组学的数据资源。核酸研究。2009;37:D583–D587。 [PMC免费文章][公共医学][谷歌学者]
35Forbes SA、Bindal N、Bamford S等。COSMIC:在癌症体细胞突变目录中挖掘完整的癌症基因组。核酸研究。2011;39:D945–D950。 [PMC免费文章][公共医学][谷歌学者]
36Ndegwa N,CotéRG,Ovelleiro D等。蛋白质中的关键氨基酸残基:反应组蛋白注释与PRIDE质谱数据和COSMIC体细胞突变的BioMart集成。数据库。2011(本期),doi:10.1093/database/bar047。[PMC免费文章][公共医学][谷歌学者]
37Zhang J、Baran J、Cros A等。国际癌症基因组联盟数据门户——癌症基因组数据的一站式服务。数据库。2011(本期),doi:10.1093/database/bar026。[PMC免费文章][公共医学][谷歌学者]
38Hudson TJ、Anderson W、Artez A等。癌症基因组项目国际网络。自然。2010;464:993–998. [PMC免费文章][公共医学][谷歌学者]

文章来自数据库:生物数据库与治疗杂志由以下人员提供牛津大学出版社