跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
数据库(牛津)。2011; 2011年:bar033。
2011年7月23日在线发布。 doi(操作界面):10.1093/数据库/bar033
预防性维修识别码:PMC3170169
PMID:21785143

InterPro BioMart:对InterPro资源的联合查询和web服务访问

摘要

InterPro BioMart根据InterPro成员数据库生成的广泛集成计算模型(“特征”),为用户提供查询优化访问家庭分类、蛋白质域和功能位点预测的权限:Gene3D、HAMAP、PANTHER、Pfam、PIRSF、PRINTS、ProDom、PROSITE、SMART、,超级家族和TIGRFAMs。这些预测适用于UniProt知识库和UniParc蛋白质序列档案中的所有蛋白质序列。InterPro BioMart是对主要InterPro web界面的补充(http://www.ebi.ac.uk/interpro),提供了一个web服务,并能够构建复杂的自定义查询,这些查询可以有效地返回各种格式的数千行数据。本文描述了InterPro BioMart提供的信息,并举例说明了其实用性,说明了如何构建返回有用生物信息的查询。

数据库URL:http://www.ebi.ac.uk/interpro/biomart/martview.

介绍

InterPro资源(http://www.ebi.ac.uk/interpro) (1)为蛋白质家族分类以及结构和功能域、位点和重复序列的预测提供了一套完整的计算模型(或特征码)。预测特征由11个InterPro成员数据库构建,这些数据库与EBI的InterPro团队一起组成了InterPro联盟。成员数据库为Gene3D(2)、HAMAP()、PANTHER(4)、Pfam(5)、PIRSF(6),打印(7)、ProDom(8),PROSITE公司(9),智能(10),超级家族(11)和TIGRFAM(12). EBI的InterPro团队将来自这些成员数据库的预测性签名集成到“InterPro条目”中。每个条目可能包含一个或多个标识相同特征或将蛋白质分类为相同家族的签名。此外,条目被整理成两个生物学原理层次,其中一个描述蛋白质家族,另一个描述蛋白域。InterPro参赛作品由生物学各个领域的专家团队策划。管理过程包括创建条目、构建条目层次结构、提供描述每个条目的详细摘要以及向其他数据库和本体添加有用的交叉引用。InterPro主网站上的InterPro Entry示例如所示图1。此示例条目包含两个成员数据库签名,一个来自Pfam,另一个来自SuperFamily。总的来说,这个InterPro条目匹配2753个UniProtKB蛋白质序列。

保存图片、插图等的外部文件。对象名称为bar033f1.jpg

一个人工策划的InterPro条目示例,说明了为条目提供的详细描述,以及对GO和成员数据库签名的交叉引用,条目是从这些签名组成的。

上述集成非常有用,因为各个成员数据库具有不同但重叠的兴趣,并且使用了许多不同的算法和建模技术。从希望使用这些预测技术的生物学家或生物信息学家的角度来看,InterPro允许考虑来自单个资源的所有可用签名,而无需考虑单个成员数据库焦点之间的差异或重叠。除了集成成员数据库签名外,InterPro还计算整个UniProt知识库(UniProtKB,网址:http://www.uniprot.org)和UniParc序列存档(13).图2说明了一组与单个UniProtKB蛋白质序列的匹配,该序列与三个InterPro条目匹配。InterPro签名和UniProtKB中序列条目的匹配可以从InterPro主网站以及InterPro BioMart获得,但是,在编写本文时,UniParc序列的匹配只能从BioMart.获得。预计UniParc比赛将包含在InterPro主网站的未来版本中。InterPro BioMart基于BioMart项目开发的技术(http://www.biorart.org网站) (14,15)安大略省癌症研究所(OICR)和欧洲生物信息学研究所(EBI)之间的合作。InterPro BioMart可在http://www.ebi.ac.uk/interpro/biomart/martview它也被整合到BioMart中央服务器中,地址为http://www.biomert.org/biomart/martview(16).

保存图片、插图等的外部文件。对象名为bar033f2.jpg

InterPro计算出匹配的蛋白质。对于这个序列,InterPro提供了蛋白质家族成员的预测、域组织的概述以及成员数据库签名匹配的详细信息。在视图的底部可以看到相关的GO术语,基于计算出的与InterPro条目的匹配。

BioMart作为一种在InterPro中共享数据的机制的采用受到了BioMart带来的好处的推动:能够在数据上构建复杂的过滤器;专门选择返回哪些数据类型的工具(相当于电子表格的列);BioMart处理返回数千行数据的查询的能力,以及使用相关数据联合机制提供web服务的能力。

数据内容

InterPro BioMart提供三个数据源:“InterPro条目注释”、“UniProtKB蛋白质匹配”和“UniParc蛋白质匹配”。

匹配信息可以从“InterPro Entry Annotation”数据源和“UniProtKB Protein Matches”数据源中获得。这两个数据源对InterPro的内容提供了不同的倾向,如下所述。

“InterPro条目注释”数据源重点描述InterPro条目及其之间的层次关系。因此,用户可以使用此注释构建过滤器并检索更详细的信息,例如指定的基因本体(19)其他相关数据库的术语和交叉引用。下面的“查询示例”部分说明了此数据集的潜在应用。

“UniProtKB蛋白质匹配”数据集的重点是UniProt知识库蛋白质实体,允许基于蛋白质序列的属性构建查询,包括筛选序列上注释的分类组的选项。该数据集还提供了检索与成员数据库签名相关的匹配信息以及汇总的匹配信息的机会,在BioMart中称为“超级匹配”。“超级匹配”是指一个或多个成员数据库签名被整合到同一条目中,与序列相同区域中的蛋白质具有重叠匹配。然后计算InterPro条目“supermatch”的开始和停止坐标,作为组成该条目的所有成员数据库签名匹配的最极端边界。

最后,“UniParc蛋白质匹配”数据集提供与“UniProtKB蛋白质匹配”的数据集等效的信息,根据UniParc数据库中包含的序列进行协调,UniParc是从公共数据库中提取的蛋白质序列的非冗余历史存档。在撰写本文时,UniParc数据库包含2560万个唯一序列;InterPro匹配计算管道针对所有这些序列运行,结果可从此BioMart数据集获得。该服务允许返回UniProtKB中尚未表示的(例如)模型生物蛋白质序列数据库中存在的序列的匹配。对于对特定蛋白质序列匹配感兴趣的用户,此数据集支持通过UniParc ID或序列校验和(CRC-64或MD5)进行过滤,“UniProtKB蛋白质匹配”数据集也是如此。如果用户希望使用第三方序列数据库中的蛋白质输入或标识符进行查询,则可以使用各种服务来实现蛋白质标识符的交叉引用,包括蛋白质标识符交叉引用服务PICR(http://www.ebi.ac.uk/Tools/picr/) (20)和UniProt ID映射服务(网址:http://www.uniprot.org/). 这两种服务都可以用于将蛋白质标识符或从大量蛋白质序列数据库中获取的数据转换为UniParc序列标识符。

三个InterPro BioMart数据源包括UniProtKB或UniParc中完整分类范围的匹配项。在这方面,InterPro BioMart在结构上与Ensemb BioMart不同(http://www.ensembl.org/biomart/martview) (17,18)它被组织成物种特定的数据集。

InterPro BioMart支持的服务

InterPro BioMart用于扩展主要InterPro web界面的功能,为InterPro条目和匹配的蛋白质提供BioMart“罐装查询”。这允许以制表符或逗号分隔的值格式下载数据,适用于计算分析。

InterPro BioMart web服务是InterPro分布式注释系统(DAS)服务背后的数据源(21),可从获取http://www.ebi.ac.uk/das-srv/interpro/das此DAS服务提供四个DAS源,用于查询BioMart。

  • “InterPro”,包含与UniProtKB蛋白质序列匹配的所有InterPro成员数据库签名。
  • “InterPro-matches-overview”,它提供了与UniProtKB蛋白质序列集成到单个InterPro条目中的所有签名的最大匹配范围。这些是BioMart“UniProtKB蛋白质匹配”数据集中描述的“超级匹配”。
  • “InterPro-UniParc-matches”为使用UniParc标识符识别的蛋白质序列提供匹配信息。
  • “InterPro-S4”用于为新的EBI搜索服务提供蛋白质家族分类,因此是EBI更广泛的数据集成计划的一部分。

查询示例

与所有BioMart实现一样,InterPro BioMart支持构建简单查询以及复杂的多方面查询,其中数据根据多个条件进行过滤。如果应用多个过滤器,则返回满足所有过滤条件的记录(即在过滤器之间应用“AND”逻辑)。用户可以精确指定应返回的数据属性,相当于电子表格中的列。

用户应注意,BioMart数据库的结构具有高度冗余性,有助于提高查询速度,这可能会导致报告结果中出现冗余。输出中重复结果行的存在取决于查询的构造和基础BioMart表的结构。发生这种情况的情况并非不言而喻。因此,作者建议在查询BioMart时使用“仅限唯一结果”选项,这样可以删除重复的结果行。

为了演示InterPro BioMart的实用性,这里我们提供了几个与生物学相关的查询

查询#1.'InterPro将哪些Pfam签名集成到“家庭”条目中

数据集过滤器属性
InterPro条目注释InterPro条目类型:“家庭”InterPro入门
源签名数据库:“Pfam”InterPro条目简称
签名加入
签名ID(姓名)

Pfam数据库包含广泛的隐马尔可夫模型,可用于预测家族分类和领域组织。在撰写本文时,InterPro策展团队已将超过96%的Pfam签名整合到InterPro中。在集成过程中,InterPro根据所表示的内容(系列、域、站点或重复)为InterPro条目分配“类型”,并扩展为其签名。使用BioMart,可以返回InterPro认为属于“家族”类型的全套集成Pfam签名。可以轻松修改此查询,以请求由任何适合任何可用InterPro条目类型的成员数据库构建的签名。条目类型过滤器包括“Active_site”、“Binding_site”和“Conserved_site”、、“Domain”、“Family”、“PTM”(翻译后修改)和“Repeat”。每个InterPro条目都只有一种类型,因此所有集成的成员数据库签名也都有一种类型(由InterPro策展团队指定)。

这个示例查询通过一系列屏幕截图进行了说明。图3说明了InterPro Entry Annotation数据集的选择。选择此数据集后,用户可以选择过滤器和属性(以他们选择的顺序)。图4说明了在此查询中应用的两个筛选器的选择,这将限制返回的数据行。图5说明了属性的选择,这些属性相当于电子表格的列。最后,图6显示了按下“结果”按钮时获得的结果。最初,用户会看到前10行匹配的数据,从而有机会在请求完整的结果集之前优化查询。

保存图片、插图等的外部文件。对象名称为bar033f3.jpg

在InterPro BioMart中选择数据集。

保存图片、插图等的外部文件。对象名为bar033f4.jpg

构建一个包含两个组件的筛选器:包括包含Pfam签名的“Family”条目类型的结果。

保存图片、插图等的外部文件。对象名称为bar033f5.jpg

选择要包含在BioMart输出中的属性(相当于电子表格的列)。列的顺序取决于选择属性的顺序。

保存图片、插图等的外部文件。对象名称为bar033f6.jpg

单击界面顶部的“结果”按钮可提供与查询匹配的前10个结果,以便修改或改进查询。

查询#2。'哪些GO术语映射到InterPro中的PROSITE签名(例如,我可以检索PROSITE2GO映射吗?)

数据集过滤器属性
InterPro条目注释源签名数据库:“PROSITE patterns”和“PROSITE Profiles”(按住CTRL键并单击以选择两者)。InterPro入门
签名加入
GO标识
GO术语名称
GO根项(过程/组件/功能)

InterPro的一个主要用途是通过它们匹配的特征将GO术语与蛋白质关联。InterPro以文件形式提供“InterPro2GO”映射,可从FTP站点下载;然而,很难从该文件中提取信息子集。过去,用户经常要求为特定成员数据库提供GO术语映射信息。随着生物城的出现,现在很容易提供上述信息。

查询#3。'哪些代谢途径与InterPro家族“趋化因子受体4型”(CXCR4,IPR001277)匹配的蛋白质相关

数据集过滤器属性
通路路径稳定ID
路径名称
InterPro条目注释InterPro条目ID='IPR001277'InterPro入门
InterPro条目名称
UniProtKB蛋白质接入
UniProtKB蛋白质ID(名称)
源签名数据库
签名加入
签名ID(姓名)
匹配开始位置
匹配停止位置

InterPro BioMart与Reactome BioMart联合(22,23)“pathway”数据集从中派生。Reactome描述了“反应、途径和生物过程”,因此,如果与InterPro中的数据相结合,可以提供有价值的生物学见解。

查询#4。'哪些组织中的蛋白质与InterPro家族“神经细胞粘附”(IPR009138)相匹配,已通过质谱鉴定

数据集过滤器属性
荣耀PRIDE实验接入
实验名称
样品名称
分类术语(NEWT/NCBI分类)
分类ID(NEWT/NCBI分类)
组织本体术语(BRENDA)
布伦达ID(纸巾)
单元格类型术语(CL)
CL ID(单元类型)
基因本体术语(GO)
GO ID(基因本体)
InterPro条目InterPro条目ID='IPR009138'InterPro入门
InterPro条目名称

InterPro BioMart还与PRIDE BioMart联合推出。PRIDE是“蛋白质组学鉴定数据库”,其中包含质谱法产生的蛋白质和肽的鉴定。这两个BioMart通过UniProtKB蛋白质接入进行链接,因此此查询返回与集成到InterPro Entry IPR009138中的成员数据库签名相匹配的蛋白质的标识信息。

讨论和未来方向

事实证明,InterPro BioMart是InterPro软件基础设施的一个重要补充,支持新工具,如InterPro DAS服务,并提供了一条有效的路线来回答InterPro用户社区的查询。BioMart为InterPro提供了一个web服务,它的健壮API有多种语言(包括Perl和Java)。

此外,BioMart为生物信息学家提供了查询InterPro的大量资源,以及UniProtKB、Reactome和PRIDE联邦数据库。(请参见表1描述了这些生物信息学资源)。

表1。

InterPro BioMart中包含的外部数据源

来源统一资源定位地址生物城URL内容描述
UniProtKB网址:http://www.uniprot.org网址:http://www.ebi.ac.uk/uniprot/biomert/martview公司蛋白质序列和功能信息的全面、高质量和免费获取资源,包括人工管理的Swiss-Prot数据集和自动注释的TrEMBL数据集。
荣耀http://www.ebi.ac.uk/pridehttp://www.ebi.ac.uk/pride/biomart/martview基于质谱的蛋白质组学产生的蛋白质和肽鉴定数据库。
反应组通路数据库网址:http://www.reactome.orghttp://www.reactome.org/cgi-bin/mart一个由人管理的生物路径数据库,重点关注人类路径,但提供其他物种路径的自动预测。

它旨在将InterPro BioMart与EBI正在开发的新UniParc BioMart联合。这将允许使用UniProtKB以外的各种蛋白质序列数据库的标识符和访问数据查询InterPro BioSmart,包括几个模型生物数据库。

基金

生物技术和生物科学研究理事会的生物信息学和生物资源基金(批准号BB/F010508/1号); 欧洲联盟在“FP7能力:科学数据存储库”项目下;该项目的工作名称是IMproving Protein Annotation and Co-ordination using Technology(IMPACT)(批准号:213037). 开放存取费用的资金:欧盟在“FP7能力:科学数据存储库”项目下;该项目的工作名称是IMproving Protein Annotation and Co-ordination using Technology(IMPACT)(批准号:213037).

利益冲突。未声明。

致谢

作者特别感谢InterPro Consortium成员数据库的持续支持,以及BioMart开发团队的支持,他们为InterPro BioMart的构建提供了宝贵的指导和帮助。

工具书类

1Hunter S、Apweiler R、Attwood TK等。InterPro:综合蛋白质特征数据库。核酸研究。2009;37:D211–D215。 [PMC免费文章][公共医学][谷歌学者]
2Lees J、Yeats C、Redfern O等。Gene3D:融合一千个基因组的结构和功能。核酸研究.2010;38:D296–D300。 [PMC免费文章][公共医学][谷歌学者]
三。Lima T、Auchincloss AH、Coudert E等。HAMAP:UniProtKB/Swiss-Prot中完全测序的微生物蛋白质组集和手动筛选的微生物蛋白质家族的数据库。核酸研究。2009;37:D471–D478。 [PMC免费文章][公共医学][谷歌学者]
4Thomas PD、Campbell MJ、Kejariwal A等。PANTHER:按功能索引的蛋白质家族和亚家族库。基因组研究。2003;13:2129–2141. [PMC免费文章][公共医学][谷歌学者]
5Finn RD、Mistry J、Tate J等。Pfam蛋白质家族数据库。核酸研究.2010;38:D211–D222。 [PMC免费文章][公共医学][谷歌学者]
6Wu CH,Nikolskaya A,Huang H,等。PIRSF:蛋白质信息资源的家族分类系统。核酸研究。2004;32:D112–D114。 [PMC免费文章][公共医学][谷歌学者]
7Attwood TK、Mitchell A、Gaulton A等。PRINTS蛋白质指纹数据库:功能和进化应用。收录人:Dunn M、Jorde L、Little P、Subramaniam A,编辑。遗传学、基因组学、蛋白质组学和生物信息学百科全书。美国新泽西州霍博肯:John Wiley&Sons Ltd;2006[谷歌学者]
8Servant F、Bru C、Carrère S等。ProDom:同源域的自动聚类。简介。生物信息学。2002;:246–251.[公共医学][谷歌学者]
9Sigrist CJA、Cerutti L、Castro Ede等人PROSITE,一个用于功能表征和注释的蛋白质结构域数据库。核酸研究。2010;38:D161–D166。 [PMC免费文章][公共医学][谷歌学者]
10Letunic I、Doerks T、Bork P.SMART 6:最新更新和新发展。核酸研究。2009;37:D229–D232。 [PMC免费文章][公共医学][谷歌学者]
11Wilson D、Pethica R、Zhou Y等。超家族——复杂的比较基因组学、数据挖掘、可视化和系统发育。核酸研究。2009;37:D380–D386。 [PMC免费文章][公共医学][谷歌学者]
12Selengut JD、Haft DH、Davidsen T等。TIGRFAMs和基因组属性:原核基因组中分子功能和生物过程分配的工具。核酸研究。2007;35:D260–D264。 [PMC免费文章][公共医学][谷歌学者]
13UniProt联盟。Universal Protein Resource的当前和未来发展。核酸研究。2010;39:D214–D219。 [PMC免费文章][公共医学][谷歌学者]
14Smedley D、Haider S、Ballester B等。BioMart–生物查询变得简单。BMC基因组学。2009;10:22. [PMC免费文章][公共医学][谷歌学者]
15Zhang J,Haider S,Guberman J,et al.生物城:大型合作项目的数据联邦框架。数据库。2011(本特别版)[PMC免费文章][公共医学][谷歌学者]
16Guberman JM等人,《生物商业中心门户:生物社区的开放数据库网络》。数据库。2011(本特别版)[PMC免费文章][公共医学][谷歌学者]
17Flicek P、Amode MR、Barrell D等人,Ensembl 2011。核酸研究。2010;39:D800–D806。 [PMC免费文章][公共医学][谷歌学者]
18Kinsella R等人,合奏集市。数据库。2011(本特别版)[谷歌学者]
19Ashburner M、Ball CA、Blake JA等。基因本体论:生物学统一的工具。基因本体联盟。自然遗传学。2000;25:25–29. [PMC免费文章][公共医学][谷歌学者]
20CótéRG、Jones P、Martens L等。蛋白质标识符交叉引用(PICR)服务:跨多个源数据库协调蛋白质标识符。BMC生物信息学。2007;8:401. [PMC免费文章][公共医学][谷歌学者]
21Jenkinson AM、Albrecht M、Birney E等,《集成生物数据——分布式注释系统》。BMC生物信息学。2008;9(补充8):S3。 [PMC免费文章][公共医学][谷歌学者]
22.克罗夫特D,奥斯凯利G,吴G等。反应组:反应、途径和生物过程数据库。核酸研究。2010;39:D691–D697。 [PMC免费文章][公共医学][谷歌学者]
23Haw R、Croft D、Yung CK等,《反应组生物超市》。数据库。2011(本特别版)[PMC免费文章][公共医学][谷歌学者]

文章来自数据库:《生物数据库与治疗杂志》由以下人员提供牛津大学出版社