跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2004年1月1日;32(数据库问题):D115–D119。
数字对象标识:10.1093/nar/gkh131
预防性维修识别码:项目经理308865
PMID:14681372

UniProt:通用蛋白质知识库

摘要

为了向科学界提供单一、集中、权威的蛋白质序列和功能信息资源,Swiss-Prot、TrEMBL和PIR蛋白质数据库活动联合起来,形成了Universal protein Knowledgebase(UniProt)联盟。我们的任务是提供一个全面、分类充分、注释丰富和准确的蛋白质序列知识库,并提供广泛的交叉引用和查询界面。中央数据库将有两个部分,分别对应于熟悉的Swiss-Prot(完全手动管理的条目)和TrEMBL(丰富了自动分类、注释和广泛的交叉引用)。为了方便序列搜索,UniProt还提供了几个非冗余序列数据库。UniProt NREF(UniRef)数据库提供适合高效搜索的知识库代表子集。全面的UniProt Archive(UniParc)每天都会从许多公共源数据库进行更新。UniProt数据库可以在线访问(网址:http://www.uniprot.org)或以多种格式下载(ftp://ftp.uniprot.org/pub). 鼓励科学界提交数据以纳入UniProt。

简介

直到最近,Swiss-Prot+TrEMBL(1)和PIR-PSD(2)作为具有不同序列覆盖率和注释优先级的蛋白质数据库共存。2002年,瑞士生物信息研究所(SIB)和欧洲生物信息研究院(EBI)的Swiss-Prot+TrEMBL小组以及乔治敦大学医学中心和国家生物医学研究基金会的蛋白质信息资源(PIR)小组作为UniProt财团联合起来。该联盟的主要任务是通过维护一个高质量的数据库来支持生物研究,该数据库是一个稳定、全面、分类充分、注释丰富和准确的蛋白质序列知识库,具有广泛的交叉引用和科学界可自由访问的查询界面。UniProt将在联合体成员多年来奠定的坚实基础上再接再厉。

UniProt数据库由三个数据库层组成:

(i) UniProt Archive(UniParc)通过存储公开可用的完整蛋白质序列数据,提供了稳定、全面、无冗余的序列收集。

(ii)UniProt知识库(UniProt)为蛋白质序列的中央数据库提供准确、一致和丰富的序列和功能注释。

(iii)UniProt NREF数据库(UniRef)提供基于UniProt知识库的非冗余数据收集,以便在多个分辨率下获得序列空间的完整覆盖。

UNIPROT档案馆(UNIPARC)

UniProt Archive(UniParc)是最全面的可公开访问的非冗余蛋白质序列集合。它包含许多不同来源的公开可用蛋白质序列,包括Swiss-Prot、TrEMBL、PIR-PSD、EMBL(3)、合奏(4),IPI(网址:http://www.ebi.ac.uk/IPI),PDB(5),参考序列(6)、FlyBase(7),蜗杆底座(8)以及欧洲、美国和日本专利局。虽然一个蛋白质序列可能存在于多个数据库中,并且在一个给定的数据库中可能不止一次,但UniParc只存储每个唯一序列一次,并分配一个唯一的UniParc标识符。此外,UniParc还提供了对源数据库(登录号)、序列版本和状态(活动或过时)的交叉引用。还提供了UniParc序列版本,并在基础序列每次更改时递增,从而可以观察所有源数据库中的序列更改。UniParc报告示例位于http://srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-无会话+-e+[国际防止虐待动物协会:UPI0000133132](SRS视图)和http://www.pir.uniprot.org/cgi-bin/upEntry?id=UPI0000133132(PIR视图)。

UNIPROT知识库

UniProt知识库是联盟活动的核心。我们合并了Swiss-Prot、TrEMBL和PIR-PSD,形成UniProt知识库,以提供带有注释和功能信息的蛋白质序列中央数据库。Swiss-Prot+TrEMBL中缺失的所有合适的PIR-PSD序列都被纳入UniProt。在Swiss-Prot+TrEMBL和PIR-PSD之间创建双向交叉引用,以便轻松跟踪PIR-PST条目。PIR中存在但Swiss-Prot+TrEMBL中缺失的参考和实验验证数据正在转移到UniProt中。

UniProt知识库由两部分组成:一部分包含由文献信息提取和馆长评估的计算分析产生的完全手动注释记录,另一部分包含等待完全手动注释的计算分析记录。为了连续性和名称识别,这两部分被称为“Swiss-Prot”和“TrEMBL”。UniProt报告示例可以在http://www.expasy.org/cgi-bin/niceprot.pl?第57727页(NiceProt视图),http://www.pir.uniprot.org/cgi-bin/upEntry?id=第57727页(iProClass视图)或http://srs.ebi.ac.uk/cgi-bin/wgetz?-e+[swall-acc:第57727页](SRS视图)。

在以下段落中,我们将解释UniProt知识库的主要原则。

高质量注释

我们将以比Swiss-Prot+TrEMBL和PIR-PSD更高的细节水平管理UniProt知识库条目。除了捕获每个UniProt条目必需的核心数据(主要包括氨基酸序列、蛋白质名称或描述、分类数据和引文信息)外,我们还努力为蛋白质附加尽可能多的注释信息。这可以通过两种方式实现:手动和自动。

馆长根据文献和序列分析进行手动注释

已发布新功能、结构和/或生物化学数据的序列被赋予较高的手动注释优先级。在UniProt中,注释由以下项目的描述组成:

蛋白质的功能;

酶的特异性信息(催化活性、辅因子、代谢途径、调节机制);

生物相关域和位点;

翻译后修饰;

通过质谱法测定分子量;

蛋白质的亚细胞位置;

蛋白的组织特异性表达;

蛋白质的发育特异性表达;

二级结构;

第四纪构造;

交互作用;

剪接亚型;

成熟蛋白产品;

多态性;

与其他蛋白质的相似性;

在生物技术过程中使用蛋白质;

与蛋白质缺乏或异常相关的疾病;

蛋白质作为药物的用途;

序列冲突等。

该注释位于注释行(CC)、特征表(FT)和关键字行(KW)中。注释根据主题进行分类,以便从数据库中轻松检索特定类别的数据。

为了获得关于蛋白质的最新和最广泛的知识,信息不仅从报告新序列数据的出版物中获得,还从综述文章中获得,以促进蛋白质家族或蛋白质组的定期修订。此外,我们还聘请了外部专家向我们发送有关特定蛋白质组的评论和更新。

为了提供上述高水平的注释,所有UniProt策展人阅读了大量与每种蛋白质相关的科学文献。这使他们能够为基因本体(GO)联盟的工作做出贡献(9)通过在注释过程中指定GO术语,因为它们提取与每个GO本体相关的信息,即蛋白质的功能、它参与的过程以及它在细胞中的位置。

自动分类和注释

随着序列数据库的快速增长,人们越来越需要对新预测的蛋白质进行可靠的功能表征和注释。为了应对如此庞大的数据量,需要更快、更有效的蛋白质序列表征和注释方法。一种有前途的方法是自动大规模功能表征和注释,它是在有限的人机交互下生成的。

InterPro分类。我们使用InterPro(10)识别结构域并将UniProt中的所有蛋白质序列分类为家族和超家族。InterPro是蛋白质家族、域和位点的集成资源,融合了成员数据库的工作:Pfam(11),PROSITE公司(12),打印(13)、ProDom(14),智能(15)、PIRSF(16),超级家族(17)和TIGRFAM(18). 全面的InterPro分类是使用高度结构化、分类驱动、基于规则的自动化程序提高注释质量和数量的先决条件。

UniProt的TrEMBL部分的自动功能注释。对于自动注释,已经开发了一个新的系统,将注释从UniProt的Swiss-Prot部分的特征良好的蛋白质标准化转移到未注释的TrEMBL条目(19). 使用该系统,Swiss-Prot部分被用作生成注释规则的源,然后这些注释规则存储在RuleBase中并进行管理。然后使用InterPro将TrEMBL条目分配到组中。然后提取该组具有功能特征的Swiss-Prot蛋白共享的注释,并将其分配给未注释的TrEMBL条目。该系统用于改进25%TrEMBL条目的注释。还正在开发一种新的自动标注数据挖掘方法,以补充该系统,该方法将在明年通过自动标注增加覆盖范围,并使UniProt的TrEMBL部分的标注标准更接近Swiss-Prot部分。

还将纳入RuleBase注释管道的是PIR分类驱动的基于规则的程序,它将为特定位置的特征、蛋白质名称和关键字提供标准化和丰富的UniProt注释。正在系统地为完全管理的PIRSF家族定义新的特征规则,这些家族至少包含一个已知的3D结构,并且具有实验验证的功能/活动/绑定站点信息。基于全蛋白进化关系的PIRSF分类也被用于检测和纠正许多基因组注释错误,这些错误是由仅基于局部域相似性的识别导致的,随后根据传递性进行传播(20).

微生物蛋白质组的高质量自动和手动注释(HAMAP)

瑞士普罗特原核生物基因组自动和手动注释的组合方法促成了HAMAP项目的开发(21). HAMAP项目或“微生物蛋白质组的高质量自动和手动注释”旨在集成手动和自动注释方法,以提高管理过程的速度,同时保持数据库注释的质量。自动注释仅适用于属于手动定义的直向同源族的条目和没有可识别相似性的条目(ORFans)。

ORFans注释各种预测工具应用于与已知蛋白质家族没有相似性的蛋白质。可能的跨膜区域、信号序列、卷曲线圈、ATP/GTP结合位点、LPXTG基序和一些定义的重复序列使用一致性和相关性规则自动注释,无需任何进一步的手动验证。

特征良好(子)家族成员注释。属于特征明确的蛋白质(子)家族的蛋白质可以使用规则系统自动注释,该规则系统描述注释的范围和性质,注释可以通过与原型手动注释条目的相似性进行分配。这种规则系统还包括仔细编辑的(子)族的多重对齐,它既用于传播模型条目中的要素注释,也用于生成用于标识族新成员的轮廓。物种特异性规则和生物化学途径特异性规则用于开发一个能够在整个蛋白质组水平上发现不一致性的系统。

标准化术语和受控词汇

一致的命名对于交流和文献检索是必不可少的。UniProt旨在标准化特定蛋白质及其跨相关生物体异构体的命名。对于各种其他UniProt项目,我们使用受控词汇,例如用于UniProt文档中列出的组织、质粒和关键字。统一的UniProt关键字列表基于Swiss-Prot关键字,通过添加选定的PIR关键字来增强,这些PIR关键字表示新概念或现有Swiss-Pro关键字的新父/子节点。只要有可能,我们就使用国际委员会定义的官方术语,同时仍然提供已发布的同义词。通过与其他数据库和组织的合作和定期数据交换,可以实施社区专用术语。

与其他数据库集成

UniProt提供了外部数据收集的交叉引用,例如DDBJ/EMBL/GenBank核苷酸序列数据库、2D PAGE和3D蛋白质结构数据库、各种蛋白质域和家族特征数据库、PTM数据库、物种特定数据收集、,变体数据库和疾病数据库。因此,UniProt成为50多个交叉引用数据库中存档的生物分子信息的中心枢纽。列出UniProt中交叉引用的所有数据库的文档(http://www.uniprot.org/support/docs/dbxref.shtml)可用,并包含每个数据库的简短描述和服务器URL。这种互连几乎完全是通过数据库交叉引用(DR)行实现的。此外,还提供了从子序列或特定站点到特定类型PTM或突变专用数据库的链接。唯一且稳定的特征标识符(FTId)允许引用特征表中特定于位置的注释项。目前,这些系统地归因于人类序列条目的FT变异株系、选择性剪接事件(VARSPLIC)和某些糖基化位点(CARBOHYD),但最终将被分配给所有类型的FT株系。

最小冗余

对于给定的蛋白质序列,许多序列数据库包含与不同文献报告相对应的单独条目。在UniProt中,我们尽可能地合并所有这些数据,以最小化数据库的冗余。由于剪接变异体、多态性、致病突变、实验性序列修改或简单的测序错误,测序报告之间的差异在相应UniProt条目的特征表中指出。

剪接异构体之间可能存在很大差异,异构体之间的序列相似性可能小于50%。工具VARSPLIC(22),可以从UniProt条目的FT或完整数据库中重新创建所有带注释的拼接变体。可以下载包含UniProt中注释的所有拼接变体的FASTA格式文件,用于相似性搜索程序。

证据归属

UniProt联盟强调对蛋白质注释使用证据归属机制,该机制将包括所有数据的数据源、证据类型和注释方法。这一点至关重要,因为UniProt知识库将包含从基础核苷酸序列数据库自动导入的数据、从其他数据库导入的数据,来自特定程序的数据,自动注释系统的结果,最重要的是,专家手动管理。证据标签的实现将允许用户区分所有这些数据源,并轻松识别特定类别的感兴趣数据,例如实验证明的蛋白质注释。

为了进一步提高蛋白质注释的质量,通过增加来源归属的实验验证数据量,UniProt开发了书目提交系统,并正在对文献数据进行追溯归属。提交页面允许提交和分类实验注释的文献引文,并显示从许多精心策划的数据库中为每个UniProt条目收集的综合书目数据。通过计算机辅助绘制现有蛋白质目录信息,正在对实验特征进行系统的手动归因。迄今为止,已有数千个实验特征与出版物相关,并与相应的PMID交叉引用,以便直接并入UniProt知识库。

UNIREF数据库

开发了自动程序,以从UniProt知识库创建三个UniProt NREF(UniRef)数据库,即NREF100、NREF90和NREF50,作为具有高信息含量的代表性蛋白质序列数据库。数据库提供完整的序列空间覆盖,同时隐藏视图中的冗余序列。非冗余有助于UniProt知识库中的序列合并(基于NREF100),并允许更快的序列相似性搜索(通过使用NREF90和NREF50)。

NREF100提供了PIR-NREF数据库的修改扩展(2),一个综合的非冗余序列集合,通过序列标识和分类与源属性进行聚类。与PIR-NREF一样,来自同一源生物(物种)的相同序列和亚片段以单个NREF条目的形式呈现,其中包含所有合并UniProt条目的登录号、蛋白质序列、分类学、书目、对应UniProt知识库的链接和存档记录,以及来自同一源生物体的近序列邻居(至少95%的序列一致性)。NREF100报告示例可在http://www.pir.uniprot.org/cgi-bin/unipEntry?id=URI0000E815.

NREF90和NREF50是使用CD-HIT算法从NREF100构建的(23)为科学用户社区提供非冗余序列集合,以执行更快的同源搜索。所有来源生物的相互序列标识分别大于90%或大于50%的所有记录合并为一个链接到相应UniProt知识库记录的单个记录。NREF90和NREF50的粒径分别减小了约40%和65%。

实用信息

交互式访问UniProt

浏览UniProt数据库的最有效、最人性化的方法是通过UniProt网站(网址:http://www.uniprot.org),它是UniProt项目框架中开发的所有方面的门户,包含有关UniProt背景和范围的详细文档。它提供数据库查询和数据挖掘机制、用户支持和通信、文件下载功能以及到联盟资源的链接(SIB:网址:http://www.expasy.org,EBI:网址:http://www.ebi.ac.uk和PIR:网址:http://pir.georgetown.edu). UniProt帮助台(gro.torpinu@pleh公司)为UniProt管理员和数据库维护人员提供访问权限。

UniProt数据可用性和提交

UniProt和UniRef条目以及支持文档可以通过匿名FTP以各种格式(Swiss-Prot/TrEMBL平面文件、FASTA、XML)从ftp://ftp。uniprot.org/pub/。

UniProt接受提交的新序列、条目更新和更正,以及蛋白质条目的注释书目信息。有关提交说明,请访问http://www.uniprot.org/support/submissions.shtml.

结论

完整和最新的生物知识数据库对于依赖信息的生物和生物技术研究至关重要。随着许多生物基因组序列的快速积累,人们的注意力正转向这些基因组编码的蛋白质的识别和功能。随着蛋白质序列和功能信息的数量和种类的增加,UniProt成为蛋白质序列和功能的中心资源,为活跃于现代生物学研究,特别是蛋白质组学领域的科学家提供了基石。该资源通过将可靠的自动注释方法与基于文献的专家手册管理相结合,提供丰富、一致和无冗余的蛋白质信息。UniProt将通过允许研究人员整合来自人类基因组项目、结构和功能基因组学以及蛋白质组学的大量数据,促进知识发现。

致谢

UniProt主要由美国国立卫生研究院(NIH)拨款1 U01 HG02712-01支持。EBI参与UniProt的少量支持来自两份欧盟合同BioBabel(QLRT-2000-00981)和TEMBLOR(QLRI-2001-00015)以及NIH拨款1R01HGO2273-01。SIB的Swiss-Prot活动由瑞士联邦政府通过联邦教育和科学办公室提供支持。PIR活动也得到了国家科学基金会(NSF)拨款DBI-0138188和ITR-0205470的支持。

参考文献

1Boeckmann B.、Bairoch A.、Apweiler R.、Blatter M.、Estreicher A.、Gasteiger E.、Martin M.J.、Michoud K.、O'Donovan C.、Phan I。(2003)瑞士普罗特蛋白质知识库及其补充TrEMBL于2003年出版。核酸研究。31, 365–370.[PMC免费文章][公共医学][谷歌学者]
2Wu C.H.、Yeh、L.-S.L.、Huang、H.、Arminski、L.、Castro-Alvear、J.、Chen、Y.、Hu、Z.、Kourtesis、P.、Ledley、R.S.、Suzek、B.E。(2003)蛋白质信息资源。核酸研究。31, 345–347.[PMC免费文章][公共医学][谷歌学者]
三。Stoesser G.、Baker,W.、van den Broek,A.、Garcia-Paster,M.、Kanz,C.、Kulikova,T.、Leinonen,R.、Lin,Q.、Lombard,V.、Lopez,R。(2003)EMBL核苷酸序列数据库:主要新发展。核酸研究。30, 21–26.[PMC免费文章][公共医学][谷歌学者]
4Hubbard T.、Barker D.、Birney E.、Cameron G.、Chen Y.、Clark L.、Cox T.、Cuff J.、Curwen V.、Down T。(2002)Ensembl基因组数据库项目。核酸研究。30, 38–41.[PMC免费文章][公共医学][谷歌学者]
5Westbrook J.、Feng,Z.、Chen,L.、Yang,H.和Berman,H.(2003)蛋白质数据库和结构基因组学。核酸研究。31, 489–491.[PMC免费文章][公共医学][谷歌学者]
6Pruitt K.和Maglott,D.(2001)RefSeq和LocusLink:NCBI以基因为中心的资源。核酸研究。29, 137–140.[PMC免费文章][公共医学][谷歌学者]
7FlyBase Consortium(2003)果蝇属基因组计划和社区文献。核酸研究。31, 172–175.[PMC免费文章][公共医学][谷歌学者]
8Harris T.、Lee,R.、Schwarz,E.、Bradnam,K.、Lawson,D.、Chen,W.、Blasier,D.、Kenny,E.、Cunningham,F.、Kishore,R。(2003)WormBase:比较基因组学的跨物种数据库。核酸研究。31, 133–137.[PMC免费文章][公共医学][谷歌学者]
9Ashburner M.、Ball、C.A.、Blake、J.A.、Botstein、D.、Butler、H.、Cherry、J.M.、Davis、A.P.、Dolinski、K.、Dwight、S.S.、Eppig、J.T。(2000)基因本体:生物学统一的工具。自然遗传学。25, 25–29.[PMC免费文章][公共医学][谷歌学者]
10Mulder N.、Apweiler R.、Attwood T.、Bairoch A.、Barrell D.、Bateman A.、Binns D.、Biswas M.、Bradley P.、Bork P。(2003)InterPro Database,2003带来了更多的覆盖面和新功能。核酸研究。31, 315–318.[PMC免费文章][公共医学][谷歌学者]
11Bateman A.、Birney E.、Cerruti L.、Durbin R.、Etwiller L.、Eddy S.R.、Griffiths-Jones S.、Howe K.L.、Marshall M.和Sonnhammer E.L.(2002)《Pfam蛋白质家族数据库》。核酸研究。30, 276–280.[PMC免费文章][公共医学][谷歌学者]
12Hulo N.、Sigrist,C.J.A.、Le Saux,V.、Langendijk Genevaux,P.、Bordoli,L.、Gattiker,A.、De Castro,E.、Bucher,P.和Bairoch,A.(2004)PROSITE数据库的最新改进。核酸研究。32,第134天至第137天。[PMC免费文章][公共医学][谷歌学者]
13Attwood T.K.、Bradley P.、Flower D.R.、Gaulton A.、Maudling N.、Mitchell A.L.、Moulton G.、Nordle A.、Paine K.、Taylor P。.(2003)PRINTS及其自动补充,预印本。核酸研究。31, 400–402.[PMC免费文章][公共医学][谷歌学者]
14Servant F.,Bru,C.,Carrere,S.,Courcelle,E.,Couzy,J.,Peyruc,D.和Kahn,D.(2002)Prodom:同源域的自动聚类。简介。生物信息。3, 246–251. [公共医学][谷歌学者]
15Letunic I.、Goodstadt,L.、Dickens,N.J.、Doerks,T.、Schultz,J.、Mott,R.、Ciccarelli,F.、Copley,R.R.、Ponting,C.P.和Bork,P.(2002)《基于SMART域的序列注释资源的最新改进》。核酸研究。30, 242–244.[PMC免费文章][公共医学][谷歌学者]
16Wu C.H.、Nikolskaya、A.、Huang、H.、Yeh、L.-S.、Natale、D.、Vinayaka、C.R.、Hu、Z.、Mazumder、R.、Kumar、S.、Kourtesis、P。(2004)PIRSF:蛋白质信息资源的家族分类系统。核酸研究。32,D112–D114。[PMC免费文章][公共医学][谷歌学者]
17Gough J.、Karplus,K.、Hughey,R.和Chothia,C.(2001)使用代表所有已知结构蛋白质的隐马尔可夫模型库分配基因组序列的同源性。分子生物学杂志。313, 903–919. [公共医学][谷歌学者]
18Haft D.H.、Loftus,B.J.、Richardson,D.L.、Yang,F.、Eisen,J.A.、Paulsen,I.T.和White,O.(2001)TIGRFAMs:蛋白质功能鉴定的蛋白质家族资源。核酸研究。29, 41–43.[PMC免费文章][公共医学][谷歌学者]
19Fleischmann W.、Moeller,S.、Gateau,A.和Apweiler,R.(1999)自动可靠功能注释的新方法。生物信息学15, 228–233. [公共医学][谷歌学者]
20Wu C.H.,Huang,H.,Yeh,L.-S.和Barker,W.C.(2003)蛋白质家族分类和功能注释。计算。生物化学。27, 37–47. [公共医学][谷歌学者]
21Gattiker A.、Michoud,K.、Rivoire,C.、Auchincloss,A.H.、Coudert,E.、Lima,T.、Kersey,P.、Pagni,M.、Sigrist,C.J.A.、Lachaize,C。.(2003)瑞士普罗特微生物蛋白质组的自动注释。计算。生物化学。27, 49–58. [公共医学][谷歌学者]
22Kersey P.、Hermjakob,H.和Apweiler,R.(2000)VARSPLIC:源自Swiss-Prot和TrEMBL的交替分裂蛋白质序列。生物信息学11, 1048–1049. [公共医学][谷歌学者]
23Li W.、Jaroszewski,L.和Godzik,A.(2002)容忍一些冗余显著加快了大型蛋白质数据库的聚类。生物信息学18, 77–82. [公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社