跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
数据库(牛津)。2011; 2011年:bar009。
2011年3月29日在线发布。 doi(操作界面):10.1093/数据库/bar009
PMCID公司:项目经理3070428
PMID:21447597

UniProt知识库:集成蛋白质数据中心

摘要

UniProt知识库(UniProtKB)通过提供蛋白质序列和功能信息的统一视图,充当蛋白质知识的中心枢纽。手动和自动注释程序用于将数据直接添加到数据库中,而对120多个外部数据库的广泛交叉引用则可在更专业的数据收集中访问其他相关信息。UniProtKB还集成了来自其他资源的一系列数据。所有信息都归于其原始来源,允许用户跟踪所有数据的来源。UniProt联盟致力于使用和推广通用数据交换格式和技术,UniProtKB数据以多种格式免费提供,以促进与其他数据库的集成。

数据库URL: 网址:http://www.uniprot.org/

介绍

随着完全测序的基因组数量不断增加,公共序列数据库中的蛋白质序列数量继续呈指数级增长。此外,与这些序列相关联的可用信息量也在增加。这些信息分布在各种生物数据集合中,因此需要一种方法来连接所有这些相关但分散的信息,以便用户可以无缝访问这些信息。数据集成在汇集分散在不同资源中的大量不同信息并向科学界提供这些数据的全面概述方面发挥着越来越重要的作用。

UniProt知识库(UniProtKB)旨在通过提供蛋白质序列和功能信息的统一视图,充当蛋白质知识的中心枢纽。UniProtKB由UniProt联盟制作,该联盟由欧洲生物信息研究所(EBI)、瑞士生物信息研究院(SIB)和蛋白质信息资源(PIR)组成。UniProt联盟的主要任务是通过维护一个稳定、全面、完全分类、丰富和准确注释的蛋白质序列知识库,以及科学界可以自由访问的广泛交叉引用和查询界面,来支持生物学研究。

UniProtKB由两个部分组成,UniProtKB/Swiss-Prot和UniProtKB/TrEMBL。UniProtKB/Swiss-Prot是手动管理的,这意味着每个条目中的信息由管理者进行注释和审查,而UniProtKP/TrEMBL中的记录是自动生成的,并通过自动注释和分类进行丰富。截至2011年1月11日发布的2011_01版,UniProtKB中有超过1350万个条目,其中UniProtKB/Swiss-Prot中有524420个条目,UniProtKB/TrEMBL中有13069501个条目。UniProtKB每4周更新和分发一次,可以在线访问进行搜索或下载网址:www.uniprot.org.

集成序列数据

UniProtKB是一个蛋白质序列数据库,旨在提供所有公开序列的完整集合。为了实现这一点,它集成了一系列资源中的序列,如表1UniProtKB中99%以上的序列来自由欧洲核苷酸档案馆组成的国际核苷酸序列数据库协作组织(INSDC)中编码区的翻译(1)日本DNA数据库(2)和GenBank(). UniProtKB还接受通过基于网络的SPIN提交工具提交的直接测序蛋白质序列(4)这使得研究人员能够提交直接测序的蛋白质和相关的生物数据。此外,使用文献数据库(如CiteXplore)每月搜索已发表的文献(5)和英国PubMed Central(6)识别报告未提交肽序列数据的论文,以纳入数据库。作为与PDBe持续合作的一部分(7),从资源中导入新的蛋白质序列,以确保世界蛋白质数据库(wwPDB)中的所有适当序列都用UniProtKB表示。

表1。

UniProtKB的序列源

序列源数据集成到UniProtKB
DDBJ、ENA、GenBankDDBJ、ENA和GenBank数据库中注释编码区翻译产生的所有蛋白质序列,但非种系免疫球蛋白和T细胞受体、合成序列、专利申请序列、少于八个氨基酸的小片段和假基因除外
提交文件已提交UniProtKB的直接测序蛋白质序列
文学类已公布但尚未提交到公开数据库的直接测序蛋白质序列
蛋白质数据库结构可用但没有相应UniProtKB条目的蛋白质序列
合奏由Ensembl小组的基因预测或从没有相应UniProtKB条目的Vega数据库中手动筛选得到的蛋白质序列
参考序列由基因预测或RefSeq人工筛选产生的蛋白质序列,没有相应的UniProtKB条目

国际蛋白质指数(IPI)(Kersey.) (8)为许多高等真核生物物种提供非冗余的完整蛋白质组,并被蛋白质组学界广泛使用。它于2001年启动,当时有关蛋白质组的信息以不同的格式存储在许多不同的数据库中。许多经过深入研究的基因组的情况都有所改善,UniProtKB目前正在与Ensembl合作(9)和RefSeq(10)以提供IPI生物体的完整蛋白质序列覆盖。已经建立了一条从Ensembl导入新的人类、小鼠、老鼠、奶牛、狗、鸡和斑马鱼序列的管道。UniProt将为这些物种生产完整的蛋白质组,一旦完成,将停止生产IPI。该管道将在未来扩大,以包括所有高覆盖率的集合物种。该管道促进了基于基因预测的新型蛋白质的导入,并使UniProt联盟能够利用Ensembl小组在该领域的专业知识。Ensembl还包括脊椎动物基因组注释(VEGA)数据库中的人工筛选基因(11)这特别适用于自动管道可能会遗漏的拼接变体的注释。根据cDNA和/或EST提供的转录证据手动识别VEGA剪接变体。这些额外的拼接变体包含在Ensembl中,因此被导入UniProtKB,并用于补充UniProt知识库管理员确定的拼接变体集。如果在UniProtKB手动管理过程中发现来自这些来源的错误注释,则会定期向Ensembl和VEGA提供反馈,以便更新或撤销不正确的序列。通过与现有转录物和蛋白质序列数据以及其他物种的同源蛋白质数据进行比较,可能会发现错误的预测。这使得Ensembl能够从UniProt团队的手动管理专业知识中获益。目前正在建立从RefSeq导入新序列的类似管道。

这种从一系列来源导入和组合序列的方法确保UniProtKB提供完整的蛋白质序列集合,并确保跨序列资源的蛋白质组集的一致性。

注释

UniProtKB通过包含与蛋白质作用有关的丰富信息,如其功能、结构、亚细胞位置、与其他蛋白质的相互作用和结构域组成,以及广泛的序列特征,如活性位点和翻译后修饰,为每个蛋白质序列记录增添了价值。UniProt小组直接添加到数据库中的信息来自两个主要来源,手动管理和自动注释。人工管理使用科学文献中的数据以及序列分析程序结果的人工验证,为实验表征的蛋白质提供高质量信息。虽然手动管理对于提供准确的数据至关重要,但这是一个耗时且劳动密集的过程,无法跟上不断增加的序列数据的生成。此外,对于许多物种来说,只有基因组序列已经确定,而编码的蛋白质没有可用的功能实验信息。为了解决这些问题,已经开发了自动化方法,使用已知蛋白质的信息来注释未标记的蛋白质。使用手动和自动管理方法,将尽可能多的信息添加到每个UniProtKB记录中。

人工管理

人工筛选过程包括如下所述的每个蛋白质序列的人工验证,以及对来自文献的实验数据和来自一系列序列分析工具的预测数据的批判性审查。策展人从这些不同来源中吸收所有信息,协调任何冲突的结果,并将数据汇编成一份简明但全面的报告,该报告提供了有关特定蛋白质的可用信息的完整概述。该过程包括六个主要步骤:(i)序列管理,(ii)序列分析,(iii)文献管理,(iv)基于家庭的管理,(v)证据归属和(vi)质量保证和完整条目的整合。这些步骤确保了所有手动管理数据的质量和一致性。下面详细描述了该过程,并在中进行了说明图1.

保存图片、插图等的外部文件。对象名称为bar009f1.jpg

显示UniProtKB手动管理过程概要的流程图。

序列管理

选择序列进行手动管理后,BLAST(12)对UniProtKB进行搜索,以确定同一基因的其他序列并确定同源物。来自同一基因和同一生物体的序列将与单个条目中描述的由一个基因编码的所有蛋白质产品进行比较和合并。这样做是为了减少冗余,并确保为用户提供全面的非冗余序列集合,其中每个基因只有一个条目。使用了许多序列比对方法,包括T_Coffee(13),肌肉(14)和ClustalW(15)这些方法已经在其他地方进行了详细的比较和审查(16,17). 确定了序列报告之间的差异,并记录了序列差异的根本原因,如选择性剪接、自然变异、移码、不正确的起始位点、不正确的外显子边界和未识别的冲突。与同源序列的比较也用于识别额外的序列错误及其原因。这些步骤确保UniProtKB/Swiss-Prot中描述的每个蛋白质的序列尽可能完整和正确,并有助于进一步序列分析的准确性和质量。

序列分析

使用一系列分析工具对序列进行分析,以预测序列特征。各种工具已集成到一个交互式序列分析平台中,该平台同时运行程序,并在一个界面中显示结果,该界面允许策展人审查和选择相关结果以供纳入。预测的特征包括结构域、重复序列、跨膜结构域、分泌和细胞器靶向序列、螺旋线圈、成分偏倚区域、糖基化位点、N-末端肉豆蔻酰化、GPI脂锚修饰和酪氨酸硫酸化。所有预测都是在实验数据的背景下手动审查和考虑的,只有相关的结果才被选择进行整合。所用预测方法的完整列表如所述表2.

表2。

UniProtKB手动管理过程中使用的序列分析工具

序列特征预测方法统一资源定位地址
拓扑结构
    信号肽信号肽http://www.cbs.dtu.dk/services/SignalP网站/
    转运肽目标Phttp://www.cbs.dtu.dk/services/TargetP网站/
    线粒体、质体或ER靶向序列Predotar公司http://urgi.versailles.inra.fr/predotar/predotart.html
    跨膜结构域TMHMM公司http://www.cbs.dtu.dk/services/TMHMM网站/
    信号域和跨膜域的区分菲比乌斯http://ophous.sbc.su.su/
    蛋白质诊断特征InterPro公司http://www.ebi.ac.uk/interpro/
通用3Dhttp://gene3d.biochem.ucl.ac.uk/gene3d/
HAMAP公司http://www.expasy.org/sprot/hamap/
黑豹http://www.pantherdb.org网站/
Pfam公司http://pfam.sanger.ac.uk/
PIRSF公司http://pir.georgetown.edu/pirwww/dbinfo/pirsf.shtml
打印www.bioinf.manchester.ac.uk/dbbrowser/PRINTS网站/
ProDom公司http://prodom.prabi.fr/prodom/current/html/home.php
PROSITE公司http://www.expasy.ch/prosite/
智能http://smart.embl-heidelberg.de/
超级家族http://supfam.cs.bris.ac.uk/超级家庭/
TIGRFAMhttp://www.tigr.org/TIGRFAMs网站
    盘绕式线圈线圈http://www.ch.embnet.org/software/COILS_form.html
    重复代表网址:http://www.embl.de/~andrade/papers/rep/search.html
翻译后修改
    GPI脂质锚定位点大PIhttp://mendel.imp.ac.at/gpi/gpi_server.html
    N个-糖基化位点NetNGlyc公司http://www.cbs.dtu.dk/services/NetNGlyc网站/
    O(运行)-糖基化位点NetOGlyc公司http://www.cbs.dtu.dk/services/NetOGlyc网站/
N-末端肉豆蔻酰化神经网络机器翻译http://mendel.imp.ac.at/myristate/SUPLpredictor.htm
肉豆蔻酰化因子http://www.expasy.org/tools/myristoylator网站/
    酪氨酸硫酸化位点硫化剂http://www.expasy.org/tools/sulasonator/

文学策展

期刊文章是实验数据的主要来源。通过搜索文献数据库和使用文献挖掘工具识别相关出版物。阅读每篇论文的全文,并提取相关信息以添加条目。实验数据经过严格评估、总结并汇编成一份综合报告,该报告提供了有关特定蛋白质的可用信息的完整概述。尽可能使用受控词汇表以高度结构化和统一的方式添加数据,以确保一致性并简化数据访问。科学文献中的注释包括蛋白质和基因名称、功能、催化活性、协同因子、亚细胞位置、蛋白质-蛋白质相互作用、表达模式、与蛋白质缺陷相关的疾病、重要结构域和位点的位置和作用、离子、,底物和共因子结合位点、催化残基以及由自然遗传变异、RNA编辑、选择性剪接、蛋白水解处理和翻译后修饰产生的变异蛋白形式。条目内容的摘要通过使用多个关键字提供。UniProtKB关键字是根据UniProtKB/Swiss-Prot条目的需要和内容开发的受控词汇表。它们用于索引基于10个类别的条目:生物过程、细胞成分、编码序列多样性、发育阶段、疾病、结构域、配体、分子功能、翻译后修饰和技术术语。根据特定的注释规则,每个关键字手动归属于UniProtKB/Swiss-Prot条目,并自动归属于UniProtKB/TrEMBL条目。关键字的完整列表以及相应基因本体(GO)术语的定义和映射可在http://www.uniprot.org/docs/keywlist网站此外,相关GO条款(18,19)根据文献中的实验数据进行分配。

基于家庭的管理

双向BLAST搜索和系统发育资源,如Ensembl Compara(20)用于鉴定被评估和管理的假定同源物。注释是标准化的,并在同源蛋白质之间传播,以确保数据的一致性。功能信息在正交记录之间传播,如果适用,也可以传输到并行记录。

证据归属

在手动注释过程中添加到条目中的所有信息都链接到其原始源,以便用户可以跟踪每条信息的来源并对其进行评估。证据归属系统及其在手动和自动注释过程中的使用将在后面的章节中进行更详细的描述。

质量保证、集成和更新

在集成到UniProtKB/Swiss-Prot之前,每个完成的条目都要经过自动和手动检查,以确保符合所需的质量标准。质量控制软件程序检查每个条目的语法,并验证大量生物规则,例如条目中引用的氨基酸的位置和相关性,特别是它们作为翻译后修饰的活性位点或目标的作用。条目通过自动检查后,将进行手动审查,以确保所有相关序列均已合并,所有相关文献均已添加,注释已正确添加,所有相关序列分析结果均已包含在内。对每个条目进行自动和手动评估的组合可以确保信息内容符合要求的标准。当新数据可用时,条目会定期更新。

自动批注

UniProtKB中缺乏完全人工管理的记录通过使用两个互补系统得到了增强,这两个系统旨在以高度的准确性自动注释蛋白质。UniRule系统使用一组手动创建的规则。规则的手动管理确保了系统的注释质量。相反,统计自动注释系统(SAAS)是一个完全自动化的系统,其中规则是使用决策树通过计算生成的。规则的自动生成确保了系统在面对不断增加的序列数据时的可伸缩性。

UniRule包含HAMAP(21),规则库(22)和PIR(23)系统并应用由管理员手动创建和维护的注释规则。每个规则指定:(i)根据实验特征化模板条目中的信息,由规则添加的许多注释,以及(ii)应用注释必须满足的条件。这些条件包括基于InterPro分类的家族成员资格(24)、分类限制和特定序列特征的存在。作为每个UniProt版本的一部分,将根据手动注释的UniProtKB/Swiss-Prot条目的内容评估预测,并审查和修改与当前UniProtKB/Swiss_Prot注释不一致的规则。此验证步骤确保只添加高质量的预测,并防止潜在错误数据的传播。

SAAS使用C4.5决策树算法从UniProtKB/Swiss-Prot条目生成功能注释的自动规则(25). 之所以选择该算法,是因为导出的规则具有可读性和简短性,并且为每个规则提供了统计证据,这些证据可用于根据置信度排序规则(26). 该算法根据序列长度、InterPro组成员资格和分类标准确定注释的最简洁规则。使用数据排除集来确保只预测适合计算注释的信息。这些规则是作为每个版本的一部分生成的,这确保了它们与UniProtKB一起进化,几乎不需要人工干预,同时也为UniRule系统中的漏洞利用提供了种子规则。SAAS包括一个后处理组件,用于对照手动管理的记录进行交叉验证,以确保规则的质量。

UniRule和SAAS目前共同预测34%UniProtKB/TrEMBL条目的蛋白质属性,如蛋白质名称、功能、催化活性、通路、亚细胞位置和序列特异性信息,如活性位点。每个系统的预测注释数量见表3.

表3。

2011年1月11日2011_01版UniProt自动注释系统中的预测注释数

预测的注释预测注释的条目数
SAAS公司UniRule(统一规则)
蛋白质名称不适用1 488 518
基因名称不适用583 214
评论1 455 0302 929 410
关键词2 083 6193 043 730
序列特征不适用343 288

交叉引用

除了手动和自动程序添加的注释外,还通过交叉引用与相关数据链接,提供对更专业资源中信息的访问(27). 提供了对120多个不同数据库的交叉引用,这些数据库跨越了广泛的不同资源类型,包括核苷酸序列资源、模型生物数据库以及基因组学和蛋白质组学集合(图2). 广泛交叉引用的添加确保了UniProtKB通过连接提供附加或补充信息的其他资源,成为生物分子信息的中心枢纽。

保存图片、插图等的外部文件。对象名为bar009f2.jpg

UniProtKB条目中的交叉引用。此图显示UniProtKB条目O54952中提供的交叉引用的子集。

交叉引用每4周运行一次,作为每个UniProt版本的一部分,为用户提供一整套定期更新的链接。建立和维护这些相互参考是与科学界合作的结果,并与资源开发人员保持联系,以确保获得可靠和全面的数据。在准备每次交叉引用运行时,将从每个链接的资源下载最新的映射文件。这些文件由链接的数据库生成,以提供其条目到相应UniProtKB条目的映射,并用于生成交叉引用。如果在管理过程中发现不正确的映射,将向链接的数据库提供反馈。

与外部资源提供商的持续联系和积极合作确保了数据质量和一致性。通过广泛的交叉引用,UniProtKB可以提供特定蛋白质的核心数据,并可以轻松访问外部资源中的补充数据。交叉引用数据库的完整列表见http://www.uniprot.org/docs/dbxref.

从其他资源导入的批注

除了为外部数据收集提供交叉引用之外,还建立了将选定资源中的数据导入UniProtKB的协议。这些附加数据补充了手动和自动注释过程中添加的信息,并确保UniProtKB提供完整的集成蛋白质数据集合。以下概述了从其他数据集合导入的数据类型的一些示例。

术语

UniProtKB导入官方命名委员会提供的基因名称以及捕获文献中使用的其他名称。官方基因名称直接从适当的物种特定数据库导入。这使得命名标准化与推荐的官方名称保持一致。与人类基因命名委员会(HGNC)等许多物种特定资源密切合作(28),小鼠基因组数据库(MGD)(29)和Flybase(30)UniProtKB馆长与各种物种特定数据库之间积极沟通,以确保双方数据准确,并解决任何数据不一致的问题。在确保序列与正确基因的链接、请求新的基因名或根据需要更新现有基因名以及确保正确建立正畸关系等问题上进行合作。鼓励希望建立类似工作关系的新团体通过以下方式联系UniProthelp@uniprot.org。

引文

除了提供手动策展过程中使用的所有引文外,还通过与其他策展数据库的提供商密切合作,从一系列资源中导入了未由UniProtKB策展的其他引文。这让用户可以访问UniProtKB记录中没有的其他出版物,并允许他们更好地探索特定蛋白质的可用已发表文献。引文当前从15个数据库导入,如所示表4这些外部来源提供了约475000条PubMed引文,这些引文未在UniProtKB中进行注释,涵盖了约230000条UniProt知识库条目。附加书目直接从UniProt网站上的蛋白质条目视图链接,点击参考文献部分末尾的“附加计算映射参考文献”链接可以访问附加引用。

表4。

UniProtKB从中导入引文的数据库

数据库源导入引文数触摸的UniProtKB条目数
生物细胞周期17801403
字典库25302749
Entrez基因GeneRIF251 08082 795
FlyBase飞基25 91625 233
谷氨酸脱羧酶1369824 042
通用DB_Spombe382775
薄荷252126 181
MGI公司110 79654 016
PDB公司16 45515 575
反应途径25743280
RGD公司44 29515 971
SGD公司47 5836316
TAIR公司12 01721409
蜗杆底座67478575
ZFIN公司29876919
总计475 490230 991

互动

UniProtKB与IntAct蛋白质相互作用数据库合作,提供对蛋白质-蛋白质相互作用数据的访问(31)通过从IntAct导入高质量交互的子集。导入的交互集由交互检测方法确定。已经选择了许多方法,这些方法被认为可以产生准确、可靠的结果,并且只导入这些方法检测到的相互作用。此类方法的示例包括X射线晶体学和表面等离子体共振。通过双杂交筛选等方法识别的相互作用已知会产生大量假阳性结果,只有通过第二种可靠方法确认后才能导入。IntAct正在引入一个统计评分系统,该系统将在未来用于确定将哪些交互导入UniProtKB。对于每个相互作用,显示相互作用蛋白的基因名称和登录号,以及观察到相互作用的实验次数(图3). 有关交互的具体信息显示在“备注”列中,每个交互都链接到相应的IntAct条目,以便用户可以访问每个交互的更具体信息,如实验细节。该管道将在未来扩展,以从国际分子交换(IMEx)联盟的所有成员处导入交互数据。IMEx除了IntAct外,还包括许多交互资源,IntAct对不同期刊的蛋白质交互数据进行非重叠管理。从所有IMEx数据库导入交互数据将扩大UniProtKB中交互数据的覆盖范围,并确保提供完整的非冗余高质量交互数据集。

保存图片、插图等的外部文件。对象名称为bar009f3.jpg

二进制蛋白质–UniProtKB条目Q13541中的蛋白质相互作用,已从IntAct导入。每个交互都显示在单独的一行上。“With”列包含相互作用蛋白质的基因名称。相互作用蛋白的加入数量列在“条目”栏中。“#Exp”列提供了观察到交互作用的实验数量。“IntAct”列包含两个相互作用蛋白质的IntAct数据库登录号。这些是超链接的,为用户提供对IntAct数据库中基础数据的访问权限。有关交互的具体信息可能会出现在“备注”栏中。

GO术语

UniProtKB策展人将GO术语分配给基因本体注释(GOA)(UniProtKB-GOA)项目上下文中所有手动管理的条目(32)旨在为UniProtKB中的蛋白质提供高质量的GO注释。除了这些手动分配的术语外,GOA还使用多种电子方法生成高质量的GO分配,并结合了来自一系列其他GO联盟成员数据库的注释。所有这些GO术语都与注释源的详细信息一起导入到相关的UniProtKB条目中。这种方法确保了最大的GO覆盖率,同时避免了跨资源的注释重复。UniProtKB-GOA目前为66%的UniProtKB条目提供GO注释(请参阅表5用于当前UniProtKB-GOA统计)。

表5。

UniProtKB-GOA注解覆盖范围

批注源协会数量不同UniProtKB蛋白的数量
电子注释74 764 5929 001 654
UniProt的手动注释129 30527 554
手动注释合计736 895113 675
GOA注释合计75 501 4879 015 498

这些数据基于UniProtKB-GOA第91版,该版本于2011年1月12日发布,并使用源数据库中公开发布的数据于2011年01月10日汇编而成。更详细的细分可在http://www.ebi.ac.uk/GOA/uniprot_release.html.

证据归属

每个UniProtKB条目组合了来自广泛来源的信息,包括从DDBJ/ENA/GenBank、Ensembl和PDBe记录导入的序列数据、从其他数据库导入的注释、自动注释预测以及基于文献中的实验数据和序列分析程序的结果手动管理的信息。由于数据源的多样性,为用户提供一种追踪条目中每条信息来源的方法至关重要。UniProt Consortium开发了一个综合证据归属系统,该系统在UniProtKB条目中的每个数据项上附加一个证据标签,以表明其来源(图4). 证据标签附加到如上所述的手动管理期间和自动注释期间添加的数据以及从外部资源导入的数据。该系统为用户提供了一种追踪条目中每一条信息的来源并对其进行评估的方法。用户可以轻松区分实验数据和预测数据,并评估数据的可靠性。此外,如果基础源数据发生更改,系统有助于自动更正和更新数据,同时保留手动管理的信息,以便不会被自动过程覆盖。证据归属系统在UniProtKB的XML版本中可用,并且在UniProt网站的条目视图中也部分实现了该系统。未来的计划包括细粒度标记,以允许对源信息进行更详细的细分,不断将证据标记更新为系统引入之前手动管理的条目,改进网站显示,以及修改系统,使其与海外建筑运营管理局铸造证据代码本体兼容,该本体已被GO等项目广泛使用。

保存图片、插图等的外部文件。对象名称为bar009f4.jpg

UniProtKB条目中的信息链接到基础数据源。指示每个数据项的源,并超链接源信息,以允许用户直接访问原始数据源。

分布式注释系统在数据集成中的应用

UniProtKB利用分布式注释系统(DAS)(33)合并并显示来自多个源的外部数据。DAS是一个系统,用于共享和可视化生物信息,该系统使用分布在世界各地并由原始提供者控制的来源提供的数据。该系统已被基因组学和蛋白质组学领域的许多数据提供商采用。数据分发由DAS服务器执行,并与DAS客户端执行的可视化分离。客户端-服务器体系结构允许单个客户端集成来自多个服务器的信息,整理信息,并在单个视图中将其显示给用户,而各个信息提供者之间几乎不需要协调。

UniProt DAS服务器(34),网址为http://www.ebi.ac.uk/das-srv/uniprot/das,提供对UniProtKB和UniProt Archive中序列和注释的访问(35)是一个全面的非冗余数据库,包含了主要公共蛋白质序列数据库中的所有蛋白质序列。研究小组可以通过使用合适的DAS客户端,在UniProtKB注释和UniParc交叉引用的上下文中提供和查看自己的数据。服务器还可以访问UniProtKB蛋白质的基因本体注释和UniProt知识库中蛋白质序列的理论胰蛋白酶消化。

此外,UniProt网站还提供对Dasty2 web客户端的访问(36)用于可视化来自40多个DAS服务器的蛋白质序列特征信息。Dasty2集成并合并来自多个来源的序列注释,并在可用时显示序列详细信息和其他信息,如出版物和蛋白质结构。数据以统一的交互式图形视图提供,便于快速搜索,以查找、共享和比较感兴趣的蛋白质的注释。通过位于每个条目页面顶部的“第三方数据”链接,可以从UniProt网站上的每个UniProtKB条目访问客户端。

访问UniProtKB数据

所有UniProtKB数据均可从UniProt网站免费获取(37)在网址:www.uniprot.org该网站提供了查询和分析数据以及各种文档的工具,并支持全文和基于字段的文本搜索、序列相似性搜索、多序列比对、批量检索和数据库标识符映射。

提供了类似谷歌的全文搜索作为主要入口点。此外,可以使用查询生成器迭代构建搜索(图5)或者可以在查询字段中手动输入,这样可以更快、更强大(请参见http://www.uniprot.org/help/text-search有关查询语法的详细信息)。查看结果集和单个条目是可配置的。在结果集级别,结果在一个表中返回,用户可以根据显示的列的类型和顺序以及每页显示的行数进行自定义。在单个条目级别,用户可以自定义条目部分的显示顺序。保存用户自定义,并为所有查询添加书签,以便在新发布的数据中重复这些查询。

保存图片、插图等的外部文件。对象名称为bar009f5.jpg

使用UniProt网站上的查询生成器优化搜索。使用查询生成器进一步细化胰岛素的初始查询,以包括分类限制。

除了文本搜索之外,序列相似性搜索是搜索UniProtKB的常用方法,BLAST就是为此目的提供的。可以对多个数据库运行搜索,可以将搜索限制为特定的分类组,并且可以自定义结果显示。对于运行多序列比对,提供了ClustalW。批检索工具允许用户输入一组UniProt标识符并检索相应的条目。为了允许用户将基因或蛋白质标识符列表映射到UniProtKB蛋白质,提供了标识符映射工具(图6). 该工具将UniProt标识符列表作为输入,并将它们映射到从UniProt引用的数据库中的标识符,反之亦然。

保存图片、插图等的外部文件。对象名称为bar009f6.jpg

使用UniProt网站上的标识符映射工具映射数据库标识符。标识符映射工具允许将UniProt标识符映射到从UniProt引用的数据库中的标识符,反之亦然。这里,一组RefSeq标识符映射到相应的UniProtKB条目。

作为每个UniProt版本的一部分,UniProtKB数据每4周发布一次,并根据所选数据集以一系列格式提供,以帮助与其他资源进行无缝交换。提供的格式包括用于数据文件的纯文本、XML、RDF和GFF,以及用于序列文件的FASTA格式。使用YYYY_XX格式对版本进行版本控制,其中YYYY是日历年,XX是一个两位数的数字,对于给定年份的每个版本都会递增,例如2011_01、2011_02等。以前的版本在UniProt FTP站点上存档至少2年。

通过简单的HTTP(REST)请求提供对数据和搜索结果的编程访问。这有助于使用UniProtKB数据开发应用程序,并支持常用的数据格式。有关详细信息和代码示例,请访问UniProt网站:http://www.uniprot.org/faq/28此外,还有一个Java应用程序编程接口UniProtJAPI(38)已开发用于为处理UniProt数据的Java应用程序提供远程访问,并促进UniProt的数据集成到基于Java的软件应用程序中。该库支持以Java对象的形式返回UniProtKB条目的查询和相似性搜索。

集成数据查询

虽然UniProt网站提供了一个查询界面,允许搜索所有UniProtKB数据,但生物学家通常需要跨各种数据库执行复杂的查询。生物集市(39)是一个开源数据管理系统,允许集成查询生物数据资源,无论其地理位置如何。它的开发目的是使科学家能够通过单个web界面执行多个生物数据源的高级查询。BioMart模型消除了在中心位置聚合和管理数据的需要,这意味着单个数据提供商仍然负责更新和发布周期,也消除了用户熟悉多个单个资源的查询界面的需要。UniProt生物城(http://www.ebi.ac.uk/uniprot/biomart/martview网站)允许用户跨UniProtKB、InterPro、Ensembl和PRIDE执行复杂查询(40)无法在UniProt网站上执行。可以执行的查询示例包括“为UniProt中的给定蛋白质序列提供Ensembl中的DNA序列”或“为我提供UniProtKB中已报告为PRIDE中标识的所有蛋白质,并在UniProtKB中引用到特定OMIM条目”。

未来计划

手动管理将继续提供高质量的UniProtKB数据,确保用户能够获得准确且一致的注释实验信息,以及手动验证的序列分析预测。此外,将改进和扩展自动注释系统,以增加预测数据的深度和广度,同时确保预测注释的持续质量。现有的交叉引用将继续保持,并随每个版本定期更新,新的交叉引用也将酌情添加到集合中。

UniProt联盟将继续探索其他高质量数据导入来源,并将在不久的将来引入一些新的数据集。变型数据将从Ensembl导入,以补充UniProtKB中基于文字的变型数据,反过来,这些数据将提供给Ensemb,以补充其变型集。

基于UniProtKB和wwPDB之间已经存在的密切合作,将从PDBeMotif数据库导入与蛋白质和小分子相互作用相关的数据(41). 这将包括绑定站点的位置信息以及相关文献引用。鉴于PDB中包含的化学实体范围广泛,将只包括手动选择的明确生物相关分子子集。UniProtKB还将扩大与蛋白质组学资源(如PRIDE)的合作,以纳入质谱衍生数据集。

结论

数据集成对于确保用户能够访问跨多个资源分布的不断增长的生物信息体的统一视图至关重要。UniProt的数据集成方法可确保在最合适的资源中捕获信息,以便随后与其他数据库集成,还可通过防止跨多个资源重复工作来确保最大的管理效率。

基金

美国国立卫生研究院(2小时01小时02712-04); EBI参与UniProt的额外支持来自欧盟委员会合同SLING拨款(226073); 美国国立卫生研究院(2P41HG02273-07号); 瑞士联邦政府还通过联邦教育和科学办公室以及欧洲委员会合同GEN2PHEN(200754)支持SIB的UniProtKB/Swiss-Prot活动;微生物(222886-2);和吊索(226073);;国家卫生研究院也支持PIR活动(5R01GM080646-04、3R01GM0080646-04S2、1G08LM010720-01和3P20RR016472-09S2); 和国家科学基金会(DBI-0850319号文件). 开放获取费用的资金来源:美国国立卫生研究院(1U41HG006104-01型).

利益冲突。未声明。

致谢

UniProt由以下人员编制:

  • 罗尔夫·阿普韦勒、玛丽亚·杰西斯·马丁、克莱尔·奥多诺万、米歇尔·马格拉内、亚斯敏·阿拉姆·法鲁克、里卡多·安图内斯、贝诺伊·贝利、马克·宾利、大卫·宾斯、劳伦斯·鲍尔、保罗·布朗、魏敏·陈、艾米丽·戴默、鲁思·埃伯哈特、弗朗西斯科·法齐尼、亚历山大·费多托夫、约翰·加拉维利、莱拉·加西亚·卡斯特罗、拉查尔·亨特利、朱利叶斯·雅各布森、迈克尔·克莱恩,欧洲生物信息研究所的卡蒂·莱霍、邓肯·莱格、刘武东、罗杰、桑德拉·奥查德、塞缪尔·佩特、克莱门斯·皮克勒、迭戈·波吉奥利、尼古拉斯·蓬蒂科斯、曼努埃拉·普鲁斯、史蒂文·罗萨诺夫、托尼·索福德、哈明德·塞拉、爱德华·特纳、马特·科贝特、迈克·唐纳利和彼得·范·伦斯堡;
  • Ioannis Xenarios、Lydie Bouguellet、Andrea Auchincloss、Ghislaine Argoud-Puy、Kristian Axelsen、Amos Bairoch、Delphine Baratin、Marie-Claude Blatter、Brigitte Boeckmann、Jerven Bolleman、Laurent Bollondi、Emmanuel Boutet、Silvia Braconi Quintaje、Lionel Breuza、Alan Bridge、Edouard deCastro、Elisabeth Coudert、Isabelle Cusin、Mikael Doche、,多尔尼德·多内维尔、塞维琳·杜瓦德、安妮·埃斯特雷彻、利维亚·法米格里蒂、马克·费尔曼、塞巴斯蒂安·杰汉特、塞雷内拉·费罗、伊丽莎白·加斯泰格、阿兰·加图、维维恩·格里森、阿尔诺·戈斯、纳丁·格拉兹·古莫夫斯基、乌苏拉·欣兹、香塔尔·胡洛、尼古拉斯·胡洛、珍妮特·詹姆斯、西尔维娅·吉梅内兹、弗洛伦斯·容戈、托马斯·卡普勒、纪尧姆·凯勒、维森特·拉拉,Philippe Lemercier、Damien Lieberher、Xavier Martin、Patrick Masson、Madeline Moinat、Anne Morgat、Salvo Paesano、Ivo Pedruzzi、Sandrine Pilbout、Sylvain Poux、Monica Pozzato、Nicole Redaschi、Catherine Rivoire、Bernd Roechert、Michel Schneider、Christian Sigrist、Karin Sonesson、Sylvie Staehli、Eleanor Stanley、Andre Stutz、Shyamala Sundaram,瑞士生物信息研究所的Michael Tognolli、Laure Verbregue、Anne-Lise Veuthey;
  • Cathy H.Wu、Cecilia N.Arighi、Leslie Arminski、Winona C.Barker、Chuming Chen、Yongxing Chen、Pratibha Dubey、Hongzhan Huang、Raja Mazumder、Peter McGarvey、Darren A.Natale、Thanemozhi G.Natarajan、Jules Nchoutmboube、Natalia V.Roberts、Baris E.Suzek、Uzomaka Ugochukwu、C.R.Vinayaka、Qinghua Wang、Yuqi Wang、,蛋白质信息资源的Lai-Su-Yeh和Jian Zhang。

工具书类

1Leinonen R、Akhtar R、Birney E等人,《欧洲核苷酸档案馆服务的改进》。核酸研究。2010;38:D39–D45。 [PMC免费文章][公共医学][谷歌学者]
2Kaminuma E、Mashima J、Kodama Y等。DDBJ推出了一个新的存档数据库,其中包含用于下一代序列数据的分析工具。核酸。物件。2010;38:D33–D38。 [PMC免费文章][公共医学][谷歌学者]
三。Benson DA、Karsch-Mizrachi I、Lipman DJ等。GenBank。核酸研究。2010;38:D46–D51。 [PMC免费文章][公共医学][谷歌学者]
4.旋转。http://www.ebi.ac.uk/swissprot/Submissions/spin/(2011年2月17日,最后获得日期)
5CiteXlore。http://www.ebi.ac.uk/citexplore/(2011年2月17日,最后获得日期)
6英国PMC。http://ukpmc.ac.uk/(2011年2月17日,最后获得日期)
7Velankar S、Best C、Beuth B等。PDBe:欧洲蛋白质数据库。核酸研究。2010;38:D308–D317。 [PMC免费文章][公共医学][谷歌学者]
8Kersey PJ、Duarte J、Williams A等。国际蛋白质指数:蛋白质组学实验的综合数据库。蛋白质组学。2004;4:1985–1988.[公共医学][谷歌学者]
9Flicek P、Aken BL、Ballester B等,合奏团第十年。核酸研究。2010;38:D557–D562。 [PMC免费文章][公共医学][谷歌学者]
10Pruitt KD、Tatusova T、Klimke W等,《NCBI参考序列:现状、政策和新举措》。核酸研究。2009;37:D32–D36。 [PMC免费文章][公共医学][谷歌学者]
11Wilming LG、Gilbert JGR、Howe K等人脊椎动物基因组注释(Vega)数据库。核酸研究。2008;36:D753–D760。 [PMC免费文章][公共医学][谷歌学者]
12Altschul SF、Madden TL、Schäffer AA等。缺口BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究。1997;25:3389–3402. [PMC免费文章][公共医学][谷歌学者]
13.Notredame C,Higgins D,Heringa J.T_Coffee:一种新的多序列比对方法。分子生物学杂志。2000;302:205–217.[公共医学][谷歌学者]
14埃德加钢筋混凝土。肌肉,高精度和高通量的多序列比对。核酸研究。2004;32:1792–1797. [PMC免费文章][公共医学][谷歌学者]
15.Thompson JD、Higgins DG、Gibson TJ。CLUSTAL W:通过序列加权、特定位置间隙惩罚和权重矩阵选择提高渐进式多序列比对的敏感性。核酸研究。1994;22:4673–4680. [PMC免费文章][公共医学][谷歌学者]
16Notredame C.多序列比对的最新进展:一项调查。药物基因组学。2002;:131–144.[公共医学][谷歌学者]
17Notredame C.多序列比对算法的最新进展。公共科学图书馆计算。生物。2007;:123. [PMC免费文章][公共医学][谷歌学者]
18基因本体联盟。(2000)基因本体:生物学统一的工具。自然遗传学.,25, 25–29.[PMC免费文章][公共医学]
19基因本体联盟。(2010)《2010年的基因本体论:扩展和完善》。核酸研究.,38,D331–D335。[PMC免费文章][公共医学]
20Villella AJ、Severin J、Ureta-Vida A等。综合比较基因树:脊椎动物中的完整、重复软件系统发育树。基因组研究。2009;19:27–35. [PMC免费文章][公共医学][谷歌学者]
21Gattiker A、Michoud K、Rivoire C等。SWISS-PROT中微生物蛋白质组的自动注释。计算。生物化学。2003;27:49–58.[公共医学][谷歌学者]
22Fleischmann W,Moller S,Gateau A等。蛋白质自动功能注释的新方法。生物信息学。1999;15:228–233.[公共医学][谷歌学者]
23Natale DA,Vinayaka CR,Wu CH。蛋白质的大规模、分类驱动、基于规则的功能注释。收录:Subramaniam S,编辑。遗传学、基因组学、蛋白质组学和生物信息学百科全书。生物信息学卷。纽约:John Wiley&Sons有限公司;2004[谷歌学者]
24Hunter S、Apweiler R、Attwood TK等。InterPro:综合蛋白质特征数据库。核酸研究。2009;37:D211–D215。 [PMC免费文章][公共医学][谷歌学者]
25昆兰JR。C4.5:机器学习程序。加利福尼亚州旧金山:Morgan Kaufmann;1993[谷歌学者]
26Kretschmann E,Fleischmann W,Apweiler R.使用应用于Swiss-Prot的C4.5数据挖掘算法自动生成蛋白质注释规则。生物信息学。2001;17:920–926.[公共医学][谷歌学者]
27.Gasteiger E,Jung E,Bairoch A.SWISS-PROT:通过蛋白质数据库连接生物分子知识。货币。发布分子生物学。2001;:47–55.[公共医学][谷歌学者]
28Seal RL、Gordon SM、Lush MJ等人。genenames.org:2011年HGNC资源。核酸研究。2011;39:D514–D519。 [PMC免费文章][公共医学][谷歌学者]
29Blake JA、Bult CJ、Kadin JA等。小鼠基因组数据库(MGD):哺乳动物基因组学和遗传学的首要模型生物资源。核酸研究。2011;39:D842–D848。 [PMC免费文章][公共医学][谷歌学者]
30Tweedie S、Ashburner M、Falls K等。FlyBase:增强果蝇基因本体注释。核酸研究。2009;37:D555–D559。 [PMC免费文章][公共医学][谷歌学者]
31Aranda B、Achuthan P、Alam-Faruque Y等。2010年IntAct分子相互作用数据库。核酸研究。2010;38:D525–D531。 [PMC免费文章][公共医学][谷歌学者]
32Barrell D、Dimmer E、Huntley RP等。2009年的GOA数据库——集成的基因本体注释资源。核酸研究。2009;37:D396–D403。 [PMC免费文章][公共医学][谷歌学者]
33Dowell RD、Jokerst RM、Day A等。分布式注释系统。BMC生物信息学。2001;2:7. [PMC免费文章][公共医学][谷歌学者]
34Jones P、Vinod N、Down T等。Dasty和UniProt DAS:蛋白质特征可视化的完美搭档。生物信息学。2005;21:3198–3199.[公共医学][谷歌学者]
35Leinone R、Diez FG、Binns D等,UniProt档案馆。生物信息学。2004;20:3236–3237.[公共医学][谷歌学者]
36Jimenez RC、Quinn AF、Garcia A等。Dasty2,Ajax蛋白质DAS客户端。生物信息学。2008;24:2119–2121.[公共医学][谷歌学者]
37Jain E、Bairoch A、Duvaud S等。生命科学基础设施:UniProt网站的设计和实施。BMC生物信息学。2009;10:136. [PMC免费文章][公共医学][谷歌学者]
38Patient S、Wieser D、Kleen M等。UniProtJAPI:用于访问UniProt数据的远程API。生物信息学。2008;24:1321–1322.[公共医学][谷歌学者]
39Smedley D、Haider S、Ballester B等。生物超市-生物查询变得简单。BMC基因组学。2009;10:22. [PMC免费文章][公共医学][谷歌学者]
40Vizcaíno JA,CótéR,Reisinger F等。蛋白质组学鉴定数据库蛋白质组学数据存储库指南。蛋白质组学。2009;9:4276–4283. [PMC免费文章][公共医学][谷歌学者]
41Golovin A,Henrick D.MSDmotif:探索蛋白质位点和基序。BMC生物信息学。2008;9:312. [PMC免费文章][公共医学][谷歌学者]

文章来自数据库:生物数据库与治疗杂志由提供牛津大学出版社