摘要

UniProt的主要任务是通过维护一个稳定、全面、分类充分、注释丰富和准确的蛋白质序列知识库,以及广泛的交叉引用和科学界可自由访问的查询界面,支持生物研究。UniProt由UniProt联盟生产,该联盟由欧洲生物信息学研究所(EBI)、瑞士生物信息学学会(SIB)和蛋白质信息资源(PIR)组成。UniProt由四个主要组件组成,每个组件都针对不同的用途进行了优化:UniProt档案、UniProt知识库、UniProt参考集群以及UniProt元基因组和环境序列数据库。UniProt每3周更新和分发一次,可以在线访问以进行搜索或下载,网址为网址:http://www.uniprot.org.

简介

UniProt致力于提供一个全面覆盖的蛋白质序列集中存储库,以及一种系统化的蛋白质注释方法,整合、解释、整合和标准化来自大型不同来源的数据,是最全面的蛋白质序列和功能注释目录。它有四个针对不同用途进行优化的组件。UniProt知识库(UniProtKB)是一个经过专业管理的数据库,是集成蛋白质信息的中心访问点,可交叉引用多个来源。UniProt档案(UniParc)是一个全面的序列库,反映了所有蛋白质序列的历史(1). UniProt参考聚类(UniRef)基于序列身份合并密切相关的序列,以加快搜索速度,同时创建UniProt元基因组和环境序列数据库(UniMES),以应对元基因组数据不断扩大的区域。研究人员可以自由方便地访问UniProt,对感兴趣的蛋白质进行交互式和定制分析,以促进假设生成和知识发现。

UNIPROT数据库

UniProt知识库(UniProtKB)

UniProtKB由两部分组成,UniProtKB/Swiss-Prot和UniProtKB/TrEMBL。前者包含手动注释的记录,其中包含从文献和馆长评估的计算分析中提取的信息。注释是由具有特定专业知识的生物学家完成的,以实现准确性。在UniProtKB/Swiss-Prot中,注释由以下内容的描述组成:功能、酶特异性信息、生物相关域和位点、翻译后修饰、亚细胞位置、组织特异性、发育特异性表达、结构、相互作用、剪接亚型、,相关疾病、缺陷或异常等。注释过程的另一个重要部分涉及合并单个蛋白质的不同报告。在检查序列后,馆长选择参考序列,进行相应的合并,并列出剪接和遗传变异以及可用的疾病信息。UniProtKB/TrEMBL包含高质量的计算分析记录,并通过自动注释和分类进行了丰富。计算机辅助注释是使用Spearmint中自动生成的规则创建的(2)或手动管理的规则(UniRule)(6)基于蛋白质家族。UniProtKB/TrEMBL包含EMBL/GenBank/DDBJ核苷酸序列数据库中存在的所有编码序列(CDS)的翻译(7)和TAIR拟南芥的序列(8),SGD公司(9)和合奏智人(10)带有一些明确的排除项。选择记录进行完全手动注释,并根据定义的注释优先级将其集成到UniProtKB/Swiss-Prot中。

UniProt参考集群(UniRef)

UniRef提供UniProtKB中所有序列的集群集(包括作为单独条目的拼接表单)和UniParc中的选定记录,以实现100%、90%和50%身份级别的序列空间的完全覆盖,同时隐藏冗余序列(11). UniRef集群以分层方式生成;UniRef100数据库将相同的序列和子片段组合到单个UniRef条目中,UniRef90由UniRef100集群构建,UniRef50由UniRef90集群构建。每个单独的成员序列只能存在于每个标识级别的一个UniRef集群中,并且在另一个标识级别上只能有一个父集群或子集群。UniRef100、UniRef90和UniRef50使数据库大小分别减少了约11、40和72%。每个簇记录包含每个成员序列的源数据库、蛋白质名称和分类信息,但由单个选定的代表性蛋白质序列和名称表示;还包括成员数和最低通用分类法节点。UniRef100是最全面的非冗余蛋白质序列数据集之一。UniRef90和UniRef50数据集的缩小尺寸提供了更快的序列相似性搜索,并通过提供更均匀的序列空间采样减少了相似性搜索中的研究偏差。UniRef在自动基因组注释、家族分类、系统生物学、结构基因组学、系统发育分析和质谱学等领域有着广泛的应用。

UniProt存档(UniParc)

UniParc是主要的序列库,是反映所有蛋白质序列历史的综合库(1). UniParc包含所有公开来源的所有新的和修订的蛋白质序列(http://www.uniprot.org/help/uniparc)确保在单个站点提供完整的覆盖范围。为了避免冗余,所有在整个长度上100%相同的序列都被合并,而不考虑源生物体。每天加载新的和更新的序列,交叉引用源数据库登录号,并提供序列版本,该版本随基础序列的更改而增加。每个UniParc条目中存储的基本信息是标识符、序列、循环冗余校验号、带有登录号和版本号的源数据库以及时间戳。如果UniParc条目缺少对UniProtKB条目的交叉引用,则会提供将其排除在UniProtKB之外的原因(例如伪基因)。此外,每个源数据库登录号都标记有其在该数据库中的状态,指示该序列在源数据库中是否仍然存在或已被删除,并酌情交叉引用NCBI GI和TaxId。

UniProt元基因组和环境序列数据库(UniMES)

UniProt知识库包含具有已知分类源的条目。然而,随着宏基因组数据领域的扩大,必须创建一个单独的数据库,即UniProt宏基因组和环境序列数据库(UniMES)。UniMES目前包含来自全球海洋采样探险队(GOS)的数据,该探险队预测了近600万种蛋白质,主要来自海洋微生物。通过将预测的蛋白质序列与InterPro(蛋白质家族、结构域和功能位点的集成资源)的自动分类相结合,UniMES独特地提供了对从采样考察中收集的基因组信息阵列的免费访问,并通过链接到进一步的分析资源进行了增强。UniMES在ftp站点上以FASTA格式提供,并且UniMES与InterPro方法文件匹配。

UNIPROTKB中的手动通告

UniProtKB/Swiss-Prot包含手动注释的记录,其中包含从文献和馆长评估的计算分析中提取的信息。人工注释包括对每种蛋白质(包括蛋白质序列)的实验证明或计算机预测数据的批判性审查。由生物学家组成的专家团队不断创建和更新记录。

UniProtKB/Swiss-Prot的注释活动可以分为两部分。

模型面向组织的注释

UniProtKB/Swiss-Prot为许多物种提供注释条目,但专注于不同分类群的模式生物条目注释,以确保所有蛋白质家族代表成员的高质量注释:

  • 人类和其他哺乳动物

  • 非哺乳动物脊椎动物:爪蟾、斑马鱼

  • 细菌和古菌

  • 植物

  • 真菌

  • 病毒

  • 毒素类

  • 粘液菌

  • 节肢动物:果蝇、蚊子

  • 秀丽线虫和布里格斯线虫

横截面注释

横向注释侧重于所有生物体共同的问题,例如翻译后修饰(PTM)、结构信息和蛋白质相互作用。

有关UniProt注释程序的更多信息,请参阅http://www.uniprot.org/help/projects.

进度报告

UniProtKB注释

重新审视人类蛋白质组

在UniProt 14.1版中发布完整人类蛋白质组初稿后,对20325条记录进行了深入审查和更新。我们的主要目标是增加人类蛋白质注释的深度和质量,并继续更新和更正所有相关的蛋白质序列。

作为审查过程的一部分,我们使用信息提取工具,如STRING数据库(12)识别重新命名的候选UniProt条目。STRING是一个元数据库,它集成并分配功能蛋白质相互作用信息的可靠性分数,因此为重新命名优先级提供了一个有用的第一通过过滤器。在密切相关的物种(例如。肌肉)另一种方法是使用一种无特征的人类蛋白质。序列更新和审查包括合并以前未描述的剪接异构体和多态性,以及通过与参考人类基因组进行比较来纠正或删除错误序列。我们还继续为新发现的蛋白质序列创建记录,并删除可能与假基因或克隆伪制品相对应的虚假记录。UniProt最近加入了共识CDS(CCDS)项目(13)这是一项合作努力,旨在确定一组具有一致注释和高质量的人类和小鼠蛋白质编码区域的核心集。长期目标是支持向一组标准的基因和蛋白质注释趋同。迄今为止,UniProt与NCBI的RefSeq注释组和WTSI的HAVANA团队密切合作,调查了700条记录。UniProtKB/Swiss-Prot 57.6版包含20 330个人类蛋白质组条目。其中超过三分之一含有额外的序列,代表通过选择性剪接、选择性启动子使用和/或选择性翻译起始产生的异构体,从而产生近34000个人类蛋白质序列。还描述了大约58000个单氨基酸多态性(SAP),大多数与疾病相关,以及69000个PTM。此次发布的UniProtKB/Swiss-Prot还包括80 000多种脊椎动物蛋白质,包括16 163种小鼠蛋白质。

UniProtKB/Swiss-Prot中完整的葡萄裂殖酵母蛋白质组

最近对模型生物蛋白质的注释工作导致将由S.pombe公司,第六个被完全测序的真核生物(14). 它是第三个真核生物完整蛋白质组(仅次于酿酒酵母和人类)集成在UniProtKB/Swiss-Prot中。自UniProt 15.4版发布以来,用户可以访问4958个经序列验证的手动管理的蛋白质条目,包括到GeneDB_Spombe(裂变酵母群落数据库)的链接。这个S.pombe公司蛋白质组集将不是一个静态的,但将随着该领域科学的进步而被重新审视和更新。

两者的整套可用性酿酒酵母S.pombe公司蛋白质以及这两个物种在真菌生命树中的系统发育位置将有助于鉴定和注释许多其他生物体中的同源蛋白质。

病毒蛋白注释程序(VPAP)

病毒蛋白注释项目始于2004年,旨在从每种病毒的代表性毒株子集中对病毒蛋白进行详细审查。为此,我们重点关注NCBI参考序列(RefSeq)列出的菌株,这些菌株具有完全测序和代表性的优点。

UniProtKB/Swiss-Prot 57.6版包含14 233个带注释的病毒条目。创建或更新病毒条目以描述蛋白质的功能和特征,例如3D结构、功能域、宿主细胞中的定位或翻译后修饰。注释还包括有关感染周期或与宿主蛋白质相互作用的数据(例如细胞内机制、宿主细胞免疫、宿主进入受体),以及宿主生物体的精确描述,通常会导致分类更新。为了获得最新的注释,我们经常与病毒学家合作。特别强调了具有公共卫生重要性的病毒,特别是那些引起人类流行病的病毒。因此,我们已经对HIV、流感、SARS、甲型肝炎、丙型肝炎、戊型肝炎、埃博拉病毒、杯状病毒、基孔肯雅病毒、登革热病毒、溶血病毒和风疹病毒的蛋白质进行了充分注释。2009年,我们完成了轮状病毒、EB病毒、水痘-带状疱疹病毒和单纯疱疹病毒的注释,并添加了一组2009年H1N1猪流感爆发的代表菌株。

盘基网柄菌注释程序

UniProt和dictyBase,用于盘状网柄菌,建立了一个协作来改进数据共享。这一协作始于2008年,通过联合组织的注释马拉松赛向前迈出了重要一步。为期一周的马拉松比赛导致UniProtKB/Swiss-Prot超过1000D.盘状体蛋白质,以及大量基因符号、蛋白质名称和基因模型的更新(15). 这一合作在2008年底建立的新注释程序中继续进行。程序的主要优先级是注释D.盘状体已被dictyBase描述或其基因模型已被手动验证的蛋白质。它还将包括基因符号、蛋白质名称和基因模型更新方面的工作。

与其他数据库集成

三类序列相关数据库(核酸序列、蛋白质序列和蛋白质三级结构)之间的集成以及与专业数据收集的集成对我们的用户来说非常重要。UniProtKB目前与114个不同数据库的1000多万个链接进行交叉引用,并定期更新。表1列出了过去一年中新增的17个不同的新数据库。数据库交叉引用存储在DR(数据库引用)行中,允许访问其他数据库中的相关信息。这种广泛的交叉引用网络使UniProt成为生物分子数据库互连的焦点。所有交叉引用的数据库都记录在http://www.uniprot.org/docs/dbxref如果合适,还包括在UniProt ID映射工具中http://www.uniprot.org/help/mapping文件下载地址为ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/idmapping。

数据库名称数据库信息
Bgee公司基因表达进化数据库
CTD公司比较毒理学数据库
CAZy公司碳水化合物活性酶
基因卡基因卡:人类基因、蛋白质和疾病
易激肽国际蛋白质指数
NextBio公司人类、小鼠、大鼠、苍蝇、蠕虫和酵母的NextBio基因中心数据
OMA公司从完整基因组数据中鉴定同源基因
路径_交互_DBNCI-自然路径交互数据库
PMAP_出口数据库CutDB-蛋白质水解事件数据库
荣耀PRoteomics标识数据库
字符串STRING:功能蛋白质关联网络
TCDB公司运输分类数据库
UCSC公司加州大学圣克鲁斯分校基因组浏览器
XenBase公司非洲爪蟾s和热带的生物学和基因组学资源
数据库名称数据库信息
Bgee公司基因表达进化数据库
CTD公司比较毒理学数据库
CAZy公司碳水化合物活性酶
基因卡基因卡:人类基因、蛋白质和疾病
易激肽国际蛋白质指数
NextBio公司人类、小鼠、大鼠、苍蝇、蠕虫和酵母的NextBio基因中心数据
OMA公司从完整基因组数据中鉴定同源基因
路径_交互_DBNCI-自然路径交互数据库
PMAP_出口数据库CutDB-蛋白质水解事件数据库
荣耀PRoteomics标识数据库
字符串STRING:功能蛋白质关联网络
TCDB公司运输分类数据库
UCSC公司加州大学圣克鲁斯分校基因组浏览器
XenBase公司非洲爪蟾s和热带的生物学和基因组学资源
数据库名称数据库信息
Bgee公司基因表达进化数据库
CTD公司比较毒理学数据库
CAZy公司碳水化合物活性酶
基因卡基因卡:人类基因、蛋白质和疾病
易激肽国际蛋白质指数
NextBio公司人类、小鼠、大鼠、苍蝇、蠕虫和酵母的NextBio基因中心数据
OMA公司从完整基因组数据中鉴定同源基因
路径_交互_DBNCI-自然路径交互数据库
PMAP_出口数据库CutDB-蛋白质水解事件数据库
荣耀PRoteomics标识数据库
字符串STRING:功能蛋白质关联网络
TCDB公司运输分类数据库
UCSC公司加州大学圣克鲁斯分校基因组浏览器
XenBase公司非洲爪蟾s和热带的生物学和基因组学资源
数据库名称数据库信息
Bgee公司基因表达进化数据库
CTD公司比较毒理学数据库
CAZy公司碳水化合物活性酶
基因卡基因卡:人类基因、蛋白质和疾病
易激肽国际蛋白质指数
NextBio公司人类、小鼠、大鼠、苍蝇、蠕虫和酵母的NextBio基因中心数据
OMA公司从完整基因组数据中鉴定同源基因
路径_交互_DBNCI自然路径交互数据库
PMAP_出口数据库CutDB-蛋白质水解事件数据库
荣耀PRoteomics标识数据库
字符串STRING:功能蛋白质关联网络
TCDB公司运输分类数据库
UCSC公司加州大学圣克鲁斯分校基因组浏览器
XenBase公司非洲爪蟾s和热带的生物学和基因组学资源

受控词汇表

受控词汇表(CV)(http://www.uniprot.org/docs/词汇表)用于描述各种UniProt注释项,如关键字、质粒或亚细胞位置。

塑料注释控制词汇

在OG(OrGanelle)行中(编码在“名称和来源”部分的小节中)(http://www.uniprot.org/manual/encoded_on),使用了质体的六个通用术语:

  • “叶绿体”表示有机体是光合作用的。

  • “非光合作用质体”是指生物体来自光合作用谱系,但在遗传上无法进行光合作用,就像某些寄生植物一样(弗吉尼亚伊壁鸠,奇异贫血)是一种寄生的“绿色”藻类(Helicosporidium sp.Subsp。琼斯Simulium jonesii)还有一个眼窝(龙虾).

  • ‘青叶’是海绿藻的质体。在其周围的膜之间有细胞壁的残余物。

  • “Apicoplast”用于非光合作用Apicocomplexan寄生虫的质体,如疟原虫、弓形虫和艾美耳球虫,它们分别导致疟疾、弓形虫病和球虫病。虽然质体残体的编码能力降低,但它对细胞生存至关重要,因此作为药物靶点很有意思。

  • “器官色素团”被用于囊变形虫Paulinella chromophora的质体,其内共生体基因组非常大(1.0 Mb,编码近900个蛋白质)。

  • “Plastid”(没有任何限定词)用于一些寄生植物(主要来自菟丝子属),这些植物在很小的时候可能会短暂地进行光合作用。

使用UniPathway构建代谢途径主题

生物体的新陈代谢可以理解为生化反应网络,通常由酶催化。从整体上处理这个网络是一项复杂的任务,经典的方法是将其划分为更易于管理的部分,称为路径。这种方法的应用总是有点武断,取决于数据的最终使用。通常,第一级分割是在生物标准的基础上实现的。例如,可以通过考虑氨基酸生物合成或更具体地说,仅在赖氨酸生物合成中,或更具体的说,通过AAA途径在赖氨酸生物合成中所涉及的所有反应的子网络来实现分割。这导致了一系列粗粒度到细粒度的划分(最粗的称为“超顺层”)。

我们在UniPathway项目(一个与INRIA和LECA合作的项目)中遵循了这一经典方法,并尽可能将这一第一级细分进一步细化为第二级细分,以便将路径分割为线性段(即无分支的子网络),称为“子路径”。这样的细粒度分割允许表示路径变体。实际上,根据有机体(或一组有机体)的不同,从一种化合物到另一种化合物的化学路线可以以不同的方式进行。由于UniProtKB涵盖了大量物种,因此在同一路径中表示这些变异非常重要。此外,它还提供了一种方便的方法,通过其在子途径中的相对位置(“步骤”)来标记构成代谢途径的酶反应。

蛋白质在代谢中的作用在“一般注释(注释)”部分的“路径”小节中进行了描述。语法是“超级路径”;通路;亚途径:步骤n/m'

示例:

第49367页:酿酒酵母同型果胶酶(EC 4.2.1.36)催化子途径L-α-氨基己二酸的第二步,即2-酮戊二酸盐(通过4个酶反应将2-酮戊二酸转化为L-α-氨己二酸盐)通过AAA途径合成赖氨酸的组分

科科斯群岛 -!- 途径:氨基酸生物合成;通过AAA合成L-赖氨酸

CCpathway;从2-酮戊二酸盐制备L-α-氨基己二酸:步骤2/4。

Q980X0型:索尔法塔利沙门菌乙酰谷氨酸/乙酰氨基己二酸激酶(酶代码EC2.7.2.8和EC2.7.2.-)催化涉及两个独立途径的两个反应。

科科斯群岛 -!- 途径:氨基酸生物合成;L-精氨酸生物合成;N个(2)-

科科斯群岛  来自L-谷氨酸的乙酰-L-鸟氨酸:步骤2/4。

科科斯群岛 -!- 途径:氨基酸生物合成;通过AAA合成L-赖氨酸

科科斯群岛  通路;来自L-α-氨基己酸的L-赖氨酸(Thermus途径):步骤

科科斯群岛  2/5.

UniProt网站提供到UniPathway的直接链接(http://www.grenoble.prabi.fr/obiwarehouse/unipath),其中提供了有关通路、子通路和生化反应的更详细信息。通过利用UniProtKB/Swiss-Prot的丰富性,UniPathway能够提供几种理解代谢的视角:蛋白质视角、基因组视角和分类学视角。化学观点基于KEGG LIGAND化合物和经Kanehisa实验室许可的反应(16).

UniProtKB/Swiss-Prot 57.6版包含超过105 000个不同的蛋白质(~155 000个PATHWAY注释),用UniPathway控制的词汇进行注释。

UniProt中的酶命名

EC编号用于描述酶反应,并基于国际生物化学和分子生物学联合会命名委员会(IUBMB)的建议。不幸的是,并不是所有已知的酶反应都有EC编号。直到最近,这些反应被指定为所谓的部分EC编号,其中部分编号被破折号取代(例如EC 3.4.24.-)。当蛋白质的催化活性未知时,或当蛋白质催化已知但尚未列入IUBMB EC清单的反应时,使用部分EC编号。为了区分这两种含义,我们开始使用带有序列号的字母“n”,而不是破折号“-”来表示具有已知催化活性的酶。包括序列号以确保每个初步EC编号是唯一的。

示例:

蛋白质的催化活性尚不清楚:

Q9VAC5:DE ADAM 17样蛋白酶前体(酶代码EC3.4.24.-)。

催化反应已知,但尚未包含在IUBMB中;EC列表:

第01468号:DE 4-草酸互变酶(酶代码EC5.3.2.n1)(4-OT)。

UniProtKB/Swiss-Prot中使用了初步的EC编号,也包含在ENZYME数据库中。因此,它们可以通过与ENZYME数据库相同的渠道获得,即ENZYME网站(http://www.expasy.org/ezyme网站/)从我们的ftp服务器。

UniProtKB其他蛋白质书目信息

UniProt致力于提供UniProtKB蛋白质注释所依据的综合文献引用。目前,有约228000条PubMed不同引文与约420万UniProtKB序列相关,其中67%的引文在UniProtKB/Swiss-Prot中。Entrez Gene和MOD等数据库(例如dictyBase、SGD和MGI)也提供了精选的文献信息,这些信息反映了它们的优先级和重点。我们现在已经整合了来自11个外部基因或蛋白质数据库的文献注释,包括Entrez基因的GeneRIF(http://www.ncbi.nlm.nih.gov/projects/GeneRif),PDB(网址:http://www.rcsb.org/pdb)和9个MOD:SGD(http://www.yeastgenome.org)、MGI(http://www.informatics.jax.org)、GAD(geneticassociationondn.nih.gov)、dictyBase(http://www.dictybase.org)、ZFIN(http://www.zfin.org),蜗杆底座(网址:http://www.wormbase.org)、TAIR(网址:http://www.arabidopsis.org)、RGD(RGD.mcw.edu)和FlyBase(http://www.flybase.org). 这11个外部来源贡献了约35万个尚未在UniProtKB中注释的PubMed引文,涵盖约188000个UniProt知识库条目。其他参考书目直接链接到UniProt网站上的蛋白质条目视图。我们继续确定更多的书目信息来源,以增强UniProtKB书目,并允许科学用户更好地探索他们感兴趣的蛋白质的现有知识。

数据库访问和反馈

这个网址:http://www.uniprot.org网站[17]是我们的数据和文档以及全文和基于字段的文本搜索、序列相似性搜索、多序列比对、批量检索和数据库标识符映射等工具的主要访问点。这些工具可以通过出现在每页顶部的工具栏直接访问。大多数数据(包括文档和帮助)都可以通过全文搜索进行搜索,这使得搜索不需要事先了解我们的数据或搜索语法。结果按相关性排序,并在可能的情况下提供建议,以帮助优化产生过多或没有结果的搜索。基于字段的文本搜索支持更复杂的查询。这些可以用工具栏迭代构建;查询生成器或在查询字段中手动输入,这样可以更快、更强大(http://www.uniprot.org/help/text-search). 通过自动完成辅助使用本体术语进行搜索,我们还提供了使用本体浏览搜索结果的可能性。查看结果集和数据库条目是可配置的。该网站有一个简单而一致的URL方案,所有搜索都可以添加书签,以便以后重复。主页上有一个网站教程,作为新手用户的快速介绍。为了响应用户对各种可下载数据集的请求(例如,所有以FASTA格式审核的人工条目),我们取消了所有下载限制,通过直接查询网站来实现此功能。然而,为了确保不会干扰交互式查询,大量下载的优先级较低,因此与UniProt FTP服务器上的下载相比,下载速度较慢。因此,我们建议从ftp.uniprot.org/pub/databases下载完整的数据集。该网站提供各种下载格式,这些格式取决于所选数据集(例如纯文本、XML、RDF、FASTA、UniProtKB的GFF)。结果表的列可以配置为以制表符分隔或Excel格式进行自定义下载。所有数据都在RDF中可用(网址:http://www.w3.org/RDF/)是用于在语义Web上发布数据的W3C标准。所有搜索结果都可以作为RSS提要进行检索,以便与外部工具(如新闻提要阅读器或Yahoo Pipes)集成。通过简单的HTTP(REST)请求可以对数据和搜索结果进行编程访问(http://www.uniprot.org/help/technical网站). Java应用程序也可以使用我们的Java API(UniProtJAPI)(18).

我们一直在努力提高数据库和服务的准确性和代表性,因此,我们认为您的反馈非常有价值。如果您有任何问题,请通过联系我们http://www.uniprot.org/联系人或直接发送电子邮件至help@uniprot.org.页面http://www.uniprot.org/help/submissions网站提供有关数据提交和更新的信息。您还可以订阅电子邮件提醒(http://www.uniprot.org/help/alerts)有关UniProt数据库的最新信息。有关如何最佳利用我们的资源的大量文档,请访问http://www.uniprot.org/help/UniProt可免费用于商业和非商业用途。请参阅http://www.uniprot.org/help/license网站了解详细信息。新版本每3周发布一次,但UniMES除外,它只有在更新基础源数据时才会更新。每个版本的统计信息位于网址:http://www.uniprot.org.

致谢

UniProt由以下人员编制:罗尔夫·阿普韦勒、玛丽亚·杰西斯·马丁、克莱尔·奥多诺万、米歇尔·马格朗、亚斯敏·阿拉姆·法鲁克、里卡多·安图内斯、丹尼尔·巴雷尔、贝诺伊·贝利、马克·宾利、大卫·宾斯、劳伦斯·鲍尔、保罗·布朗、魏敏·陈、艾米丽·迪默、鲁斯·埃伯哈特、亚历山大·费多托夫、丽贝卡·福尔格、约翰·加拉维利、拉查尔·亨特利、,欧洲生物信息研究所(EBI)的朱利叶斯·雅各布森(Julius Jacobsen)、迈克尔·克莱恩(Michael Kleen)、卡蒂·莱霍(Kati Laiho)、拉斯科·莱诺宁(Rasko Leinonen)、邓肯·莱格(Duncan Legge)、全林(Quan Lin)、刘武东(Wudong Liu)、杰罗(Jie Luo)、桑德拉·奥查德(Sandra Orchard)、塞缪尔·佩特(Samuel Patient);阿莫斯·拜罗赫、莱迪·布格勒特、伊奥尼斯·塞内里奥斯、塞韦琳·阿尔塔亚拉克、安德烈亚·奥金克洛斯、吉斯莱恩·阿古德·普伊、克里斯蒂安·阿克塞尔森、德尔芬·巴拉丁、玛丽·克劳德·布拉特、布里吉特·博埃克曼、杰文·博勒曼、劳伦特·博隆迪、艾曼纽尔·布特、西尔维娅·布拉科尼·昆塔耶、莱昂内尔·布雷扎、阿兰·布里奇、爱德华德·卡斯特罗、露西安·齐亚皮纳、丹妮尔·科尔,Elisabeth Coudert、Isabelle Cusin、Gwennaelle Delbard、Mikael Doche、Dolnide Dornevil、Paula Duek Roggli、Severine Duvaud、Anne Estreicher、Livia Famiglietti、Marc Feuermann、Sebastien Gehant、Nathalie Farriol Mathis、Serenella Ferro、Elisabeth Gasteiger、Alain Gateau、Vivienne Gerritsen、Arnaud Gos、Nadine Gruaz Gumowski、Ursula Hinz,Chantal Hulo、Nicolas Hulo、Janet James、Silvia Jimenez、Florence Jungo、Thomas Kappler、Guillaume Keller、Corinne Lachaize、Lydie Lane-Guermonprez、Petra Langendijk-Genevaux、Vicente Lara、Philippe Lemercier、Damien Lieberherr、Tania de Oliveira Lima、Veronique Mangold、Xavier Martin、Patrick Masson、Madelaine Moinat、Anne Morgat、Anais Mottaz、,Salvo Paesano、Ivo Pedruzzi、Sandrine Pilbout、Violaine Pillet、Sylvain Poux、Monica Pozzato、Nicole Redaschi、Catherine Rivoire、Bernd Roechart、Michel Schneider、Christian Sigrist、Karin Sonesson、Sylvie Staehli、Eleanor Stanley、Andre Stutz、Shyamala Sundaram、Michael Tognolli、Laure Verbregue、Anne-Lise Veuthey、,瑞士生物信息学研究所(SIB)和日内瓦大学生物化学和结构生物学系的叶丽娜(Lina Yip)和路易斯·祖莱塔(Luiz Zuletta);Cathy Wu、Cecilia Arighi、Leslie Arminski、Winona Barker、Chuming Chen、Yongxing Chen、Zhang Zhi Hu、Hongzhan、Raja Mazumder、Peter McGarvey、Darren A.Natale、Jules Nchoutmboube、Natalia Petrova、Nisha Subramanian、Baris E.Suzek、Uzomaka Ugochukwu、Sona Vasudevan、C.R.Vinayaka、,蛋白质信息资源(PIR)的Lai Su Yeh和Jian Zhang。

基金

UniProt主要由美国国家人类基因组研究所颁发的编号为U01HG02712的奖项支持。内容完全由作者负责,不一定代表国家人类基因组研究所或国家卫生研究院(NIH)的官方观点。EBI参与UniProt的额外支持来自欧盟委员会合同SLING拨款(226073)和NIH拨款(2P41HG02273-07)。此外,瑞士联邦政府通过联邦教育和科学办公室以及欧盟委员会合同SLING(226073)也支持SIB的UniProtKB/Swiss-Prot活动。PIR活动还得到了国家卫生研究院关于HHSN266200400061C、NCI-caBIG和5R01GM080646-04的拨款和合同以及国防部拨款W81XWH0720112的支持。开放获取费用的资金来源:欧洲生物信息学研究所。

利益冲突声明。未声明。

参考文献

1

莱诺宁
R(右)
,
迪兹
FG公司
,
宾斯(Binns)
D类
,
弗莱什曼
W公司
,
洛佩兹
R(右)
,
阿普维勒
R(右)
.
UniProt存档
.
生物信息学
(
2009
)
20
:
3236
3237
.

2

威瑟
D类
,
克雷奇曼
E类
,
阿普维勒
R(右)
.
过滤错误的蛋白质注释
.
生物信息学
(
2004
)
20
:
i342号机组
i347型
.

三。

Gattiker公司
A类
,
米休德
K(K)
,
Rivoire公司
C类
,
奥金克洛斯
AH(AH)
,
考德特
E类
,
利马
T型
,
凯西
P(P)
,
帕尼
M(M)
,
Sigrist公司
希杰
,
拉雪兹
C类
SWISS-PROT中微生物蛋白质组的自动注释
.
计算。生物化学。
(
2003
)
27
:
49
58
.

4

弗莱什曼
W公司
,
莫勒
S公司
,
盖图
A类
,
阿普维勒
R(右)
.
一种新的蛋白质自动功能注释方法
.
生物信息学
(
1999
)
15
:
228
233
.

5

中国
,
尼科尔斯卡娅
A类
,
H(H)
,
Yeh是的
LS(负载感应)
,
纳塔莱
陆军部
,
象头神
CR公司
,
ZZ公司
,
Mazumder公司
R(右)
,
古玛
S公司
,
库尔特斯病
P(P)
PIRSF:蛋白质信息资源的家族分类系统
.
核酸研究。
(
2004
)
32
:
第112页
第114页
.

6

纳塔莱
陆军部
,
象头神
CR公司
,
中国
.
蛋白质的大规模、分类驱动、基于规则的功能注释
。输入:
遗传学、基因组学、蛋白质组学和生物信息学百科全书。生物信息学卷
苏布拉马尼亚姆
S公司
,编辑(
2004
)
英格兰西苏塞克斯
:
约翰·威利父子有限公司。

7

科克伦
G公司
,
阿赫塔
R(右)
,
邦菲尔德
J
,
鲍尔
L(左)
,
德米拉尔普
F类
,
法鲁克
N个
,
吉布森
R(右)
,
霍德
G公司
,
哈伯德
T型
,
亨特
C类
欧洲核苷酸档案馆的小规模创新
.
核酸研究。
(
2009
)
37
:
第19天
D25型
.

8

斯沃布雷克
D类
,
威尔克斯
C类
,
拉梅什
P(P)
,
贝拉尔迪尼
TZ公司
,
加西亚-赫南德斯
M(M)
,
福斯特
H(H)
,
D类
,
迈耶
T型
,
穆勒
R(右)
,
普勒茨
L(左)
,等人
拟南芥信息资源(TAIR):基因结构和功能注释
.
核酸研究。
(
2008
)
36
:
D1009号
D1014号
.

9

商行
EL公司
,
巴拉克里希南
R(右)
,
,
佳士得
韩国
,
公园
J
,
宾克利
G公司
,
科斯坦佐
国会议员
,
德怀特
不锈钢
,
恩格尔
SR公司
,
菲斯克
DG公司
SGD的本体注释:新的数据源和注释方法
.
核酸研究。
(
2008
)
36
:
D577型
D581型
.

10

弗利克
P(P)
,
阿肯
BL公司
,
比尔
K(K)
,
球鞋
B类
,
仙人掌
M(M)
,
Y(Y)
,
克拉克
L(左)
,
科茨
G公司
,
坎宁安
F类
,
切割
T型
合奏2008
.
核酸研究。
(
2008
)
36
:
D707型
D714号
.

11

苏泽克
比利时
,
H(H)
,
麦加维
P(P)
,
Mazumder公司
R(右)
,
中国
.
UniRef:全面的非冗余UniProt参考集群
.
生物信息学
(
2007
)
23
:
1282
1288
.

12

延森
LJ公司
,
库恩
M(M)
,
完全的
M(M)
,
查夫伦
S公司
,
克里维
C类
,
穆勒
J
,
德克斯
T型
,
朱利安
P(P)
,
罗斯
A类
,
西蒙诺维奇
M(M)
STRING 8–630生物体蛋白质及其功能相互作用的全球观点
.
核酸研究。
(
2009
)
37
:
D412号
D416号
.

13

普鲁特
杜兰特
,
哈罗
J
,
哈特
无线电高度表
,
沃林
C类
,
迪坎
M(M)
,
马格洛特
博士
,
塞尔
S公司
,
法雷尔
厘米
,
洛夫兰
JE公司
,
吕夫
BJ公司
共识编码序列(CCDS)项目:确定人类和小鼠基因组的共同蛋白编码基因集
.
基因组研究。
(
2009
)
19
:
1316
1323
.

14

木材
V(V)
,
格威廉
R(右)
,
拉贾德勒姆
妈妈
,
Lyne公司
MH公司
,
Lyne公司
R(右)
,
斯图尔特
A类
,
斯古罗斯
JG公司
,
泥炭
N个
,
海尔斯
J
,
贝克
新加坡
pombe裂殖酵母的基因组序列
.
自然
(
2002
)
415
:
871
880
.

15

高德特
P(P)
,
车道
L(左)
,
P(P)
,
A类
,
S公司
,
奥金克洛斯
A类
,
阿克塞尔森
K(K)
,
Braconi-Quintaje公司
S公司
,
布泰
E类
,
棕色
P(P)
UniProtKB/Swiss-Prot和dictyBase之间的基因和蛋白质协同注释
.
数据库
(
2009
)doi:10.1093/database/bap013。

16

卡内希萨
M(M)
,
荒木经惟
M(M)
,
后藤
S公司
,
服部
M(M)
,
平川市
M(M)
,
伊藤
M(M)
,
片山
T型
,
川岛
S公司
,
奥田
S公司
,
时松
T型
KEGG将基因组与生命和环境联系起来
.
核酸研究。
(
2008
)
36
:
D480型
D484号
.

17

耆那教
E类
,
贝罗奇
A类
,
杜瓦德
S公司
,
,
雷达斯基
N个
,
苏泽克
比利时
,
马丁
美赞臣
,
麦加维
P(P)
,
加斯泰格尔
E类
.
生命科学基础设施:UniProt网站的设计和实施
.
BMC生物信息学
(
2009
)
10
:
136
.

18

患者
S公司
,
威瑟
D类
,
克莱恩
M(M)
,
克雷奇曼
E类
,
马丁
美赞臣
,
阿普维勒
R(右)
.
UniProtJAPI:用于访问UniProt数据的远程API
.
生物信息学
(
2008
)
24
:
1321
1322
.

作者注释

UniProt联盟的成员在确认书中给出。

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.0/uk/)它允许在任何媒体上无限制地非商业性使用、分发和复制原始作品,前提是正确引用了原始作品。

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看更多通知。