摘要

UnPROT的主要任务是支持生物研究,通过维持一个稳定、全面、完全分类、丰富和精确注释的蛋白质序列知识库,具有广泛的交叉引用和查询接口,可自由访问科学界。UnPROT是由UnPROT联盟产生的,该组织由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和蛋白质信息资源(PIR)组成。UnPROT由四个主要组件组成,每个组件针对不同的用途进行了优化:UnPROT存档、UNIPRT知识库、UNIPRT参考集群和UniProt Metagenomic和环境序列数据库。UnPROT每3周更新并分发一次,并可在网上进行搜索或下载。HTTP://www. UnPosi.Org.

介绍

UniProt致力于提供一个集中的蛋白质序列库,具有全面的覆盖范围和系统的蛋白质注释方法,结合、解释、整合和标准化来自大量和不同来源的数据,是蛋白质序列和功能注释的最全面的目录。它有四个组件优化了不同的用途。UnPROT知识库(UnPoTrkB)是一个熟练的数据库,它是一个集成的蛋白质信息的中心接入点,与多个来源交叉引用。UnPROT档案馆(UnPARC)是一个全面的序列库,反映了所有蛋白质序列的历史(UNIPRT参考集群(UNIDEF)合并基于序列标识的紧密相关序列以加速搜索,而UniProt Metagenomic和环境序列数据库(UNIMES)被创建以响应宏基因组数据的扩展区域。UnPROT是自由和容易地研究者进行互动和定制的分析感兴趣的蛋白质,以促进假设生成和知识发现。

UNIPROT数据库

UnPROT知识库(UnPurtKB)

UnPoTrkB由两个部分组成,UnPosikB/瑞士PROT和UnPurkkb/Trimbl。前者包含手工注释记录,从文献中提取的信息和策展人评估计算分析。注释是由具有特定专业知识的生物学家来完成的。在UNIPROKB/瑞士PROT中,注释包括以下描述:功能(S)、酶特异性信息、生物相关的域和位点、翻译后修饰、亚细胞定位、组织特异性、发育特异性表达、结构、相互作用、剪接异构体(S)、相关疾病或缺陷或异常等。注释过程的另一重要部分涉及合并单个蛋白质的不同报告。在对序列进行检查之后,馆长选择参考序列,进行相应的合并,并在可用时列出剪接和遗传变异以及疾病信息。UnPrimkB/TrimBL包含高质量的计算分析记录,丰富的自动注释和分类。使用自动生成的规则来创建计算机辅助注释,如留兰香()或手动编排规则(unRulle)-)基于蛋白质家族。UnPoTrkB/TrimBL包含EMBL/GenBank/DDBJ核苷酸序列数据库中存在的所有编码序列(CDS)的翻译()和来自TAIR Arabidopsis thaliana的序列((SGD)智人有一些特定的排除。根据定义的注释优先级,记录被选择用于完整的手动注释并集成到UnPosikB/瑞士PROT中。

UNIPRT参考簇(UNIRF)

UnErf提供了从UnPosiKB(包括拼接形式作为单独的条目)和来自UNARPARC的选择记录的所有序列的簇集,以在隐藏100, 90个和50%个标识级别的同时隐藏冗余序列来实现序列空间的完全覆盖(十一UnReF集群以分层的方式生成;UNIFR100数据库将相同的序列和子片段组合成一个UNIRF条目,UNIFR90是从UNIFR100集群构建的,UNIFR50是从UnRe9090集群构建的。每个单独的成员序列可以在每个身份级别中仅存在一个UNIRF集群,并且在另一个身份级别上只有一个父或子簇。UNIFR100、UNIFR90和UNIRF50分别获得了11, 40和72%的数据库尺寸。每个簇记录包含每个成员序列上的源数据库、蛋白质名称和分类信息,但由单个选择的代表性蛋白质序列和名称来表示;成员数量和最低公共分类节点也包括在内。UnReF100是最全面的非冗余蛋白质序列数据集之一。UNYFR90和UNIFR50数据集的缩减大小提供更快的序列相似性搜索,并通过提供序列空间的更均匀采样来减少相似性搜索中的研究偏倚。UnReF用于自动化基因组注释、家庭分类、系统生物学、结构基因组学、系统发育分析和质谱分析等领域的广泛应用。

UnPROT档案馆(UNPARC)

UnPARC是主要的序列库,是反映所有蛋白质序列历史的综合知识库。UnPARC包含来自所有公开来源的所有新的和修订的蛋白质序列(HTTP://www. UnPosi.Org/Help/UNIPARC)以确保在一个站点上完全覆盖。为了避免冗余,所有的序列100%在整个长度上是相同的,不管源生物体。新的和更新的序列每天加载,交叉引用源数据库登录号,并提供一个序列版本,增加对基础序列的更改。在每个UNIPARC条目中存储的基本信息是标识符、序列、循环冗余校验号、具有加入和版本号的源数据库和时间戳。如果UnPARC条目缺少对UnPoTrkB条目的交叉引用,则提供排除UnPoTrkB的原因(例如伪基因)。此外,每个源数据库登录号在该数据库中被标记为其状态,指示该序列是否仍然存在或已在源数据库中删除,并在适当时交叉引用NCBI GI和TAIDID。

UniProt Metagenomic和环境序列数据库(UNIMES)

UnPROT知识库包含有已知分类源的条目。然而,宏基因组数据的扩展区域有必要创建一个单独的数据库,UniProt Metagenomic和环境序列数据库(UNIMES)。UNIMES目前包含来自全球海洋采样探险(GOS)的数据,它预测了近600万种蛋白质,主要来自海洋微生物。通过将预测的蛋白质序列与InPRO自动分类、蛋白质家族、域和功能位点的整合资源相结合,UNIMES独特地提供免费访问从采集远征收集的基因组信息的阵列,通过进一步分析资源的链接增强。UNIMES可在FFTA站点上使用FASTA格式,以及UNIMES匹配到IPRO方法文件。

UnPrutkB中的手工标注

UNIPROKB/瑞士PROT包含手工注释的记录,从文献中提取的信息和策展人评估的计算分析。手动注释包括对每种蛋白质(包括蛋白质序列)的实验证明或计算机预测数据的批判性回顾。记录是由生物学家的专家团队不断地创造和更新的。

UNIPROKB/瑞士PROT的注释活动可分为两部分。

面向模型的注释

UNIPROKB/瑞士PROT为许多物种提供注释条目,但集中于不同分类群的模型生物的条目注释,以确保对所有蛋白质家族的代表性成员的高质量注释的存在:

  • 人类和其他哺乳动物

  • 非哺乳类脊椎动物:爪蟾属Zebrafish

  • 细菌与古菌

  • 植物

  • 真菌

  • 病毒

  • 毒素

  • 粘液菌

  • Arthropods:Drosophila,蚊子

  • 线虫与C. briggsae

横向注记

横向注释集中于所有生物体共同的问题,如翻译后修饰(PTMS)、结构信息和蛋白质-蛋白质相互作用。

有关UNIPRT的注释程序的更多信息,请参见HTTP://www. UnPosi.Org/Help /项目.

进度报告

UnPotokb注释

人类蛋白质组复述

在完整的人类蛋白质组的第一稿的UniProt版本14.1公布后,20个325记录的密集审查和更新开始。我们的主要目标是增加人类蛋白质注释的深度和质量,并继续更新和纠正所有相关的蛋白质序列。

作为审查过程的一部分,我们使用的信息提取工具,如字符串数据库(十二标识UnPROT条目是重新注释的候选项。String是一个元数据库,它将可靠性评分整合到功能性蛋白质相互作用的信息上,从而为重新注释优先次序提供了一个有用的第一遍过滤器。在密切相关物种中从具有良好特征的直系同源物的注释的传播(例如)家鼠另一种方法是使用未经鉴定的人类蛋白质。序列更新和回顾包括先前未描述的剪接异构体和多态性的合并,以及与参考人类基因组比较的错误序列的校正或去除。我们还继续为新发现的蛋白质序列创建记录,并删除可能对应于假基因或克隆伪像的杂乱无章的记录。UnPROT最近加入了CCDS(CCDS)项目十三协同努力识别一组一致注释和高质量的人和小鼠蛋白编码区。长期目标是支持收敛到一套标准的基因和蛋白质注释。迄今为止,UnPROT已经在NCBI和WTSI的哈瓦那团队中与RefSQ注释组密切合作,共调查了700条记录。UnPosikB/瑞士PROT 57.6包含20个330个人类蛋白质组条目。超过三分之一的这些含有代表选择性剪接、替代启动子使用和/或替代翻译起始产生的异构体的额外序列,导致接近34个000个人类蛋白质序列。约58个000个单氨基酸多态性(SAPS),主要是疾病相关的,也描述了69个000 PTMs。这种释放的UnPurkb/瑞士PROT还包括超过80个000脊椎动物蛋白,包括16个163小鼠蛋白。

UniProtKB /瑞士PROT完整粟酒裂殖酵母蛋白质组

最近对模型生物的蛋白质的注释努力导致整合到UnPotokB/瑞士PROT中的完整编码的蛋白质组中。美国庞贝第六个完全测序的真核生物十四这是第三个真核完全蛋白质组酿酒酵母和人)集成在UnPrimkB/瑞士PROT中。自UnPROT发布15.4以来,用户可以访问4958个序列验证的人工对照的蛋白质条目,包括到GeNedBySpObbe,裂变酵母群落数据库的链接。这个美国庞贝蛋白质组将不是一个静态的,但将被重新审视和更新,随着科学在这一领域的进步。

两个完整的集合的可用性酿酒酵母美国庞贝蛋白质和这两个物种在生命真菌树中的系统发育位置将有助于在许多其他生物体中识别和注释直系同源蛋白。

病毒蛋白质注释程序(VPAP)

从2004开始,病毒蛋白注释程序试图从病毒的代表性亚群提供病毒蛋白的详细审查。为了这个目的,我们专注于NCBI参考序列(ReFSEQ)上市菌株,这有利于双方都是完全测序和代表性的。

UnPotokB/瑞士PROT版本57.6包含14个233注释的病毒条目。病毒条目被创建或更新以描述蛋白质的功能和特性,如3D结构、功能域、宿主细胞中的定位或翻译后修饰。注释还包括有关感染周期或与宿主蛋白的相互作用的数据(例如细胞内机械、宿主细胞免疫、宿主进入受体),以及宿主生物体的精确描述,通常导致分类学更新。为了获得最新的注释,我们经常与病毒学家合作。特别强调的是公共卫生重要性的病毒,尤其是那些引起人类流行病的病原体。因此,我们从HIV、流感、非典、甲型肝炎、丙型肝炎、戊型肝炎、埃博拉病毒、杯状病毒、池坤衮亚病毒、登革病毒、溶血病毒和Rubella病毒中完全注释蛋白质。在2009,我们完成了轮状病毒、Epstein Barr病毒、Varicella带状疱疹病毒和单纯疱疹病毒的注释,并添加了一组H1N1猪流感2009爆发的代表性菌株。

盘基网柄菌注释程序

UniProt和DyTyBASE,模型生物数据库(MOD)盘基网柄菌已经建立了一个合作来改善数据共享。这项合作始于2008,通过共同组织的注释马拉松向前迈进了一大步。为期1周的马拉松导致注释成为UnPotokb/瑞士PROT超过1000。盘状藻蛋白质,加上大量基因符号、蛋白质名称和基因模型的更新(十五这种协作在2008年底建立的新注释程序中继续进行。程序的主要重点是注释。盘状藻已被鉴定的蛋白质或其基因模型已被DyType人工验证。它还将包括基因符号、蛋白质名称和基因模型更新的工作。

与其他数据库的集成

三种序列相关数据库(核酸序列、蛋白质序列和蛋白质三级结构)以及专门的数据集合之间的整合对于我们的用户来说是重要的。UnPoTrkB目前以1000万个链接交叉引用到114个不同的数据库,并具有定期更新周期。表1列出了去年新增的17个数据库。数据库交叉引用存储在DR(数据库引用)行中,并允许访问其他数据库中的相关信息。这种广泛的交叉引用网络允许UNIPRT作为生物分子数据库互连的焦点。所有交叉引用的数据库都记录在HTTP://www. UnPosi.Org/DoSs/dxxRef如果适当的话包含在UnPROT ID映射工具中HTTP://www. UnPosi.Org/Help/映射在FTP://FTP UnPoto.Org/Pub/DabaseS/UnPrPult/CurrnEnRelase/KealgBase/IDMAP中下载文件。

数据库名称数据库信息
贝吉基因表达进化数据库
CTD比较毒理基因组学数据库
凯茜糖类活性酶
基因卡基因卡:人类基因、蛋白质和疾病
IPI国际蛋白质指数
NEXBIO人类、小鼠、大鼠、蝇、蠕虫和酵母的NeXBIO基因中心数据
奥玛从全基因组数据鉴定直系同源物
路径交互作用NCI自然通路相互作用数据库
MpAPH-CutdBCutDB蛋白水解事件数据库
傲慢蛋白质组学鉴定数据库
弦乐String:功能蛋白质缔合网络
碲化镉运输分类数据库
UCSC加利福尼亚大学圣克鲁斯基因组浏览器
氙基爪蟾S和热带热带的生物学与基因组学资源
数据库名称数据库信息
贝吉基因表达进化数据库
CTD比较毒理基因组学数据库
凯茜糖类活性酶
基因卡基因卡:人类基因、蛋白质和疾病
IPI国际蛋白质指数
NEXBIO人类、小鼠、大鼠、蝇、蠕虫和酵母的NeXBIO基因中心数据
奥玛从全基因组数据鉴定直系同源物
路径交互作用NCI自然通路相互作用数据库
MpAPH-CutdBCutDB蛋白水解事件数据库
傲慢蛋白质组学鉴定数据库
弦乐String:功能蛋白质缔合网络
碲化镉运输分类数据库
UCSC加利福尼亚大学圣克鲁斯基因组浏览器
氙基爪蟾S和热带热带的生物学与基因组学资源
数据库名称数据库信息
贝吉基因表达进化数据库
CTD比较毒理基因组学数据库
凯茜糖类活性酶
基因卡基因卡:人类基因、蛋白质和疾病
IPI国际蛋白质指数
NEXBIO人类、小鼠、大鼠、蝇、蠕虫和酵母的NeXBIO基因中心数据
奥玛从全基因组数据鉴定直系同源物
路径交互作用NCI自然通路相互作用数据库
MpAPH-CutdBCutDB蛋白水解事件数据库
傲慢蛋白质组学鉴定数据库
弦乐String:功能蛋白质缔合网络
碲化镉运输分类数据库
UCSC加利福尼亚大学圣克鲁斯基因组浏览器
氙基爪蟾S和热带热带的生物学与基因组学资源
数据库名称数据库信息
贝吉基因表达进化数据库
CTD比较毒理基因组学数据库
凯茜糖类活性酶
基因卡基因卡:人类基因、蛋白质和疾病
IPI国际蛋白质指数
NEXBIO人类、小鼠、大鼠、蝇、蠕虫和酵母的NeXBIO基因中心数据
奥玛从全基因组数据鉴定直系同源物
路径交互作用NCI自然通路相互作用数据库
MpAPH-CutdBCutDB蛋白水解事件数据库
傲慢蛋白质组学鉴定数据库
弦乐String:功能蛋白质缔合网络
碲化镉运输分类数据库
UCSC加利福尼亚大学圣克鲁斯基因组浏览器
氙基爪蟾S和热带热带的生物学与基因组学资源

受控词汇

受控词汇表(CVS)http://www. UnPROT.org/DOCS/y词汇表用于描述各种UnPROT注释项目,如关键字、质粒或亚细胞位置。

质体控制词汇

在OG(细胞器)线上(在名称和来源部分)的分段上编码,HTTP://www. UnPosi.Org/Malual/EndodEdon on)质体使用的六个一般术语:

  • 叶绿体表明生物体是光合作用的。

  • “非光合作用质体”是指当生物体来自光合系,但遗传不能进行光合作用时,如某些寄生植物所发生的情况。紫茉莉Aneura紫茉莉)一种“绿色”藻类(螺旋孢子虫亚种)。琼斯蚋)和一个眼睑肌龙舌兰

  • 蓝藻是用于蓝藻藻类的质体。它在细胞膜周围有细胞壁的残留物。

  • ApCulpAST分别用于疟原虫、弓形虫和艾美耳球虫等非光合的Apoo复合体寄生虫的质体,分别引起疟疾、弓形虫病和球虫病。虽然质体残留物编码能力降低,但它对细胞存活至关重要,因此作为药物靶标是有趣的。

  • “细胞器色素体”用于膜阿米巴(Paulinella chromatophora)的质体,它具有非常大的内共生菌基因组(1 MB,编码几乎900种蛋白质)。

  • “质体”(没有任何限定物)用于一些寄生植物(主要来自菟丝子属),在很小的时候可以短暂地进行光合。

利用单途径构建代谢途径主题

生物体的新陈代谢可以理解为一种生化反应网络,通常由酶催化。处理这个网络作为一个整体是一项复杂的任务,而经典的方法是将其划分为更易管理的部分,称为路径。如何应用这种方法总是有点武断,取决于数据的最终用途。通常,在生物标准的基础上实现第一层次的分割。例如,可以通过考虑参与氨基酸生物合成的所有反应的子网络,或者更具体地,在L-赖氨酸生物合成中,或者甚至更具体地,通过AAA途径在L-赖氨酸生物合成中实现分裂。这导致了一系列粗到细的分裂(最粗的被称为“超级途径”)。

我们在UnPrand项目(一个与Irina和LeCA合作的项目)中遵循了这种经典的方法,并且尽可能地将这个第一级分割进一步细化为第二级分割,以便将路径分割成线性段(即没有分支的子网)称为“子路径”。这样的细粒度分割允许表示路径变异。事实上,取决于有机体(或一组有机体),从一种化合物到另一种化合物的化学路线可以以不同的方式进行。这是重要的,代表这些变化在相同的途径,因为UnPurkkb涵盖了大量的物种。此外,它提供了一种方便的方法来标记代谢反应的代谢反应,通过它们在子路径中的相对位置(“步骤”)来构成代谢途径。

蛋白质在新陈代谢中的作用被描述在“一般注释(注释)”部分的“途径”部分。句法是“超途径;通路;子路径:步骤N/M”

实例:

P4367酿酒酵母同型半胱氨酸酶(EC 4.2.1.36)催化2-羟基戊二酸二级途径L-α-氨基己二酸的二级转化(2-酮戊二酸转化为L-α-氨基己二酸的4个酶促反应),L-赖氨酸生物合成的一个组成部分

CC!途径:氨基酸生物合成;L-赖氨酸生物合成

2-羟戊二酸-L-α-氨基己二酸酯:步骤2/4。

Q980X0黑鳍小蜂乙酰谷氨酸/乙酰氨基己酸激酶(EC 2.7.2.8和EC 2.7.2.-)催化两个独立的途径所涉及的两个反应。

CC!途径:氨基酸生物合成;L-精氨酸生物合成;N-

来自L-谷氨酸的CCα-乙酰-L-鸟氨酸:步骤2/4。

CC!途径:氨基酸生物合成;L-赖氨酸生物合成

Cα途径;L-α-氨基己二酸L-赖氨酸

CC×2/5。

UnPROT网站提供直接链接到UniPathway(HTPp//www. GrNeBouel.Prab.Fr/ObIsWestHouth/UnPr通路),它提供了关于通路、子路径和生化反应的更详细的信息。通过利用UnPurkb/Survivor丰富,单途径能够提供几个角度来理解新陈代谢:蛋白质的观点,基因组的观点和分类学的观点。化学的观点是基于KEGG配体化合物和与KANEHESA实验室允许的反应。十六

UnPosikB/瑞士PROT 57.6包含105个000个不同的蛋白质(155个000路径注释),用单通路受控词汇注释。

UniProt的酶命名

EC编号用于描述酶反应,并基于国际生物化学与分子生物学联合会命名委员会(IUBMB)的建议。不幸的是,并不是所有已知的酶反应都有EC编号分配。直到最近,这些反应被分配所谓的部分EC数,其中部分数字被破折号取代(例如EC 3.4.24.-)。当蛋白质的催化活性确切地不知道,或者当蛋白质催化已知但尚未包含在IUBMB EC列表中的反应时,使用部分EC数。为了区分这两个含义,我们已经开始使用字母“n”,而不是一个具有已知催化活性的酶的序列号。序列号被包括以确保每个初步EC号是唯一的。

实例:

该蛋白的催化活性尚不清楚:

Q9ACV5DE亚当17类似蛋白酶前体(EC 3.4.24.-)。

催化反应是已知的,但尚未包含在IUBMB的EC列表中:

Q01468去甲氧基顺丁烯二酸互变异构酶(EC 5.3.2.N1)(4-OT)。

初步EC数用于UNPROTKB/瑞士PROT,也包括在酶数据库中。因此,它们可以通过与酶数据库相同的通道,即酶位点获得。HTTP//www. ExpasyOrg/EngyMe/)和从我们的FTP服务器。

UnPurkb附加蛋白质书目信息

UniProt致力于提供全面的文献引用,其中基于UnPurkb蛋白注释。目前,有228个000个不同的PubMed引用与420万个UnPurkkb序列相关,67%个引用在UnPurkb/Surb PROT中。数据库,如Entrez Gene和MODS(例如,DyTyBasic,SGD,和MGI)也提供精明的文献信息,反映了他们的优先事项和重点。我们现在已经整合了来自11个外部基因或蛋白质数据库的文献注释,包括Entrez Gene的GNIF。HTTP://www. NcB.nLM.NIH.GOV/项目/泛型(PDB)HTTP://www. rCSB.Org/PDB)和9个MODS:SGD(HTTP//www.MGI)HTTP//www.(GAD)(DigyBasic)HTTP://www. DigyBase.OrgZFIN)HTTP://www. Zim.OrgWormBase)HTTP://www. WoMbase.OrgTAIR)HTTP://www. abordopsisi.OrgRGD(RGD,MCW,EDU)和FlyBase(HTTP://www. FielBase.Org这11个外部来源贡献了350个000个独特的PubMed引用在UniProtKB尚未被注释,覆盖了188个000 UnPurkkb条目。额外的书目与UnPROT网站上的蛋白质入口视图直接链接。我们继续识别更多的书目信息来源,以加强UnPurkb书目,并允许科学用户更好地探索现有的知识,他们的蛋白质的兴趣。

数据库访问与反馈

这个HTTP://www. UnPosi.Org网站十七是我们的数据和文档的主要访问点,以及工具,如全文和基于字段的文本搜索、序列相似性搜索、多序列比对、批检索和数据库标识符映射。这些工具可以通过在每个页面顶部出现的工具栏直接访问。大多数数据(包括文档和帮助)可以通过全文搜索来搜索,这允许不需要事先知道我们的数据或搜索语法的搜索。结果按相关性排序,并且在可能的情况下,提供建议以帮助细化产生太多或没有结果的搜索。基于字段的文本搜索支持更复杂的查询。这些可以用工具栏、查询生成器迭代地构建,或者在查询字段中手动输入,这可以更快更强大。HTTP://www. UnPosi.Org/Help/TeXT搜索通过自动完成辅助本体项搜索,也提供了使用本体浏览搜索结果的可能性。查看结果集以及数据库条目是可配置的。该网站有一个简单而一致的URL方案,所有的搜索都可以被标记为在以后重复。主页以一个网站介绍为新手用户快速介绍。响应于用户对各种可下载数据集的请求(例如,在FASTA格式中的所有已审查的人类条目),我们通过直接查询网站来删除所有下载限制,以允许该功能。然而,为了确保它们不干扰交互式查询,大的下载被给予较低的优先级,因此相比于UnPROT FTP服务器的下载,它们可以是慢的。因此,我们建议下载完整的数据集从FTPUnPr.Org/Pub/数据库。该网站提供各种下载格式,这些格式取决于所选择的数据集(例如,纯文本、XML、RDF、FASTA、UFPROKB的GFF)。结果表的列可以配置为以制表符分隔或Excel格式进行自定义下载。RDF中的所有数据都可用(HTTP://www. W3.Org/RDF/一个W3C标准,用于发布语义Web上的数据。所有搜索结果都可以作为RSS源检索,以与诸如新闻订阅阅读器或雅虎管道之类的外部工具集成。通过简单的HTTP(REST)请求对数据和搜索结果进行编程访问是可能的(HTTP://www. UnPosi.Org/Help /技术Java应用程序也可以利用我们的Java API(UnPurPutiPi)(十八

我们一直在努力提高我们的数据库和服务的准确性和代表性,因此,认为你的反馈极其宝贵。如果您有任何问题,请与我们联系。HTTP://www. UnPosi.Org/联系人或者直接发邮件给我们Help @ UnPr.Pr.ORG. 页面HTTP://www. UnPosi.Org/Help /提交提供有关数据提交和更新的信息。您还可以订阅电子邮件警报(HTTP://www. UnPosi.Org/Help / Alcts有关UNIPRT数据库的最新信息。关于如何充分利用我们的资源的广泛文献可供参考。HTTP://www. UnPosi.Org/Help/. UnPROT可免费用于商业和非商业用途。请看HTTP://www. UnPosi.Org/Help /许可证详情。除了UNIMES之外,每3周发布新版本,Unimes仅在基础源数据更新时才更新。每个版本都有统计数据。HTTP://www. UnPosi.Org.

致谢

UniProt已准备了:Rolf Apweiler、Maria Jesus Martin、克莱尔、Yasmin Alam Faruque、Ricardo Antunes、Ricardo Antunes、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、YGwennaelle Delbard,Mikael Doche,Dolnide Dornevil,Paula Duek Roggli,Severine Duvaud,Anne Estreicher,Livia Famiglietti,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Y,Lina Yip和Luiz Zuletta在瑞士生物信息学研究所(SIB)和日内瓦大学生物化学与结构生物学系;Cathy Wu、Cecilia Arighi、Leslie Arminski、Winona Barker、楚明晨、So、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y、Y和Sin在蛋白质信息资源(PIR)上。

资金

UnPROT主要由国家人类基因组研究所奖号U01HG02212支持。内容仅是作者的责任,并不一定代表国家人类基因组研究所或国立卫生研究院(NIH)的官方观点。EBI参与UniProt的额外支持来自欧盟委员会SLand Grand(226073)和NIH Grand(2P41HG02263-07)。在瑞士联邦政府通过联邦教育和科学办公室和欧洲委员会合同吊索(226073)支持Sub PrutkB/瑞士PROT活动。PIR活动也由NHH赠款和合同在HHSN266200、0611C、NCI CABIG和5R01GM08064 6 04和国防部授予W81XWH0720112支持。开放存取费用的资助:欧洲生物信息学研究所。

利益冲突陈述. 没有声明。

推荐信

1。
莱诺宁
R
迪兹
光纤光栅
宾斯
D
弗莱什曼
W
洛佩兹
R
阿普维勒
R
.
UniProt档案馆
.
生物信息学
()
二千零九
二十
三千二百三十六
-
三千二百三十七
.
2。
维瑟
D
克雷奇曼
e
阿普维勒
R
.
过滤错误蛋白质注释
.
生物信息学
()
二千零四
二十
I32
-
I370
.
三。
盖蒂克
米休德
K
里瓦尔
C
奥金克洛斯
库德特
e
利马
T
克西
帕尼
西格里斯特
CJ
拉雪兹
C
等。
SWIS-PROT微生物蛋白质组的自动标注
.
计算机。Bio.化学。
()
二千零三
二十七
四十九
-
五十八
.
4。
弗莱什曼
W
莫勒
S
盖图
阿普维勒
R
.
蛋白质自动功能注释的一种新方法
.
生物信息学
()
一千九百九十九
十五
二百二十八
-
二百三十三
.
5。
中国
尼古拉斯卡亚
H
LS
纳塔尔
DA
象头神
ZZ
马祖德
R
古玛
S
库尔西斯
等。
蛋白质信息资源的家庭分类系统
.
核酸研究
()
二千零四
三十二
D112
-
D114
.
6。
纳塔尔
DA
象头神
中国
.
基于大规模、分类驱动、规则的蛋白质功能注释
. 进入
遗传学、基因组学、蛋白质组学和生物信息学百科全书。生物信息学卷
-
苏布拉马尼亚姆
S
,ED。
二千零四
英国西萨塞克斯
约翰威利父子公司
7。
科克伦
G
阿克塔尔
R
博菲尔德
J
凉亭
L
德米拉尔普
f
法鲁克
N
吉普森
R
霍德
G
哈伯德
T
猎人
C
等。
在欧洲核苷酸档案中PB的规模创新
.
核酸研究
()
二千零九
三十七
D19
-
D25
.
8。
斯瓦布雷克
D
威尔克斯
C
拉梅什
贝拉尔迪尼
加西亚埃尔南德斯
福斯特
H
D
迈耶
T
米勒
R
普勒茨
L
等。
拟南芥信息资源(TIIR):基因结构与功能注释
.
核酸研究
()
二千零八
三十六
D1009
-
D1014
.
9。
商行
埃尔
巴拉克克里斯南
R
Q
克里斯蒂
公园
J
宾克利
G
科斯坦索
国会议员
德怀特
SS
恩格尔
菲斯克
动态心电图
等。
SGD的本体注释:新的数据源和注释方法
.
核酸研究
()
二千零八
三十六
D57
-
D5861
.
10。
弗里切克
阿肯
BL
比尔
K
巴莱斯特
卡卡莫
Y
克拉克
L
科茨
G
坎宁安
f
切块
T
等。
集合2008
.
核酸研究
()
二千零八
三十六
D707
-
D714
.
11。
苏泽克
H
麦加维
马祖德
R
中国
.
UniRef:综合和非冗余的UNIPRT参考簇
.
生物信息学
()
二千零七
二十三
一千二百八十二
-
一千二百八十八
.
12。
延森
LJ
库恩
完全的
沙夫龙
S
克里维
C
米勒
J
德克斯
T
朱利安
罗斯
西蒙诺维奇
等。
String 8——630种生物体中蛋白质及其功能相互作用的整体观点
.
核酸研究
()
二千零九
三十七
D412
-
D416
.
13。
普鲁伊特
KD
J
哈特
沃林
C
迪克汉斯
马格洛特
博士
塞尔
S
法瑞尔
厘米
洛夫兰
JE
吕夫
北京
等。
一致性编码序列(CCDS)项目:为人类和小鼠基因组识别共同的蛋白质编码基因集
.
基因组研究
()
二千零九
十九
一千三百一十六
-
一千三百二十三
.
14。
木材
V
格威廉
R
拉贾德兰
妈妈
林恩
马来酸酐
林恩
R
斯图尔特
斯古罗斯
JG
泥炭
N
海尔斯
J
面包师
SG
等。
Schizosaccharomyces pombe基因组序列
.
自然
()
二千零二
四百一十五
八百七十一
-
八百八十
.
15。
高德特
车道
L
费伊
S
奥金克洛斯
阿克塞尔森
K
克劳尼尼昆塔耶
S
布泰
e
棕色
等。
UnPurkb/Surr-脯氨酸和DyTyb基因和蛋白质的协同注释
.
数据库
()
二千零九
DOI:101093/Dabase/BAP013。
16。
卡内希亚
荒木经惟
古托
S
服部
平川市
伊藤
片山
T
川岛
S
奥田
S
时松
T
等。
用于连接基因组与生命和环境的KEGG
.
核酸研究
()
二千零八
三十六
D480
-
D44
.
17。
耆那教
e
贝罗奇
杜沃
S
I
雷德斯奇
N
苏泽克
马丁
兆焦耳
麦加维
加斯泰格尔
e
.
生命科学的基础设施:UnPROT网站的设计与实现
.
BMC生物信息学
()
二千零九
一百三十六
.
18。
病人
S
维瑟
D
克伦
克雷奇曼
e
马丁
兆焦耳
阿普维勒
R
.
一个用于访问UniProt数据的远程API
.
生物信息学
()
二千零八
二十四
一千三百二十一
-
一千三百二十二
.

作者注

γUnPROT联盟的成员在确认中给出。
这是一个开放性的文章,按照“创意共享”归属非商业许可的条款分发。HTTP//CopyVIEMMONS.Org/LeaveSe/BNC/2.0/UK/这允许在任何媒介中不受限制地非商业用途、分发和复制,只要适当引用原始作品。

评论

0评论
提交评论
您输入了一个无效代码
谢谢你对这篇文章发表评论。你的评论将被审阅并发表在杂志上。请通过电子邮件检查进一步的通知。