国际蛋白质命名指南

任务说明

这些指南由欧洲生物信息学研究所（EMBL-EBI）、国家生物技术信息中心（NCBI），蛋白质信息资源（PIR）和瑞士生物信息研究所（SIB）联合编制和旨在供任何想要命名蛋白质的人使用，以促进跨数据库的蛋白质命名的一致性，这有助于数据检索和改进通信。

1.简介

一致的蛋白质命名对于交流、文献检索和条目检索是必不可少的。一个好的蛋白质名称是一个独特、明确的名称，可以归因于其他物种的直系同源物，并且在适用的情况下遵循官方的基因命名法。将名称与蛋白质序列相关联的过程有多个组成部分：序列功能识别/预测、选择名称和应用格式。本文档提供了有关命名选择和通用格式的指南。这不包括用于序列功能识别/预测的方法的最佳实践。

2.蛋白质名称的格式

A.语言

使用美国拼写，而不是英国拼写

示例：
- 非特征化蛋白质不非特征性蛋白质
- 血红蛋白不血红蛋白
使用以“in”结尾的蛋白质名称（而不是“ine”）

示例：莫罗卡辛不莫罗卡辛
避免使用变音符号，如重音符号、变音符号等。

示例：蛋白质喷溅5不蛋白spätzle 5
避免基于域和重复内容的名称的复数形式

示例：锚蛋白重复序列蛋白不含锚蛋白重复序列的蛋白质
避免常用词

避免用普通单词命名蛋白质，这会使查询变得困难，例如避免使用“蛋白质冲击”等名称。
避免重复

检查新发现蛋白质的建议名称是否已用于其他蛋白质。

B.缩写和符号

避免使用缩写作为全名

示例：酰基载体蛋白不ACP公司
缩写可以是蛋白质名称的一部分

示例：（3R）-羟基肉豆蔻酰-ACP脱水酶

请参阅下面的标准科学缩写列表。
基于蛋白质符号（PS）或基因符号（GS）的蛋白质名称

蛋白质和基因符号应使用相同的缩写。一些基因和蛋白质符号很容易被某些研究社区的数据库用户识别，可以用作蛋白质名称的一部分，以提供规范并帮助数据检索。

原核生物符号指南
- 蛋白质符号最常用于原核生物蛋白质名称与功能蛋白质名称的组合。
- 蛋白质符号的第一个字母是原核生物的大写字母，例如RecA。
- 在没有功能蛋白质名称的罕见情况下，可以使用“蛋白质<PS>”格式，而不是“<PS>蛋白质”格式。
示例：重组酶RecA

真核生物符号指南
- 基因符号通常用于真核生物蛋白质名称和功能蛋白质名称的组合。
- 生物群落中基因符号的大写惯例不同，这反映在作为真核生物蛋白质名称一部分的基因符号的外壳中。对于脊椎动物，在蛋白质名称中使用全大写的基因符号。对于非脊椎动物真核生物，遵循相关物种的基因外壳惯例。
- 在保守基因的情况下，如果物种中没有已知的基因符号，则可以使用来自最初定义该符号的物种的已知同源基因符号。
- 在没有功能蛋白质名称的罕见情况下，可以使用“蛋白质<GS>”格式，而不是“<GS>蛋白质”格式。
  
  示例：
  - 人类：酪氨酸蛋白激酶ABL1
  - 鼠标：酪氨酸蛋白激酶ABL1
  - 线虫:酪氨酸蛋白激酶abl-1
  - D.黑食肉动物:酪氨酸蛋白激酶
  - 面包酵母:重组酶RAD51
  - 波贝链球菌：重组酶rad51
素数符号（'）
- 用于指示基质上的裂解位置，并用相同的符号区分不同的亚基。
- 使用单引号字符（而不是反勾号）作为主符号。
  
  示例：
  - H（+）-转运V0扇区ATP酶亚基c'
  - 5'-核苷酸酶不5-引物核苷酸酶
  - 互变异构体亚基β'不互变异构体β-质体亚基
化学符号可能是蛋白质名称的一部分
- 对于具有单一化合价类型的元素，请使用未指明化合价的完整元素名称。
- 对于具有可变化合价类型的元素，使用元素的化学符号，后跟括号中的化合价。
  
  示例：
  - 钠/锂输出P型ATP酶不Na（+）/Li（+）-输出P型ATP酶
  - 镁运输车不Mg（2+）转运蛋白
  - Fe（3+）/Cu（2+）-螯合还原酶不铁/铜相关还原酶或者不是Fe（III）/Cu（II）-螯合还原酶
标准的科学缩写可能是蛋白质名称的一部分
- 脱氧核糖核酸：DNA、cDNA、dsDNA、ssDNA
- 核糖核酸：dsRNA，mRNA，miRNA，piRNA，siRNA，snRNA，snoRNA，ssRNA，tRNA，tmRNA，rRNA
- 单、二、三核苷酸磷酸盐：dAMP、dCMP、dGMP、dTMP、dADP、dCDP、dGDP、dTDP、dATP、dCTP、dGTP、dTTP
- 辅因子：FAD、FMN、NAD、NADP
- 告知结构（例如ABC、MFS、RND、MATE、SMR）而非基底（例如。不MDR）
示例：rRNA甲基转移酶不核糖体RNA甲基转移酶

C.标点符号

斜线
- 不要使用反斜杠：“\”。
- 为了分隔多个域或函数，可以使用正斜杠“/”或单词“and”。
示例：
- 腺苷酸转移酶/ADP-庚糖合成酶环水解酶不腺苷酸转移酶\ ADP-庚糖合成酶环水解酶
- WD重复序列和FYVE结构域蛋白3不WD-repeat\FYVE结构域蛋白3
连字符
- 复合形容词：连字符应该用来构成复合修饰语（即两个或多个单词充当名词的单个修饰语）
  
  示例：
  - Ras GTPase激活蛋白不Ras GTPase激活蛋白
  - 分泌素结合蛋白不分泌素结合蛋白
  - 焦磷酸依赖性磷酸果糖激酶不焦磷酸依赖性磷酸果糖激酶
- 常见修饰语示例：激活、激活、适应、添加、扩增、锚固、锚定、对抗、关联、关联、吸引、绑定、阻塞、绑定、分支、桥接、捆绑、加盖、补充、浓缩、共轭、包含、控制、转换、耦合、耦合、去盖、降解、依赖、解聚，去压制、衍生、衍生、破坏稳定、对接、编辑、增强、增强、浓缩、暴露、侧翼、形成、门控、抓取、收获、独立、诱导、诱导、抑制、不敏感、相互作用、铺设、类似、链接、代谢、修饰、调制、聚合、增强，预防、处理、促进、识别、招募、招募、调节、调节、关联、释放、释放、重塑、移除、抑制、要求、要求、抵抗、响应、丰富、成熟、支架、传感、敏感、信号、特异、拼接、扩散、稳定、稳定、堆积、刺激、，刺激、组织、硫酸化、镇压、贩运、转化、转化、运输
- 多个域/在一个名称中重复：如果有多个域/重复，则只对“包含”之前的最后一项使用连字符，即使这违反了传统语法。
  
  示例：锚蛋白重复序列和SAM域蛋白6不锚蛋白重复序列和SAM结构域蛋白6
避免撇号、句点、逗号和其他不需要的标点符号
- 从名称中删除尾随句点。
- 避免使用逗号，除非其用法是公认的化学名称的一部分。
  
  示例：SGT2家族TPR域蛋白不TPR重复蛋白，SGT2家族
  
  例外例如：3-羟基-16-甲氧基-2,3-二氢曲松碱N-甲基转移酶
- 避免使用分号“；”或冒号“：”，除非它是酶名称的一部分。
  
  例子:Ⅰ型角质角蛋白Ha8不角蛋白，Ⅰ型角质层Ha8；头发角蛋白，Ⅱ型Ha8；角蛋白-38；K38
  
  例外示例：磷脂：二酰甘油酰基转移酶
- 避免使用百分号“%”
- 避开at符号“@”
- 避免等号“=”
示例：鸟嘌呤核苷酸结合蛋白G（t）亚单位α-3不gustducin:SUBUNIT=alpha
避免自动更正蛋白质名称
- 数据提交者不应让Microsoft Excel、Word、Outlook或任何其他具有格式插值和拼写自动更正功能的实用程序接触任何蛋白质名称，尤其是带有引号和双连字符的蛋白质名称。

D.符号

使用阿拉伯数字而不是罗马数字

除非罗马数字是广泛接受的正式命名法，如“RNA聚合酶II”，否则使用阿拉伯数字表示符号（例如1、2、3等）

示例：caveolin-2不小窝蛋白-II

例外示例：DNA导向RNA聚合酶II核心亚单位RPB2
指定由多基因家族编码的不同成员

使用阿拉伯数字指定由多基因家族编码的不同成员。如果蛋白质/基因家族成员的符号系统之前已经发布，则不要发明新的数字。

E.样式和格式

资本化

除首字母缩写或专有名词外，请使用小写。

示例：
- 蛋白酶体核心颗粒亚基β5不蛋白酶体核心颗粒亚基BETA 5
- 烯醇化酶不ENOLASE公司
希腊字母
- 当表示一系列蛋白质中的一种，如“alpha”、“beta”、“gamma”时，希腊字母应全部用小写。
- 在类固醇/脂肪酸代谢命名法中，“Delta”应以大写字母开头。
名称中“蛋白质”一词的用法
- 在不必要的情况下避免使用，特别是当名称中包含“因子”、“酶”、“抑制剂”或“调节器”等术语时。
- 酶的名称通常以“ase”结尾（氨酰化酶、精氨酸酶等）。不要在酶名称后附加“蛋白质”一词。
  
  示例：
  - Fe（3+）吸收调节器不Fe（3+）摄取调节蛋白
  - 核糖核酸酶不核糖核酸酶蛋白
名称中“酶”一词的用法

酶的名称通常以“ase”（互变异构酶、磷酸转移酶等）结尾。不要在酶名称后面加上“酶”一词。
基于途径的蛋白质名称

使用以下格式：“<Pathway>合成蛋白<GS>”

示例：
- 硫胺合成蛋白ThiC
- 叶酸合成蛋白FOL1不三功能二氢蝶呤合成酶/二氢羟甲基蝶呤焦磷酸激酶/二氢新喋呤醛缩酶FOL1
转移酶

转移酶通常用双连字符（--）分隔源和目标底物。

示例：甲酰甲烷呋喃--四氢甲烷蝶呤甲酰转移酶
tRNA-充电酶

使用这种格式：<氨基酸被附加>--tRNA（tRNA类型使用首字母大写的三位氨基酸代码）连接酶。

示例：酪氨酸-tRNA（Tyr）连接酶
要避免的标识符类型

COG ID、EC编号、FOG ID、GO术语、集群标识符。稳定的位点标签和稳定的HMM标识符只能在指向蛋白质家族的特殊情况下使用，这可以通过蛋白质名称中的限定词（例如“家族蛋白质”或“含域蛋白质”）来明确。它们不应用于命名低拷贝保守蛋白。基于基因座标签的蛋白质名称（例如MA_1614）永远不能通过同源性转移，即使转移到相同的蛋白质上，因为基因座标签指示一个特定基因组中的位置。不鼓励在蛋白质名称中使用基因座标签，因为简单的注释方法很容易做出过于具体（因而不正确）的断言。一个例外是结合使用基因座标签和“家族”限定词，其中基因座标签在文献中经常使用，来自INSDC中的注释，并且经常用于比较分析，因此有必要区分那些否则会收到信息不足的名称的蛋白质，例如“BB3110系列汽车运输车”。基于隐马尔可夫模型（HMM）标识符的名称同样可以用于提高清晰度。这些也必须用术语“家族蛋白”或“域蛋白”来限定。关于功能未知的新蛋白质，请参见第3B节。
在名字中避免出现王国、属或种的特定特征
- 避免表达、丰富信息、疾病、表型和解剖相关信息。
- 避开细胞、亚细胞和环境位置。位置信息并非总是可以在所有生物体之间传递，应保守应用。
- 避免分子量，核糖体蛋白质和公认的历史名称除外，例如肌球蛋白、网格蛋白、达因。
  
  例外示例：-真核生物：60S核糖体蛋白亚基L19B-原核生物：50S核糖体蛋白亚基L1-肌球蛋白重链1-避免引用基因的染色体或细胞遗传学位置示例：甲基胞嘧啶加氧酶TET1不 十级易位-1
- 避免locus_tag标识符。
- 避免“受监管”、“监管”等监管内容。
- 避免使用物种/属/原产国或同源物种的生物名称或缩写。一个例外是形容词生物名称，在极少数情况下，它会使名称更具描述性，不那么笼统。
  
  例外示例：含有葡萄球菌核酸酶结构域的蛋白1

F.单词用法

避免连接单词和短语
- 避免使用以下链接词：for、or（如name1或name2）、of、to、with。
例子:双组分系统传感器组氨酸激酶不双组分组氨酸激酶传感器
- 避免使用以下链接短语：也称为，with。
其他要避免的短语
- 细胞表面、细胞表面蛋白、保守假设、假设保守、识别、身份、参与、牵连、蛋白质域蛋白、功能未知的蛋白质、蛋白质假设、蛋白质蛋白质、蛋白质推定、推定、可疑蛋白质、与信号肽蛋白相关、类似、，表面抗原、表面蛋白、未知蛋白、真实点突变、低质量蛋白、C项（最终）、N项（最终
应避免的条款
- 抗原、CDS、保守、细胞质、缺失、可疑、表达、片段、移码、移码，基因组、同源物（除非系统发育决定）、中断、KDa、K Da、可能、位点、locus_tag、novel、ORF、部分、可能、潜在、预测、可能、伪基因、分泌、强、截断（ed）、under、unique、，未命名，WGS，X射线，X射线
- 不鼓励将蛋白质命名为抗原，但可能会有罕见的例外，以匹配广泛的社区/出版物使用。
  
  例外例子：细胞肿瘤抗原p53
- 请注意，在某些情况下，可以使用术语“推定”——参见第3B节中的主题“功能未知的新型蛋白质”。

3.选择蛋白质名称

A.蛋白质名称注释的来源

蛋白质名称最好由专家来源、文献、HMM和其他蛋白质特征和/或结构域的证据支持。NCBI-RefSeq和UniProt旨在存储和公开报告精选记录的名称源信息，其中可能包括专家数据库名称、科学家个人姓名、PubMed ID、HMM ID和精选域架构。目前蛋白质命名来源的排名是：a）专家来源>b）实验报告>c）HMM和其他特征>d）域结构。请注意，BLAST结果、FASTA标题和数据库记录中的定义行可能包含诸如生物体名称和其他不应包含在蛋白质名称中的信息。请注意，下面列出的功能蛋白质注释的来源不一定符合所有国际蛋白质命名指南。特别是，资源可能无法追溯更新旧数据。

a）具体和确定名称的专家来源可能包括：

特定于物种的命名机构

建立并维护数据库权限，如物种专用命名机构（以下列出了一些：http://www.uniprot.org/docs/nomlist网站).
避免使用与表型、解剖特征或任何特定分类特征相关的物种特定权威机构的名称。在这些情况下，将广泛认可的基因符号与功能名称而不是表型名称结合使用。例如，“微小染色体维持复合物成分7”不适用于没有微小染色体的生物体，因此为了避免转移这样的蛋白质名称，请使用基因符号MCM7和功能名称组合。

示例：DNA复制许可因子MCM7不微小染色体维持复合物组分7

酶委员会（EC）提供的酶名称

当首选名称具体准确地反映了蛋白质的主要功能时，强烈倾向于使用首选名称，而EC名称既不太笼统也不太具体，不适用于一组蛋白质。
相反，专家馆长可以在某些情况下覆盖EC名称，例如当名称不是酶的主要功能时，或者如果首选EC名称以括号中的限定符结尾，或者包含两组或多组括号/括号，则他们可以选择另一个EC名称。

示例：
- ABC转运蛋白ATP-结合蛋白不ATP酶
- NADP依赖性异柠檬酸脱氢酶IDP3 而不是 异柠檬酸盐 脱氢酶（NADP（+））IDP3
- 磷酸核糖基甲酰胺-5-氨基咪唑甲酰胺核苷异构酶 而不是 1-（5-磷酸核糖基）-5-（（5-磷酸核酰氨基）亚甲基氨基）咪唑-4-甲酰胺异构酶
保留用于转移酶和连接酶的双连字符“-”。

示例：甲酰甲烷呋喃--四氢甲烷蝶呤甲酰转移酶
对去除或转移磷酸基团的酶使用以下格式：“<修饰残基>-蛋白质<活性>”。

示例：酪氨酸蛋白磷酸酶

UniProtKB/Swiss-Prot公司

UniProtKB/Swiss-Prot直系或副系蛋白质的名称，前提是它符合本文件中的指南。

其他

专门研究蛋白质家族的科学家个人。

b）实验报告

一篇描述蛋白质功能的论文中的最新文献支持的名称可能是最具体、最明确的名称（根据需要进行格式改进）。文献可能会提供名称随时间变化的历史。
较旧的通用名称或与生物系统相关的名称，首选较新的功能特定名称。

c） HMM和其他签名

等价物是保留了共同祖先特定功能的同源物，无论每个蛋白质的进化路径如何。这与直系同源物（仅来自物种形成事件的同源物）、副同源物（来自复制事件的同源体）和外来物（来自横向转移事件的同源）的定义形成了对比，所有这些都没有关于功能的断言。
等价型HMM是指断言其成员蛋白共享特定功能，并为基因组注释期间使用的自动管道提供描述性蛋白质名称和其他属性的任何HMM。
大多数TIGRFAM模型被指定为等价物，这意味着它们为来自共同祖先序列的功能保守的蛋白质指定了一个特定的名称。

等效类型名称与通用名称的对比示例（参见UniProtKB/SwissProt记录P0A288型)：肽链释放因子1与PCRF结构域蛋白
要将名称应用于与等效类型HMM命名的蛋白质相关的蛋白质，请使用XXX-like蛋白质或XXX家族蛋白质。这些同义词具有关联性，尽管与XXX有明显的序列相似性，但它可能与XXX具有相同的角色和功能，因此它可能是XXX本身或相关事物。另请参阅第3B节关于功能未知的新蛋白质的“假定XXX”的用法。

示例：TIGR03077家族蛋白质的甘氨酸裂解蛋白H样蛋白。这些蛋白不是真正的甘氨酸裂解蛋白H，属于TIGR00528家族。

d）配置文件和域体系结构

结构域结构被定义为蛋白质序列中保守结构域的序列顺序。在某些情况下，结构由覆盖蛋白质全长的单个结构域组成。域结构名称通常比等效类型的HMM名称更通用，但提供了额外的蛋白质命名证据。基于多域结构的蛋白质名称比仅基于域内容的蛋白质名称信息更丰富。

示例：PAS域传感器组氨酸激酶（基于多域体系结构）。
蛋白质名称可以基于一个不包含全长蛋白质的单一结构域，并且可能与多种结构相关联。

示例：含有PAS结构域的蛋白质（概述）
解析域名时要小心。从域或配置文件中自动提取名称可能会导致无信息，例如Pfam加入PF00083、Sugar_tr，这会产生一种称为“Sugar”的蛋白质产品。

B.特定案例的命名程序

多功能蛋白质
- 多功能蛋白质可以催化多种酶反应，例如同时具有差向异构酶和激酶活性的人类蛋白GNE，或者它们可能参与不同的功能，例如拟南芥蛋白ENO2它作为一种烯醇化酶，也参与转录调控。
- 无需列出所有功能。
- 如果没有其他名称适用，则可以将单词双功能或多功能与功能名称结合使用。
- 使用双函数时，请根据序列中域的顺序列出函数，并用正斜杠将它们分隔开。
- 在极少数情况下，当没有其他名称适用时，具有两种以上功能的酶可以使用以下格式：“多功能蛋白质<GS>”。
  
  示例：
  - 双功能腺苷酸转移酶/ADP-庚糖合成酶环水解酶
  - 脂肪酸氧化复合物α亚基不多功能烯醇-CoA水合酶/3-羟基丁酰基-CoA差向异构酶/3-羟酰-CoA脱氢酶
  - 多功能脯氨酸降解蛋白PutA不多功能DNA结合转录阻遏物/脯氨酸脱氢酶/1-吡咯烷-5-羧酸脱氢酶
基于蛋白质复合体隶属度的蛋白质命名
- 已知组成的定义明确的多亚单位复合体的蛋白质复合体成员可以根据复合体后跟特定亚单位名称来命名。
- 蛋白质复合物的成员使用“亚单位”，而不是“链”或“成分”。例外情况是历史上只使用“链”的情况，例如肌球蛋白、网格蛋白、强啡肽。
  
  例外示例：肌球蛋白重链1
- 如果亚基的“类型”已知，那么“类型”首先出现在“类型”可以催化、ATP-结合、调节等的地方。
  
  例子： 26S蛋白酶体非ATP酶调节亚单位1
- 如果一个亚单位有一个指示符，那么它跟在术语“亚单位”之后，例如亚单位1、亚单位a、亚单位AbcD、亚单位α。首选的指示符用法是：数字>字母>基因符号>希腊字母。
  
  示例：F1Fo ATP合成酶亚单位α不F1Fo ATP合成酶α亚单位
- 缩写可能是蛋白质复合体名称的一部分。
  
  示例：（3R）-羟基肉豆蔻酰-ACP脱水酶
- 尽可能避免使用“大型子单元”或“小型子单元”，但历史悠久的名称除外。
  
  例外示例：2,3-二酮-L-葡萄糖酸TRAP转运蛋白大通透性
非活性蛋白质
- 非活性蛋白质不指假基因。蛋白质的非活性版本是指具有改变的催化残基或无法进行自动催化裂解，从而导致预期活性丧失的蛋白质。在这种情况下，在蛋白质名称中保留“inactive”的用法。
示例：非活性谷胱甘肽水解酶2
功能未知的新型蛋白质

在没有可用的功能信息的情况下，可以使用以下任何方法来命名蛋白质。
- 其中观察到与各种结构相关的结构域、重复序列或基序：使用“xxx domain-containing protein”格式，但避免根据BLAST搜索转移“xxx domain-conting-protein”名称。使用蛋白质特征搜索代替。
  
  示例：PAS结构域蛋白
- 其中观察到与定义的蛋白质家族的序列相似性：避免断言家庭的功能。使用通用名称，如“XXXX家族蛋白”。被命名为“XXX家族蛋白”的蛋白质可能是XXX本身或相关的东西。名称“XXX家族蛋白”可能被认为是一个非特定的临时名称，当有更具体的注释可用时将被替换。
  
  示例：黄曲霉毒素家族蛋白
- 其中已知家族蛋白具有预测活性：一般来说，应避免使用“推定”一词。在这种特殊情况下，在活动前加上“假定”，而不是整个蛋白质名称。术语“推定”应位于其所指活动之前。当“XXX”被认为是最可能的预测时，应使用“推定XXX”，但用于执行注释的推理带有足够的疑问，即免责声明是有用的。该术语不应以自动化的方式简单地表示“与XXX具有低得分同源性的蛋白质”。
  
  示例：
  - 自由基SAM家族推测肽成熟酶不推测的自由基SAM家族肽成熟酶或者不是推测的SAM家族多肽成熟酶
  - 假定乙酰鸟氨酸脱乙酰酶不预测乙酰鸟氨酸脱乙酰酶不可能的乙酰鸟氨酸脱乙酰酶不可能的乙酰鸟氨酸脱乙酰酶不潜在乙酰鸟氨酸脱乙酰酶不假想乙酰鸟氨酸脱乙酰酶
- 其中观察到全长蛋白HMM或与单个架构相关的其他特征匹配（等价型特征）：根据本文件的规则，使用HMM名称或其他蛋白质家族签名名称来命名蛋白质。警告：蛋白质签名标识符和签名本身并不稳定，可能会发生变化，需要对使用该方法命名的蛋白质进行审查和重命名。
  
  示例：TIGR01212家族自由基SAM蛋白
- 未观察到域或基序：如果已发布该蛋白质的基因符号或蛋白质符号，请使用蛋白质<GS>或蛋白质<PS>格式。否则，使用默认名称“假想蛋白质”或“非特征化蛋白质”（全部小写），无需进一步说明。
  
  示例：
  - 假想蛋白质不假设蛋白质，保守
  - 非特征化蛋白质不古生菌中保守的非特征化蛋白质
  - 蛋白质XYZ1

上次更新时间：2020年3月2日

GenBank（基因银行）

公共核酸序列库