原核基因组注释指南

注释

Stin和TBL2ASN使用一个简单的五列选项卡分隔的特征位置和限定符表,以便生成注释。

该特征表的格式允许指示不同种类的特征(例如基因、编码区、tRNA、重复区)和限定符(例如/产品、注释)。验证器将检查诸如编码区域内停止的错误。

指导方针真核基因组提交.

如果您不理解这里提出的任何指令或您有问题,请通过电子邮件与我们联系。GENOMESS@ NCBI.NLM.NIH.GOV在创建提交之前。这将节省我们很多时间。

目录

  1. 准备注释表

准备注释表

这些特征必须在一个简单的五列选项卡分隔表中,称为特征表。特征表指定TBL2ASN或序列中的每个特征的位置和类型,以包括在创建的GenBank提交中。表的第一行包含以下基本信息:

>特征SEQID表名

SEQID必须与序列上使用的相同。表名称是可选的。表的后续行列出了这些特性。列由选项卡分隔。

  • 第1栏:特征的起始位置
  • 第2栏:停止特征位置
  • 第3栏:特征键
  • 第4栏:限定符键
  • 第5栏:限定值

图2显示了一个示例特征表,并说明了关于特征表格式的一些要点。与此表相对应的GenBank平面文件显示在图3

在互补链上的特征(如下面的例子中的基因ABRB)及其相应的CDS通过反转间隔位置来指示。请避免在表格中输入所有不必要的大写字母。

基因特征

基因特征通常是一个单一的间隔,它们的位置应该覆盖所有相关的特征,如启动子和操作者结合位点的间隔。基因名称必须遵循三个小写字母的标准细菌命名规则。不同的轨迹由大写字母的后缀来区分。

例子

正确的细胞色素b不正确的细胞色素b不正确的OFF1不正确的推测基因片段

如果基因是假基因,请不要在基因名称或蛋白质名称上加上“伪”一词。相反,在基因特征上使用/伪限定符。请看基因片段更多细节。

定位标记

所有的基因都必须被分配一个系统的基因标识符,它必须在注释表上接收到LoSuxTAG限定符的基因特征。在科学文献中,基因也可能具有功能名称。在这个例子中,OBBY001是系统基因标识符,而ABCD是功能基因名称。我们建议让BioStudio注册过程自动分配一个LooSuxTAG前缀,因为它们不意味着赋予意义。LoSuxTAG前缀必须是3-12个字母数字字符,而第一个字符可能不是数字。另外,LoSuxTAG前缀是区分大小写的。单个基因组的所有染色体和质粒必须使用完全相同的LoopSyTAG前缀,然后加上下划线,然后在给定基因组内唯一的字母数字识别号。除了用于将前缀与标识号分开的单个下划线之外,在LoSuxTAG中不能使用其他特殊字符。必须使用LoopSub标记与基因特征相结合。阅读更多有关定位标记以及它们的预期用途。

生物名称和位点标记的基因表观

1 1575基因β基因ABCD

平面文件视图

基因1…1575μ/基因=“ABCD”/LoSuxTAG=“OBBY001”

仅有LoSuxTAG基因的表观:

1 1575基因

平面文件视图:

基因1…157μ/LoSuxTAG=“OBBY001”

蛋白亚型

提交人必须给所有的蛋白质指定一个识别号。当序列被更新时,NCBI使用这个数字来追踪蛋白质。这个数字由CDS限定符蛋白质ID表示在表中,并且必须具有格子GNL.dBNEXY字串,其中dBNEX是您认为唯一的(eg SmithUCSD)实验室名称的一个版本,而String是提交者指定的唯一的蛋白质SEQID。我们建议使用LoopSuthTAG号作为蛋白质识别号。

在我们的数据库中,蛋白质ID被用于内部跟踪,重要的是完整的蛋白质ID(dBNED+String)不被基因组中心复制。注意,当处理WGS提交时,ProtoSyID中的dBNEX自动更改为“WGS:xxxx”,其中xxxx是项目的登录号前缀。在基因组被释放到GenBank中后,蛋白质被指定为登录号。我们将提供一个蛋白质SEQID表和登录号供您将来使用。更新.

例子

蛋白质ID保存在记录(ASN 1格式)中,但在平面文件中是不可见的。

1基因1575β基因ABCD·LoopSuthAg OBBY001 1×1575 CDS产物烯醇化酶蛋白GNL

蛋白质名称

所有CDS特征必须有产品限定符(蛋白质名称)。NCBI蛋白质命名约定采用国际蛋白质命名指南.

一致的命名是必不可少的通信,文献检索和数据检索。许多种特定的社区已经建立了基因命名委员会,试图分配一致的,如果可能的话,有意义的基因符号。其他科学界已经建立了基于序列相似性和/或功能的一组蛋白质的蛋白质命名。但是,没有任何组织参与蛋白质名称的标准化,也没有任何努力来建立在可能的最大光谱范围内有效的命名规则。

关于基因/蛋白质名称的歧义是文献中的一个主要问题,并且在倾向于传播混淆的序列数据库中更为严重。出于这个原因,我们要求你遵循一些命名蛋白质的基本准则。蛋白质命名指南是基于一个好的和稳定的推荐名称的前提下,蛋白质是尽可能中性的名称。

蛋白质命名指南:

  • 如果存在,请使用批准的命名法。
  • 使用简洁的名称,而不是描述或短语。
  • 理想的名称应该是唯一的,并归因于所有直系同源词。
  • 在不知道蛋白质名称的情况下,使用“假想蛋白质”或“未知蛋白质”作为产品名称。
  • 蛋白质名称不应反映蛋白质的亚细胞位置,其分子量或其来源种类。此信息可包含在注释中。
  • 对于属于多基因家族的蛋白质,建议你选择一个有编号的相关术语来指定不同的家庭成员。
  • 当命名蛋白质可以基于同源性或根据共享函数的概念被分组为一个家庭时,不同的成员应该用一个破折号“-”来列举,然后是阿拉伯数字。例如“桥粒芯蛋白-1”、“桥粒芯蛋白-2”等。
  • 未知功能的蛋白质,包含定义的域或基序,可以根据存在的域来命名。名称应该是以下类型:“<域重复>含有蛋白质”。例如“PAS结构域含蛋白5”。
  • 蛋白质名称可以用与相应基因相同的符号表示,但符号以大写字母开头。
  • 希腊字母必须完整地写成,例如“阿尔法”,在“类固醇”/脂肪酸代谢术语的上下文中,除了“δ”外,完全写在小写字母上。此外,希腊字母后面跟着一个数字,后面或后面是一个破折号“-”例如“麒麟酶-1α”。
  • 使用小写字母,除非需要大写字母(例如,缩写词,如DNA或ATP)。
  • 只要合适,名字就应该使用美国的拼写惯例。
  • 避免在蛋白质名称中使用分子量“单角酶A亚基”是“单角酶52 kDa亚基”的首选。
  • 避免蛋白质中的“同源”,因为这推断了进化关系,通常没有被确定。
  • 尽可能避免在蛋白质名称中使用逗号。
  • 在可能的情况下避免使用罗马数字。用阿拉伯数字代替。
  • 不要在缩写中建立分子量
  • 不要使用音调符号,例如重音、音符。许多计算机系统(包括我们的)只能理解ASCII字符。
  • 不要在蛋白质名称中使用复数。例如“含有蛋白质8的锚蛋白重复”是错误的。

下面是一些好的蛋白质名称的例子:

细胞色素b
细胞分裂素
乌头碱水解酶B
假定蛋白
细胞色素B样蛋白
4FE-4S簇结合蛋白
腺苷酰转移酶/ADP-庚糖合酶
2-羟基庚二烯-1,4-二烯-1,7-二甲酸异构酶
短链特异酰基辅酶A脱氢酶
甲酰甲氧呋喃-四氢甲蝶呤甲酰基转移酶
丝氨酸/苏氨酸蛋白激酶
翻译起始因子1
三磷酸核糖基脱磷辅酶A合成酶
硫胺素生物合成蛋白THIC
PAS结构域蛋白5
ABC转运体ATP结合蛋白ALBC
第0阶段产孢蛋白J
这些名称都简明地描述了蛋白质的功能,在已知的地方,避免了对结构、同源性和物种的引用。

下面是一些不良蛋白质名称的例子:

钼酸盐有效掺入钼酸盐的必要条件
这描述了蛋白质在生物合成过程中的作用,但不是蛋白质名称。
伴侣蛋白HSP70;DNA生物合成;自调节热休克蛋白
“伴侣HSP70”的名称是好的,但是余下的注释最好是作为注释或函数限定符。
假定碳酸酐酶(EC 4.2.1.1)
EC编号不应是蛋白质名称的一部分,而应在ECL编号限定符中进行。
类似乌头酸水解酶B
这是一个很好的说明,但是作为蛋白质名称乌头酸水解酶B样蛋白是优选的。
与未知功能蛋白有关
非信息性名称
细胞色素b样
细胞色素b样蛋白优先
ABC转运蛋白
含糊不清的名字,有很多ABC转运体和亚单位,更具体。ABC转运体相关蛋白“是可以接受的,但如果可能的话,更具体的名字会更好。
吡啶,N-末端:吡啶,C-末端
N端和C端的一致性名称-注意相似度
螺旋-转角-螺旋基序
描述一个基序或结构域,但不是一个合适的蛋白质名称。
聚丙烯环
描述一个基序或结构域,但不是一个合适的蛋白质名称。
α/β水合褶皱
描述一个基序或结构域,但不是一个合适的蛋白质名称。
五肽重复序列
描述一个基序或结构域,但不是一个合适的蛋白质名称。
磷酸嘌呤碱结合结构域
描述一个基序或结构域,但不是一个合适的蛋白质名称。
未知功能蛋白:保守的
非信息性名称
假想的32.5 kDa蛋白与植物素和角鲨烯合成酶的同源性
假设蛋白质是合适的。其余的注释应作为注释分发。
核糖体蛋白L3(大肠杆菌)
蛋白质名称不应包含对生物体名称的引用。核糖体蛋白L3本身是一个合适的名称。
糖蛋白脱氢酶或相关蛋白
“糖精脱氢酶”或“糖肽脱氢酶样蛋白”更合适。
酪氨酸蛋白激酶(荚膜多糖生物合成)
酪氨酸蛋白激酶是一个蛋白质名称,但荚膜多糖生物合成将作为一个功能更合适。
16S rRNA处理所需的RIMM蛋白
RIMM作为一个蛋白质名称很好,但是描述性注释应该放在注释中。
鞭毛生物合成
这是一个功能性的注释而不是蛋白质名称。

笔记

请避免包含指示与数据库中其他条目相似的特定百分比的注释,因为您指出的相应记录可能会更改,并使您当前的注释不准确、不正确和过时。描述、描述与其他蛋白质相似的注释和功能性注释必须放在适当的CDS限定符中,如注释或PrimeDeSc,因为它们是产品的描述符。E.C.号码必须在ECL号码限定符中被调出。

启动停止CDS产物DNA旋转酶亚单位B ECE号5.91.1.3注释DNA旋转所需的注释

可用于CDS特征的限定符为:

起止CdS乘积π函数(Ex数,注记,实验,推断),GOG分量,Go过程,Gothe函数

双功能蛋白

如果一个蛋白质包含两个独立的和不同的函数,或者如果它有不止一个名称,那么它可以用下面几种方式来注释。

表视图:

起始停止CDS产物腺苷酰转移酶/ADP-庚糖合酶

起停CdS产物双功能腺苷酰转移酶/ADP七糖合酶环水解酶Ec2.2.7.2.2 EC1.1.1.1.13

起始停止CDS产物折叠功能腺苷酰转移酶功能ADP庚糖合酶环水解酶注释双功能Ec2.2.7.2.2 EC1.1.1.1.13

包含编码区的Selenocysteine

注释硒代半胱氨酸,包括一个翻译,除了限定符与密码子的核苷酸位置加上氨基酸“SEC”,像这样:

1790 3187 CDS产物硒蛋白翻译除外(POS:1817…1819,AA:SEC)蛋白GNL·MyCARCI ABCG0216437

其中硒半胱氨酸编码密码子位于NT1817-1819。使用核苷酸位置,而不是氨基酸数目。

如果CD在负链上,则仍然表明密码子的位置从5’到3’。因此,密码子包含在这个例子中作为NT939—939 3:

9422 8208 CDS产物假设蛋白质翻译除外(POS:9395…9393,AA:SEC)蛋白质,GNL·MyCARCI 0216440

含内含子编码区

含内含子编码区域必须表示如下:

946506基因950039α基因RACA位点OBBY00 10×946506×950039 CDS产物DNA重组蛋白前体蛋白GNL·dBNEX-OBBY00 10×946506 946506 946790 MISCK特征948057 948057 950036注释DNA重组蛋白946791 948056 MISCK特征注释内含子

内含蛋白应该用两个肽特征注释,一个是内含肽,一个是最终蛋白。我们还将“前身”添加到CDS功能上的产品名称。不幸的是,不能在表中添加Matlab肽特征。相反,您可以添加一个MISCI功能,我们可以为您转换。请参阅登录号AY847 267对于含有蛋白质的内含蛋白的一个例子。

不完全基因组中的部分编码区

在“特征表”中使用“<”或“>”注释部分编码区域,将该特征指定为“5”或“3”部分。编码区必须从第一核苷酸存在开始,然而翻译将从第一完全密码子开始。

注:部分编码区只允许在原核生物序列末端或邻接间隙。内部编码区域必须以起始密码子开始,并以终止密码子结尾。

实例:

在下面的第一个例子中,“<”指定这个编码区域为5’部分,而“CODONYSTART 3”告诉软件用CDS的第三个核苷酸开始翻译。请注意,如果未指定CODONESTART,则该软件假定CODONEXSTART为1。下面的第二编码区域在3’端是部分的,所以使用“>”表示3’部分特征。第三个例子是互补或负链上的3’部分编码区域。

产物ABCD类似于枯草芽孢杆菌醛缩酶-CONDONE启动蛋白3,GNL,BDNY命名为OBB0.00 01>200基因>基因XYZA,OrbBY002,200>1575,CDS产物肌动蛋白样蛋白,蛋白质GID L,NBK,OBBY002 436 436>1基因,基因NIKK,LoSuxTAG OBBY003 0436>436 CDS产物NIKK蛋白GNL < 1 497基因-ABCD基因LoSuxTAG OBBY001<1×497 CDS

这里是对部分CDS特征进行格式化的更多示例.

破坏基因和基因片段

有时,基因组将具有邻近或附近的基因,这些基因似乎只是蛋白质的一部分。在许多情况下,这些指示了序列和/或注释的可能问题。一个相关的问题是在CDS的概念翻译中存在内部停止密码,看起来应该是真正的CDS。这些问题可能是由于多种原因,包括突变或测序伪影。它们可以用多种方式注释:

  1. 将基因注释为假,这意味着存在问题。如果最初存在多个基因片段,则添加覆盖所有潜在编码区域并添加伪限定符的单个基因特征。如果已知的话,可以添加注释限定符来指示为什么该基因被破坏。

    1 200基因γ基因HYA基因DYC碱性磷酸酶LoSuxTaAg OBBY001伪赝移移码
  2. 或者,如果你不确定被破坏的基因是否是“假基因”,你可以只使用没有假基因的基因特征。请使用框架基因的完整核苷酸序列。可以添加注释来指出不完全翻译的原因。

    1 200基因-PHA基因PHEA基因DYC碱性磷酸酶LoSuxAdTab-OBBY001注释由于移码导致的非功能性
  3. 一个编码区包含一个被认为是由核糖体滑移校正的移码可以使用连接特征跨度注释。一个特征上的连接跨度被用于组合两个非相邻区域的序列,这些区域被连接在一起以编码蛋白质。这通常用于结合真核外显子来翻译编码区。要创建连接CDS,必须指定编码蛋白质的序列的每个相邻区域的跨度。连接特征跨度的使用在细菌中是罕见的。

    333255 333181 CDS 333179 333179 332157产物ABCD蛋白GNL·dBNEX-OBBY001异常核糖体滑移在这种情况下CDS还必须包括异常限定符与确切的文本“核糖体打滑”。如果包含不同的原因加入连接功能,请包括一个注释限定符,说明为什么两个核苷酸跨度是连接在一起的。
    1. 如果基因是本地化的,但是翻译是未知的,则可以简单地注释基因特征而不需要相应的编码区域。GEYNE-DESC限定符可用于注释基因符号和基因描述。

      1 200基因γ基因HYA基因DYC碱性磷酸酶

  4. 含有由相位变化引起的真实移码的基因可以用带注释的基因特征来表示。

    1 200基因γ基因HYA基因DYC碱性磷酸酶LoopSuthAtaboB10001注意到相变异引起的真实移码;该区域包含编码序列中的真实移码或帧终止,而不是测序错误的结果。

内含子基因

虽然罕见,但有一些含有内含子的细菌基因的例子。注释包含任何内含子基因的基因特征,使得该基因特征跨度是覆盖所有外显子和内含子的单个跨度。然后,实际的特征(CD,tRNA等)应该用一组核苷酸序列来注释,这些核苷酸跨度显示了如何连接外显子以创建正确的产品。在这个例子中,转录了两个外显子以产生tRNA。第一外显子是从1456到1419,第二外显子是从1400到1361。注意基因特征如何跨越外显子和内含子。

1456 1361基因LoopsIAg APOUT01 1456 1456 1419 tRNA 1400 1361π产物tRNA半胱氨酸

转基因基因

转基因基因是注释基因特征跨度的规则的例外。除了两个基因片段存在于染色体的不同区域外,转基因基因与内含子基因相似。这些基因被转录为两个或多个单独的RNA产物,被转录成单个mRNA或tRNA。用表注释这个词,输入核苷酸跨度,以便互补(负链)跨度从高到低排列,反之亦然。

36700 36618基因86988(87064)LuSuxtAg NEQUT38异常反转录剪接36631(36631)MISCK特征注释序列在反式剪接TrNs的加工过程中被裂解36673 36673 36635 87030 87030 tRNA产物TrRNA Glu异常剪接。

平面文件视图:

“NEQUT38”/跨剪接:MISCX特征互补(36618…36631)/ LoSuxTAG=“NEQUT38”/注=“在反式拼接TrRNA的处理过程中切割的序列”tRNA连接(补体(36635…36673),87030…87064)/“LoSuxTAG”=“NEQUT38”/产物=“TrN-Glu”/跨剪接/注=“这个反式剪接的tRNA由混合链上的两半组成,它与另一个tRNA共有3’一半”。基因连接(补体(36618,36700),86988…87064)

两个重叠群上的分裂基因

新(SEPT 2012):有时在不完整的基因组中,基因的末端可能在不同的重叠群上。当确定这两个片段是同一个基因的一部分时,将它们注释为具有独特位点标签的独立基因,加上不同蛋白质ID的单独CD。此外,将这些特征与涉及基因的另一部分的注释连接起来。然而,不要产生非常短的特征,例如如果一个末端只是起始甲基,或者在终止密码子之前只有几个氨基酸。

例子
Ⅳ>7200>产物烯醇化酶Ⅰ>gnL→dBNEX-KCSY2223α>注释5’端;3’端为COKTIG 1.022424>>基因KCSY2223 B>特征:COND1.00 22424>1 1000基因>LuSuSUTA KCSY223B>100 876 CDS产物蛋白烯醇酶GNL*dBNEXY KCSY223B注释NOTE端;特征COND1.0111>5000>7500基因LoSuxTAG KCSY2223 A×5488 5488 CdS

核糖体RNA、tRNA及其他RNA特征

RNA特征(rRNA,tRNA,ncRNA)必须包括与LoSuxTAG限定符相应的基因特征。请务必指定tRNA基因对应的氨基酸。如果tRNA的氨基酸未知,则使用tRNA XXX作为产品,如在实例中。许多提交者喜欢标记TrNas,如TrN1-GLY1等。如果您想这样做,请包括“TrN1-GLY1”作为注释而不在//基因中。基因的使用被保留为实际的生物基因符号,如“TrNG”。如果tRNA是伪基因,请使用/伪限定符。

注释属于NSCNs的NSCRNsNCRNA类作为NCRNA特性,在所需/NCRNAL类限定符中具有适当的值。RNA的区域应被注释为MISCI特征(例如,领导者序列),或者如果结合已知分子(例如核糖开关)的MISCX结合特征。其他注释以RNA区域为例。

一些rRNA,tRNA,ncRNA例子:
1      400     gene
                        locus_tag     OBB_0001
<1      400     rRNA
                        product 16S ribosomal RNA
401     500     gene
                        gene    trnG
                        note    tRNA-Gly1
                        locus_tag     OBB_0002
401     500     tRNA
                        product tRNA-Gly
501     600     gene
                        locus_tag     OBB_0003
501     600     tmRNA
                        product tmRNA
601     700     gene
                        locus_tag     OBB_0004
601     700     tRNA
                        product tRNA-Xxx
701     800     gene
                        locus_tag     OBB_0005
                        pseudo
701     800     tRNA
                        product tRNA-Phe
                        pseudo
801     900     gene
                        locus_tag       OBB_0006
801     900     ncRNA
                        ncRNA_class     SRP_RNA
                        product RNA component of signal recognition particle

证据限定词

在国际核苷酸序列数据库(ISND)的2005届年会上,DDBJ、EMBL和GenBank同意采用两个限定词来描述序列记录特征的证据。这些是“/实验=文本”和“/推断=类型:文本”,其中“类型”来自选择列表,“文本”是结构化文本。这些新的限定符分别取代了“证据=实验”和“证据=非实验”,它们不再被支持。阅读更多有关证据限定词

1     100   gene
                locus_tag   Test_0001
1     100   CDS
                product     RecA
                protein_id  gnl|center_name|Test_0001
                inference   ab initio prediction:Genscan:2.0
200   300   gene
                locus_tag   Test_0002
200   300   CDS
                product     SecA
                protein_id  gnl|center_name|Test_0002
                inference   similar to DNA sequence, (same species):INSD:DQ060639.1
400   500   gene
                locus_tag   Test_0003
400   500   CDS
                product     ribonuclease R
                protein_id  gnl|center_name|Test_0003
                inference   protein motif:InterPro:IPR001900
                db_xref InterPro:IPR001900
600   700   gene
                locus_tag   Test_0004
600   700   CDS
                product     nitroreductase A
                protein_id  gnl|center_name|Test_0004
                experiment  expression of GST fusion protein

功能噬菌体

如果细菌基因组含有功能性噬菌体,则必须覆盖覆盖完整噬菌体序列的跨度的附加源特征。然而,如果噬菌体不是功能性的,或者如果你不确定的话,将其注释为MISCI特征。

361 4200源生物体Bacteriophage xyz

插入序列和转座子

插入序列和转座子必须标注为重复区域特征。插入序列或转座子的名称必须在插入式SEQ或转座子限定符中添加。注意,转座子和插入序列不应该被给予定位标记。

1 100重复区-移动基元插入序列:IS1363×500×600重复区-Muxeli元件转座子:AthENA AV1

数据库交叉引用

可以将多种数据库交叉引用添加到特征中。这些在特征上显示为/dBxxRf。此限定符用作将序列记录链接到其他外部数据库的工具。查看完整列表双核函数.

1 100基因LysUsTAG Test100000 1×100 CDS产物ReqA蛋白GID L GNL中心名称NETXXRF IPLPRO:IPR000 0111 180 180 210 MISCK特征注释YYBP YKYY元件dBXXRF RAMAM:RF000 080

基因本体论

GO(基因本体)术语可以包括在基因组中以描述蛋白质功能性。基因本体(GO)术语可以用以下限定符来表示

1 100 CdS产物ABCD GOOX组分胞囊0000145’GOH过程调节转录,DNA依赖性0006355’GOA过程胞吐作用0006887 gOy函数DNA结合0003677

值字段由垂直条''分隔成描述性字符串,GO标识符(前导零被保留),以及可选的PubMed ID和一个或多个证据代码。证据代码是第四个令牌,因此需要时包括空白字段(如最后一个限定符没有PubMed ID,因此第三字段为空)。参见示例详细的真核注释网页

变异

序列中的多态性可以用变异特征来表示。包括序列中的一个多态(通常,这是最常见的序列),然后在TBL文件中为每个其他的可能性添加一个变化特征。

  • 变化特征需要一个“替换”限定符,其值是不在提交序列中的多态性序列。例如,如果CCC在位置100-102处最常见,但也有CC(替换)、ccccc(插入)和没有(删除),那么序列将在该位置具有CCC,并且将包括三个变异特征,每个多态性都有一个。
  • 对于插入多态性,CARAT(^)是起始位置的一部分。
  • 当多态性是一个完整的删除,那么替换值只是两个双引号。
  • 还可以包括可选的限定符-注释,以及找到另一个序列的频率。

下面是所有这些选项的例子:

100 102变异代替CCπ多态性(100×102变异)代替CccCc频率0.1×100 102变异“替换”“注释缺失”

这些特性将在GenBank视图中出现:

变异100,102…/注=“多态性”/替换=“CC”变异100 ^ 102 /频率=“0.1”/替换=“ccccc”变异100…102

其他注释

例如,如果结合部分已知,则使用MISCX结合特征来注释核糖开关:

1 100 MISCK结合蛋白-钴胺素核糖开关-腺苷钴胺素

新2017:注释Riwitwitkes作为调控特征与调节器类“Ribwitwith”:

1 100调节型调节器类核糖开关(英文)

如果结合部分是未知的,或者如果序列是领导者序列,则注释为MISCI特征,例如:

1 100 MISCK特征注记YYBP yky元

MISCK特征和MISCK结合和调节特征不具有相关的基因特征。如果希望用LoopSuthAg-类似标识符标记这些特征,则在注释中包含该值,通过半冒号和空间与其他信息分离。

最后更新:2019-01-22T23:48∶17Z