真核基因组注释指南
注释
Genome Workbench和table2asn(替换tbl2asn)使用简单的五列tab分隔的特征位置和限定符表来生成注释。
此特征表的格式允许指示不同类型的特征(例如基因、编码区、tRNA、repeat_region)和限定符(例如/product、/note)。验证器将检查错误,如编码区域中的内部停止。
指南原核基因组提交.
如果您不理解此处的任何说明或有疑问,请通过电子邮件联系我们genomes@ncbi.nlm.nih.gov在创建提交之前。这将为我们双方节省大量时间。
目录
- 准备注释表
准备注释表
这些功能必须位于一个简单的五列制表符分隔表中,称为功能表。特征表指定了表2asn(之前为tbl2asn)或Genome Workbench的每个特征的位置和类型,以包含在创建的GenBank提交中。表的第一行包含以下基本信息:
>功能SeqID table_name
SeqID必须与FASTA文件中序列的SeqID相同。table_name是可选的。表的后续行列出了功能。列由制表符分隔。
- 第1列:要素的起始位置
- 第2列:特征的停止位置
- 第3列:功能键
- 第4列:限定符键
- 第5列:限定符值
图2显示了一个示例要素表,并说明了关于要素表格式的一些要点。与此表对应的GenBank平面文件如所示图3。允许的功能及其限定符列在功能表中文档.
互补链上的特征,例如基因Ngs_3038和Ngs_11232及其对应的特征,如图2,通过反转间隔位置来指示。
请避免表格中输入的所有文本不必要的大写。
其他要求以及各种类型注释的建议包含在以下各节中。
基因特征
基因特征总是一个区间,它们的位置应该覆盖所有相关特征的区间,例如启动子和polyA结合位点。
基因名称应遵循特定生物体的标准命名规则。例如,小鼠基因名称以大写字母开头,其余字母为小写。
编码区(CDS)和RNA,如tRNA和rRNA,必须具有相应的基因特征。但是,其他功能(如repeat_regions和misc_features)没有相应的基因或locus_tag。
位置标签
应为所有基因分配一个系统的基因标识符,该标识符应在表中的基因特征上接受locus_tag限定符。基因也可能有科学文献中指定的功能名称。在本例中,KCS_0001是系统基因标识符,而Abc5是功能基因名称。
具有生物名称和locus_tag的基因的表视图:
1 1575基因基因Abc5位置标记KCS_0001
平面文件视图:
基因1..1575/基因=“Abc5”/locus_tag=“KCS_0001”
仅带有locus_tag的基因的表视图:
1 1575基因位置标记KCS_0001
平面文件视图:
基因1..1575/locus_tag=“KCS_0001”
为了保持一致性,必须在整个基因组中使用相同的locos_tag前缀。因此,一个基因组的所有染色体都应该具有相同的locus_tag前缀。
为了改进locus_tags的使用,我们现在要求所有locus_tag前缀都要注册并且是唯一的。我们建议让BioProject注册过程自动指定locus_tag前缀,因为它们不是为了传达含义。locus_tag前缀应该是3-12个字母数字字符,第一个字符不能是数字。locus_tag前缀后面是下划线,然后是给定基因组中唯一的字母数字标识号。除了用于分隔前缀和标识号的单个下划线外,locus_tag中不能使用特殊字符。
如果需要,可以将染色体编号嵌入locus_tag中,格式为Prefix_#g#####,其中第一个#是染色体编号,####1是基因的唯一编号。例如,Ajs_4g00123表示4号染色体上的一个基因。
阅读更多关于位置标记(_T)及其预期用途。
请在生物项目注册第页,然后准备提交给GenBank。这里注册的每个项目都分配了一个project_id,将来我们打算在与特定基因组项目相关的所有条目中显示project_id。
蛋白质id
提交者必须为WGS或完整基因组中的所有蛋白质指定一个识别号。当序列更新时,我们使用这个数字来跟踪蛋白质。该数字在表中由CDS限定符protein_id表示,格式应为gnl|dbname|string,其中dbname是您认为唯一的实验室名称版本(例如SmithUCSD),string是提交者分配的唯一蛋白质SeqID。此标识符与记录一起保存(ASN.1格式),但在平面文件中不可见。我们建议使用locus_tag作为蛋白质SeqID。在本例中,ABC5的protein_id是gnl|SmithUCSD|KCS_0001。
例子:
<1>1575基因基因Abc5位置标记KCS_0001未加工假基因1 1575张CDS产品ABC5蛋白质_id gnl |史密斯UCSD | KCS_0001
由于protein_id用于数据库中的内部跟踪,因此基因组中心不能复制完整的protein_ id(dbname+SeqID)很重要。因此,如果您的基因组中心提交了多个完整的基因组,请确保对所有基因组使用唯一的蛋白质id。
protein_id还作为相应mRNA特征的限定符包含在内,以允许CDS和mRNA在处理过程中配对。
请注意,当处理WGS提交时,protein_id中的数据库名会自动更改为“WGS:XXXX”,其中XXXX是项目的登录号前缀。
在你的基因组被释放到GenBank后,这些蛋白质被分配了登录号。我们将提供一个蛋白质SeqID和登录号表,供您将来使用更新.
成绩单id
transcript_id是CDS及其相应mRNA的限定符。它与蛋白质_id,gnl|dbname|标识符的格式相同。因为每个transcript_id和protein_id都必须是唯一的,我们建议将“mrna”或“t”添加到protein_ id标识符中,作为创建相应(唯一)transcript_id的简单方法。但是,只要所有标识符都是唯一的就可以使用您选择的任何命名约定。
63574 87173基因位置标记Ngs_1713163574 63907 mRNA75690 7573084396 8553685598 8577385836 8610986173 8646786555 8667086731 87173产品假想蛋白质蛋白质_id gnl|ncbi|Ngs_17131转录物id gnl、ncbi、mrna。Ngs_17131号84402 85536 cd85598 8577385836 8610986173 8646786555 8667086731 86882产品假想蛋白质蛋白质_id gnl|ncbi|Ngs_17131转录物id gnl、ncbi、mrna。Ngs_17131号
CDS(编码区域)功能
所有CDS功能都必须有产品限定符(蛋白质名称)。NCBI蛋白质命名约定采用自国际蛋白质命名指南.
一致的命名法对于交流、文献检索和数据检索是必不可少的。许多物种特定的社区已经建立了基因命名委员会,试图分配一致的,如果可能的话,有意义的基因符号。其他科学界已经根据序列相似性和/或功能为一组蛋白质建立了蛋白质命名法。但是,没有一个既定的组织参与蛋白质名称的标准化,也没有任何努力来建立在尽可能大的物种范围内有效的命名规则。
有关基因/蛋白质名称的歧义是文献中的一个主要问题,在序列数据库中更为严重,因为序列数据库往往会传播这种混淆。因此,我们要求您遵循一些基本准则来命名您的蛋白质。蛋白质命名指南的前提是,一个好的、稳定的蛋白质推荐名称是一个尽可能中性的名称。
蛋白质命名指南:
- 如果存在,请使用批准的术语。
- 使用简洁的名称,而不是描述或短语。
- 理想情况下,名称应该是唯一的,并归因于所有直系亲属。
- 在蛋白质名称未知的情况下,使用“假想蛋白质”或“无特征蛋白质”作为产品名称。
- 蛋白质名称不应反映蛋白质的亚细胞位置、结构域结构、分子量或来源种类。此信息可以包含在注释中。
- 对于属于多基因家族的蛋白质,建议您选择带有数字的连贯命名法来指定该家族的不同成员。
- 当命名可根据同源性或共享功能概念归类为一个家族的蛋白质时,应使用破折号“-”和阿拉伯数字来列举不同的成员。例如“桥粒芯蛋白-1”、“桥粒蛋白-2”等。
- 功能未知的蛋白质包含一个确定的结构域或基序,可以根据存在的结构域来命名。名称应为以下类型:“<域|重复>-包含蛋白质”。例如“PAS结构域蛋白5”。
- 蛋白质名称可以用与相应基因相同的符号表示,但其格式对生物体来说是正确的。例如,小鼠蛋白质与基因名称具有相同的符号,但蛋白质名称都是大写字母。
- 希腊字母必须完整书写,例如“alpha”,在类固醇/脂肪酸代谢命名法中,除“Delta”外,其他字母必须全部小写。此外,后面跟着数字的希腊字母应该在前面或后面加一个破折号“-”,例如“独角兽字母-1”。
- 使用小写字母,除非需要大写字母(例如,在缩写词中,如DNA或ATP)。
- 在适当的情况下,名称应使用美国拼写惯例。
- 避免在蛋白质名称中使用分子量;“unicornase亚基A”优先于“unicoranase 52 kDa亚基”
- 避免在蛋白质中使用术语“同源物”,因为这意味着进化关系通常尚未确定。
- 尽可能避免在蛋白质名称中使用逗号。
- 尽可能避免使用罗马数字。请使用阿拉伯数字。
- 不要将分子量缩写成缩写
- 不要使用变音符号,例如重音符号、变音符号。许多计算机系统(包括我们的系统)只能理解ASCII字符。
- 不要在蛋白质名称中使用复数。例如,“含有锚蛋白重复序列的蛋白质8”是错误的。
以下是一些好的蛋白质名称示例:
- 细胞色素b
- 细胞色素B
- 乌头水合酶B
- 假想蛋白质
- 细胞色素b样蛋白
- 4Fe-4S簇结合蛋白
- 腺苷酸转移酶/ADP-庚糖合成酶
- 2-羟基庚烷-2,4-二烯-1,7-二元酸异构酶
- 短链特异性酰基辅酶A脱氢酶
- 甲酰甲烷呋喃——四氢甲烷蝶呤甲酰转移酶
- 丝氨酸/苏氨酸蛋白激酶
- 翻译起始因子1
- 三磷酸基-dephospho-CoA合成酶
- 硫胺素生物合成蛋白ThiC
- PAS结构域蛋白5
- ABC转运蛋白ATP-结合蛋白AlbC
- 第0阶段产孢蛋白J
- 这些名称都简明扼要地描述了已知蛋白质的功能,避免提及结构、同源性和物种。
以下是一些不良蛋白质名称的示例:
- 钼酸盐有效并入钼蛋白所必需的
- 这描述了蛋白质在生物合成过程中的作用,但不是蛋白质名称。
- 伴侣Hsp70;DNA生物合成;自我调节的热休克蛋白
- “chaperone Hsp70”这个名称很好,但是剩余的注释最好作为注释或在函数限定符中填写.
- 假定碳酸酐酶(酶代码EC4.2.1.1)
- EC编号不应是蛋白质名称的一部分,而应填入EC_number限定符中
- 类似于阿硝酸水合酶B
- 这句话可以作为注释,但作为一种蛋白质名称,硝酸阿糖水合酶B样蛋白质是首选
- 与功能未知的蛋白质有关
- 无信息的名称
- 细胞色素b样
- 首选细胞色素b样蛋白
- ABC运输车相关
- 名称模糊,有许多ABC转运体和亚单位,更具体。“ABC转运蛋白相关蛋白”是可以接受的,但如果可能的话,一个更具体的名称会更好。
- 皮林,N端:皮林,C端
- 注意N端和C端相似性的统一名称
- 螺旋转螺旋图案
- 描述一个基序或结构域,但不是合适的蛋白质名称.
- PP-停止
- 描述一个基序或结构域,但不是合适的蛋白质名称.
- α/β水成褶皱
- 描述一个基序或结构域,但不是合适的蛋白质名称.
- 五肽重复
- 描述一个基序或结构域,但不是合适的蛋白质名称.
- 磷酸泛乙烯结合结构域
- 描述一个基序或结构域,但不是合适的蛋白质名称.
- 功能未知的蛋白质:保守
- 无信息的名称
- 假想的32.5kDa蛋白与植物烯和角鲨烯合成酶同源
- 仅假设蛋白质是合适的。其余评论应作为备注填写.
- 核糖体蛋白L3(大肠杆菌)
- 蛋白质名称不应包含对有机体名称的引用。核糖体蛋白L3本身就是一个合适的名称.
- 糖精脱氢酶或相关蛋白
- “糖精脱氢酶”或“糖精脱水酶样蛋白”更合适
- 酪氨酸蛋白激酶(荚膜多糖生物合成)
- 酪氨酸蛋白激酶作为一种蛋白质名称很好,但荚膜多糖生物合成作为一种功能更合适.
- RimM蛋白,16S rRNA加工所需
- RimM作为蛋白质名称很好,但应在注释中添加描述性注释.
- 参与鞭毛生物合成
- 这是一个功能注释,而不是蛋白质名称.
笔记
请避免包含表示与数据库中其他条目的特定相似百分比的注释,因为您所指向的相应记录可能会发生更改,并使您当前的注释不准确、不正确和过时。描述、描述与其他蛋白质相似性的注释和功能注释必须放在适当的CDS限定符中,例如note或prot_desc,因为它们是产品的描述符。E.C.编号必须在EC_number限定符中字段化。
启动-停止CDS产物DNA聚合酶B亚单位EC编号5.99.1.3
可用于CDS功能的限定符包括:
启动-停止CDS产品prot _ desc(保护_ desc)功能EC编号(_N)笔记实验推理go_组件go_进程go_函数数据库参考伪例外transl_except(转换除外)
可以包含多个音符限定符,并将由表2asn或Genome Workbench连接到一个音符中,以分号作为分隔符。
双功能蛋白质:
如果一个蛋白质包含两个独立和不同的功能,或者如果它有多个名称,可以用多种方式进行注释,如下所述。表格视图:
启动-停止CDS产物腺苷酸转移酶/ADP-庚糖合成酶注释双功能
或
启动-停止CDS产品双功能腺苷酸转移酶/ADP-庚糖合成酶环水解酶
或
启动-停止CDS产品折叠D功能腺苷酸转移酶功能ADP-庚糖合成酶环水解酶注释双功能
部分编码区域
要注释部分编码区域,应使用“<”或功能表中的“>”将功能指定为5'或3'部分。编码区应从第一个核苷酸开始出现在序列或外显子中,您将指出第一个完整的密码子开始于该编码区。
序列中的部分基因应该在一致剪接位点开始或结束。
示例:
在下面的第一个例子中,“<”将该编码区指定为5'部分,“codon_start 3”告诉软件用CDS的第三核苷酸开始翻译。请注意,如果未指定codon_start,则软件假定codon_sstart为1。下面的第二个编码区域在3'端是部分的,因此“>”用于指示3'部分特征。第三个例子是互补链或负链上的3'部分编码区。
<1497 CDS产物转录因子注释类似于枯草芽孢杆菌醛缩酶密码启动3蛋白质_ id gnl |数据库名| KCS_0001transcript_id gnl | dbname | mrna。KCS_0001号机组600>1575 CDS产品类肌动蛋白protein_id gnl |数据库名| KCS_0002transcript_id gnl | dbname | mrna。KCS_0002公司436>1张CDS产品假想蛋白质蛋白质_ id gnl |数据库名| KCS_0056transcript_id gnl | dbname | mrna。KCS_0056号
这里有格式化部分CDS功能的更多示例.
mRNA特征
包括每个翻译的CDS的mRNA特征。需要注意的几点是:
- 对mRNA及其对应的CDS使用相同的产品名称。
- 如果没有UTR信息,则mRNA的位置将与其CDS的位置一致,但mRNA在其5'和3'端将是部分的。
- 扩展基因特征以包括整个mRNA。
- 如果mRNA是部分的,则使基因部分化。
示例:
第一个例子是一个完整的CDS,其5'和3'UTR是已知的。
>特征Cont5410400 12512基因位置标签CCC_0311610400 10462 mRNA10533 1057710651 1109811182 1164211716 12512产品假想蛋白质蛋白质_ id gnl |数据库名| CCC_03116transcript_id gnl | dbname | mrna。CCC_03116号10450 10462信用违约互换10533 1057710651 1109811182 1164211716 12233产品假想蛋白质蛋白_id gnl |数据库名称| CCC_03116transcript_id gnl | dbname | mrna。CCC_03116号
第二个例子是CDS,它在5'端是部分的,并且缺少任何3'UTR信息。
>特征Cont3<1>497基因位置标签CCC_111011<1497 CDS注释类似于枯草芽孢杆菌醛缩酶产品醛缩酶样蛋白密码_开始3蛋白质_ id gnl |数据库名| CCC_111111transcript_id gnl | dbname | mrna。CCC_111011号<1>497 mRNA产品醛缩酶样蛋白蛋白id gnl |数据库名称| CCC_111011transcript_id gnl | dbname | mrna。CCC_111011号
基因片段
有时,基因组会有相邻或邻近的基因,这些基因似乎只是蛋白质的一部分。在许多情况下,这表明序列和/或注释可能存在问题。一个相关的问题是CDS的概念翻译中存在内部终止密码子,看起来应该是真正的CDS。这些问题可能是由多种原因造成的,包括突变或测序工件。它们可以通过多种方式进行注释:
-
用/pseudo注释该基因,以表明该基因存在问题。注意,这个限定词并不意味着该基因是假基因。(如果已知该基因为假基因,请参见下文第2点)如果最初存在多个基因片段,则添加一个涵盖所有潜在编码区域的单个基因特征,并添加伪限定符。如果已知,可以添加注释限定符,指示该基因被破坏的原因,例如:
1200基因基因Abc5位置标记KCS_0001基因desc碱性磷酸酶伪注意由于帧移位而无法工作
-
如果你确定被破坏或错误填充的基因是生物假基因,那么添加假基因限定符和适当的假基因型例如:
1200基因Abc5基因位置标记KCS_0001基因desc碱性磷酸酶未加工假基因
-
如果该特征只是记录了与数据库中基因的相似性,并且可能没有翻译,那么应该将其注释为没有相应基因特征的错误特征。
1200个错误特性注释类似于Abc5
转切基因
转译基因是注释基因特征跨度规则的例外。转座基因与包含内含子的基因相似,只是这两段基因位于染色体的不同区域。这些基因被转录为两个或多个单独的RNA产物,这些RNA产物被转译为单个mRNA或tRNA。要使用表格对此进行注释,请输入核苷酸跨度,以便互补(负链)跨度从高到低排列,正链则相反。
36700 36618基因86988 87064位置标记NEQ_t38异常交叉拼接36631 36618错误特性注意在处理转剪接tRNAs过程中出现的序列断裂36673 3663587030 87064 tRNA产品tRNA-Glu异常交叉拼接注意,这种转剪接的tRNA由混合链上的两半组成;它与另一个tRNA共用一个3'半平面文件视图:基因连接(补体(36618..36700),86988..87064)/locus_tag=“NEQ_t38”/跨接(_S)错误特征补码(36618..36631)/locus_tag=“NEQ_t38”/注=“处理转剪接tRNAs过程中的序列断裂”tRNA连接(补体(36635..36673),87030..87064)/locus_tag=“NEQ_t38”/product=“tRNA-Glu”/跨接(_S)/注=“这个转剪接的tRNA由两部分组成混合股;它与另一个tRNA共用3'半“
两个contigs上的分裂基因
新消息(2012年9月):有时在不完整的基因组中,一个基因的末端可能位于不同的连接上。当确定这两个片段是同一基因的一部分时,将它们注释为具有独特locus_tags的单独基因,以及具有不同蛋白id和转录id的单独CDS/mRNAs。此外,将这些特征与指代基因另一部分的注释链接在一起。然而,不要创建非常短的特征,例如,如果一端只是起始甲硫氨酸,或者在终止密码子之前只有几个氨基酸。
>功能续01.001115000>7500基因位置标签KCS_2223A5000 5500 mRNA6000 >7200产物烯醇化酶protein_id gnl |数据库名| KCS_2223Atranscript_id gnl | dbname | mrna。KCS_2223A公司5488 5500张CDS6000 >7200产物烯醇化酶protein_id gnl |数据库名| KCS_2223Atranscript_id gnl | dbname | mrna。KCS_2223A公司注释5'结束;3’端为基因KCS_2223B,位于contig Cont01.00224上
>功能Cont01.00224<1 1000基因位置_标签KCS_2223B<100 1000 mRNA产物烯醇化酶蛋白质_ id gnl |数据库名| KCS_2223Btranscript_id gnl | dbname | mrna。KCS_2223B公司<100 876 CDS产物烯醇化酶蛋白质_ id gnl |数据库名| KCS_2223Btranscript_id gnl | dbname | mrna。KCS_2223B公司注释3'结束;5'端为基因KCS_2223A,位于contig Cont01.00111上
选择性剪接基因
在许多情况下,基因可以选择性剪接,产生替代转录物。这些转录物可能在编码区不同并产生不同的产物,或者它们可能在非翻译的5'或3'UTR不同并产生相同的蛋白质。要注释选择性剪接基因,请为每个转录物包含一个mRNA和CDS,并且在所有特征中只包含一个基因。给相应的信使核糖核酸和CDS取相同的名字,并在每个信使核糖核酸和CDS上加上“交替拼接”的注释。如果有多个具有相同名称的CDS,则为每个mRNA和CDS添加注释以相互引用,例如,对于一对mRNA/CDS,“转录变体a”和“由转录变体a编码”。如果CDS有不同的翻译,那么它们应该有不同的产品名称。确保所有蛋白质都有唯一的蛋白质id。
示例1(不同产品):
>功能Cont01.0005510 5000基因位置标记CCC_0456210 500信使核糖核酸722 15552548 39014400 5000产物烯醇化酶亚型A注释交替拼接protein_id gnl |数据库名| CCC_04562Atranscript_id gnl | dbname | mrna。CCC_04562A公司102 500 CDS722 15552548 39014400 4566产物烯醇化酶亚型A注释交替拼接蛋白_id gnl |数据库名称| CCC_04562Atranscript_id gnl | dbname | mrna。CCC_04562A公司10 500 mRNA2548 39014400 5000产物烯醇化酶亚型B注释交替拼接蛋白质_ id gnl |数据库名| CCC_04562Btranscript_id gnl | dbname | mrna。CCC_04562B号102 500 CDS2548 39014400 4566产物烯醇化酶亚型B钞票交替拼接蛋白质_ id gnl |数据库名| CCC_04562Btranscript_id gnl | dbname | mrna。CCC_04562B号
示例2(同一产品):
>功能Cont01.00056100 1000基因位置标签CCC_03222100 333信使核糖核酸444 678800 1000产品假想蛋白质注释转录变体A;交替拼接蛋白质_ id gnl |数据库名| CCC_03222Atranscript_id gnl | dbname | mrna。CCC_03222A号456 678张CDS800 865产品假想蛋白质由转录变体A编码的注释;交替拼接蛋白质_ id gnl |数据库名| CCC_03222Atranscript_id gnl | dbname | mrna。CCC_03222A号100 360信使核糖核酸444 678800 1000产品假想蛋白质注释转录变体B;交替拼接蛋白质_ id gnl |数据库名| CCC_03222Btranscript_id gnl | dbname | mrna。CCC_03222B号456 678张CDS800 865产品假想蛋白质由转录变体B编码的注释;交替拼接蛋白质_ id gnl |数据库名| CCC_03222Btranscript_id gnl | dbname | mrna。CCC_03222B号
核糖体RNA、tRNA和其他RNA特征
RNA特征(rRNA、tRNA、ncRNA)需要一个具有locos_tag限定符的相应基因特征。如果tRNA的氨基酸未知,请使用tRNA-Xxx作为产物,如示例所示。许多提交者喜欢标记tRNA-Gly1等tRNAs。如果您希望这样做,请将“tRNA-Gly1”作为注释,而不是在/gene中。/gene的用法保留给实际的生物基因符号,如“trnG”。如果tRNA是假基因,请使用/pseudo限定符。
注释属于INSDC之一的ncRNAnRNA_类作为ncRNA功能,在所需的/ncRNA_class限定符中使用适当的值。RNA的区域应该标注为错误特征(如先导序列),或者如果它们与已知分子(如核糖开关)结合,则应标注为错误结合特征。如果RFAM标识符已知,则可以将其作为数据库参考.
一些rRNA、tRNA和ncRNA示例:
<1400基因位置标记KCS_00011<1400 rRNA产品16S核糖体RNA488 560基因位置_标签KCS_00012488 560 tRNA产品tRNA-Lys570 601基因位置标记KCS_00020伪570 601 tRNA产品tRNA-Phe伪700 780基因位置标记KCS_00013700 780 tRNA产品tRNA-Xxx900 923基因位置标记KCS_00014900 923 ncRNAncRNA_类miRNA产品mir-9c950 1000基因位置_标签KCS_00015950 1000 tmRNA产品tmRNA
如果绑定部分已知,则使用misc_binding功能对Riboswitch进行注释,例如:
1 100杂项绑定注意钴胺素核糖开关结合部腺苷钴胺
2017年新增:用regulatory_class“核糖开关”将核糖开关注释为监管特征:
1100监管调节类核糖开关注意钴胺素核糖开关结合部腺苷钴胺
如果绑定部分未知或序列是前导序列,请将其注释为mist_feature,例如:
1 100个错误特性注释yybP-ykoY元素
错误特征、错误结合和调控特征没有相关的基因特征。如果需要使用类似locus_tag的标识符标记这些功能,则将该值包含在注释中,并用分号和空格与其他信息分隔。
证据限定符
国际核苷酸序列数据库协作组织DDBJ、EMBL和GenBank采用了一组新的限定词来描述GenBank记录中特征注释的证据。这些是:
/experimental=“text”/inference=“TYPE:text”,其中“TYPE”来自选择列表,“text“是结构化文本。
这些限定符分别替换不再受支持的/exivent=experimental和/exivens=non-perimal。
查看有关的更多信息证据限定符.
数据库交叉引用
可以向要素添加各种数据库交互参考。这些在功能上显示为/db_xref。此限定符用作将序列记录链接到其他外部数据库的工具。查看完整列表数据库参考数据库。
1100张CDS产品RecAprotein_id gnl|center_name|Test_0001db_xref InterPro:IPR000111180 210错误特性注释yybP-ykoY元素数据库_参考RFAM:RF00080
基因本体论
GO(基因本体论)术语可以包括在基因组中,以便描述蛋白质功能。基因本体论(GO)术语可以用以下限定词表示
1100张CDS产品解旋酶go_process染色质组装或拆卸|0006333||IEAgo_process抗菌体液反应| 0019730 | 16163390 | IMPgo_组分核|0005634|14668392|IDAgo_组分染色质|0000785||IEAgo_function ATP依赖性解旋酶活性|0008026||ISSgo_function核酸结合|0003676||IEAgo_function ATP绑定|0005524||IEA
值字段由竖线“|”分隔为描述性字符串、GO标识符(保留前导零)以及可选的PubMed ID和一个或多个证据代码。证据代码是第四个标记,因此根据需要包括空白字段(例如,最后一个限定符没有PubMed ID,所以第三个字段是空白的)。