美国国旗

美国政府的官方网站

真核基因组注释指南

注释

Genome Workbench和table2asn(替换tbl2asn)使用简单的五列tab分隔的特征位置和限定符表来生成注释。

此特征表的格式允许指示不同类型的特征(例如基因、编码区、tRNA、repeat_region)和限定符(例如/product、/note)。验证器将检查错误,如编码区域中的内部停止。

指南原核基因组提交.

如果您不理解此处的任何说明或有疑问,请通过电子邮件联系我们genomes@ncbi.nlm.nih.gov在创建提交之前。这将为我们双方节省大量时间。

目录

  1. 准备注释表

准备注释表

这些功能必须位于一个简单的五列制表符分隔表中,称为功能表。特征表指定了表2asn(之前为tbl2asn)或Genome Workbench的每个特征的位置和类型,以包含在创建的GenBank提交中。表的第一行包含以下基本信息:

>功能SeqID table_name

SeqID必须与FASTA文件中序列的SeqID相同。table_name是可选的。表的后续行列出了功能。列由制表符分隔。

  • 第1列:要素的起始位置
  • 第2列:特征的停止位置
  • 第3列:功能键
  • 第4列:限定符键
  • 第5列:限定符值

图2显示了一个示例要素表,并说明了关于要素表格式的一些要点。与此表对应的GenBank平面文件如所示图3。允许的功能及其限定符列在功能表中文档.

互补链上的特征,例如基因Ngs_3038和Ngs_11232及其对应的特征,如图2,通过反转间隔位置来指示。

请避免表格中输入的所有文本不必要的大写。

其他要求以及各种类型注释的建议包含在以下各节中。

基因特征

基因特征总是一个区间,它们的位置应该覆盖所有相关特征的区间,例如启动子和polyA结合位点。

基因名称应遵循特定生物体的标准命名规则。例如,小鼠基因名称以大写字母开头,其余字母为小写。

编码区(CDS)和RNA,如tRNA和rRNA,必须具有相应的基因特征。但是,其他功能(如repeat_regions和misc_features)没有相应的基因或locus_tag。

位置标签

应为所有基因分配一个系统的基因标识符,该标识符应在表中的基因特征上接受locus_tag限定符。基因也可能有科学文献中指定的功能名称。在本例中,KCS_0001是系统基因标识符,而Abc5是功能基因名称。

具有生物名称和locus_tag的基因的表视图:

1 1575基因基因Abc5位置标记KCS_0001

平面文件视图:

基因1..1575/基因=“Abc5”/locus_tag=“KCS_0001”

仅带有locus_tag的基因的表视图:

1 1575基因位置标记KCS_0001

平面文件视图:

基因1..1575/locus_tag=“KCS_0001”

为了保持一致性,必须在整个基因组中使用相同的locos_tag前缀。因此,一个基因组的所有染色体都应该具有相同的locus_tag前缀。

为了改进locus_tags的使用,我们现在要求所有locus_tag前缀都要注册并且是唯一的。我们建议让BioProject注册过程自动指定locus_tag前缀,因为它们不是为了传达含义。locus_tag前缀应该是3-12个字母数字字符,第一个字符不能是数字。locus_tag前缀后面是下划线,然后是给定基因组中唯一的字母数字标识号。除了用于分隔前缀和标识号的单个下划线外,locus_tag中不能使用特殊字符。

如果需要,可以将染色体编号嵌入locus_tag中,格式为Prefix_#g#####,其中第一个#是染色体编号,####1是基因的唯一编号。例如,Ajs_4g00123表示4号染色体上的一个基因。

阅读更多关于位置标记(_T)及其预期用途。

请在生物项目注册第页,然后准备提交给GenBank。这里注册的每个项目都分配了一个project_id,将来我们打算在与特定基因组项目相关的所有条目中显示project_id。

蛋白质id

提交者必须为WGS或完整基因组中的所有蛋白质指定一个识别号。当序列更新时,我们使用这个数字来跟踪蛋白质。该数字在表中由CDS限定符protein_id表示,格式应为gnl|dbname|string,其中dbname是您认为唯一的实验室名称版本(例如SmithUCSD),string是提交者分配的唯一蛋白质SeqID。此标识符与记录一起保存(ASN.1格式),但在平面文件中不可见。我们建议使用locus_tag作为蛋白质SeqID。在本例中,ABC5的protein_id是gnl|SmithUCSD|KCS_0001。

例子:
<1>1575基因基因Abc5位置标记KCS_0001未加工假基因1 1575张CDS产品ABC5蛋白质_id gnl |史密斯UCSD | KCS_0001

由于protein_id用于数据库中的内部跟踪,因此基因组中心不能复制完整的protein_ id(dbname+SeqID)很重要。因此,如果您的基因组中心提交了多个完整的基因组,请确保对所有基因组使用唯一的蛋白质id。

protein_id还作为相应mRNA特征的限定符包含在内,以允许CDS和mRNA在处理过程中配对。

请注意,当处理WGS提交时,protein_id中的数据库名会自动更改为“WGS:XXXX”,其中XXXX是项目的登录号前缀。

在你的基因组被释放到GenBank后,这些蛋白质被分配了登录号。我们将提供一个蛋白质SeqID和登录号表,供您将来使用更新.

成绩单id

transcript_id是CDS及其相应mRNA的限定符。它与蛋白质_id,gnl|dbname|标识符的格式相同。因为每个transcript_id和protein_id都必须是唯一的,我们建议将“mrna”或“t”添加到protein_ id标识符中,作为创建相应(唯一)transcript_id的简单方法。但是,只要所有标识符都是唯一的就可以使用您选择的任何命名约定。

63574 87173基因位置标记Ngs_1713163574 63907 mRNA75690   7573084396   8553685598   8577385836 8610986173   8646786555   8667086731   87173产品假想蛋白质蛋白质_id gnl|ncbi|Ngs_17131转录物id gnl、ncbi、mrna。Ngs_17131号84402 85536 cd85598   8577385836   8610986173   8646786555   8667086731   86882产品假想蛋白质蛋白质_id gnl|ncbi|Ngs_17131转录物id gnl、ncbi、mrna。Ngs_17131号

CDS(编码区域)功能

所有CDS功能都必须有产品限定符(蛋白质名称)。NCBI蛋白质命名约定采用自国际蛋白质命名指南.

一致的命名法对于交流、文献检索和数据检索是必不可少的。许多物种特定的社区已经建立了基因命名委员会,试图分配一致的,如果可能的话,有意义的基因符号。其他科学界已经根据序列相似性和/或功能为一组蛋白质建立了蛋白质命名法。但是,没有一个既定的组织参与蛋白质名称的标准化,也没有任何努力来建立在尽可能大的物种范围内有效的命名规则。

有关基因/蛋白质名称的歧义是文献中的一个主要问题,在序列数据库中更为严重,因为序列数据库往往会传播这种混淆。因此,我们要求您遵循一些基本准则来命名您的蛋白质。蛋白质命名指南的前提是,一个好的、稳定的蛋白质推荐名称是一个尽可能中性的名称。

蛋白质命名指南:

  • 如果存在,请使用批准的术语。
  • 使用简洁的名称,而不是描述或短语。
  • 理想情况下,名称应该是唯一的,并归因于所有直系亲属。
  • 在蛋白质名称未知的情况下,使用“假想蛋白质”或“无特征蛋白质”作为产品名称。
  • 蛋白质名称不应反映蛋白质的亚细胞位置、结构域结构、分子量或来源种类。此信息可以包含在注释中。
  • 对于属于多基因家族的蛋白质,建议您选择带有数字的连贯命名法来指定该家族的不同成员。
  • 当命名可根据同源性或共享功能概念归类为一个家族的蛋白质时,应使用破折号“-”和阿拉伯数字来列举不同的成员。例如“桥粒芯蛋白-1”、“桥粒蛋白-2”等。
  • 功能未知的蛋白质包含一个确定的结构域或基序,可以根据存在的结构域来命名。名称应为以下类型:“<域|重复>-包含蛋白质”。例如“PAS结构域蛋白5”。
  • 蛋白质名称可以用与相应基因相同的符号表示,但其格式对生物体来说是正确的。例如,小鼠蛋白质与基因名称具有相同的符号,但蛋白质名称都是大写字母。
  • 希腊字母必须完整书写,例如“alpha”,在类固醇/脂肪酸代谢命名法中,除“Delta”外,其他字母必须全部小写。此外,后面跟着数字的希腊字母应该在前面或后面加一个破折号“-”,例如“独角兽字母-1”。
  • 使用小写字母,除非需要大写字母(例如,在缩写词中,如DNA或ATP)。
  • 在适当的情况下,名称应使用美国拼写惯例。
  • 避免在蛋白质名称中使用分子量;“unicornase亚基A”优先于“unicoranase 52 kDa亚基”
  • 避免在蛋白质中使用术语“同源物”,因为这意味着进化关系通常尚未确定。
  • 尽可能避免在蛋白质名称中使用逗号。
  • 尽可能避免使用罗马数字。请使用阿拉伯数字。
  • 不要将分子量缩写成缩写
  • 不要使用变音符号,例如重音符号、变音符号。许多计算机系统(包括我们的系统)只能理解ASCII字符。
  • 不要在蛋白质名称中使用复数。例如,“含有锚蛋白重复序列的蛋白质8”是错误的。

以下是一些好的蛋白质名称示例:

细胞色素b
细胞色素B
乌头水合酶B
假想蛋白质
细胞色素b样蛋白
4Fe-4S簇结合蛋白
腺苷酸转移酶/ADP-庚糖合成酶
2-羟基庚烷-2,4-二烯-1,7-二元酸异构酶
短链特异性酰基辅酶A脱氢酶
甲酰甲烷呋喃——四氢甲烷蝶呤甲酰转移酶
丝氨酸/苏氨酸蛋白激酶
翻译起始因子1
三磷酸基-dephospho-CoA合成酶
硫胺素生物合成蛋白ThiC
PAS结构域蛋白5
ABC转运蛋白ATP-结合蛋白AlbC
第0阶段产孢蛋白J
这些名称都简明扼要地描述了已知蛋白质的功能,避免提及结构、同源性和物种。

以下是一些不良蛋白质名称的示例:

钼酸盐有效并入钼蛋白所必需的
这描述了蛋白质在生物合成过程中的作用,但不是蛋白质名称。
伴侣Hsp70;DNA生物合成;自我调节的热休克蛋白
“chaperone Hsp70”这个名称很好,但是剩余的注释最好作为注释或在函数限定符中填写.
假定碳酸酐酶(酶代码EC4.2.1.1)
EC编号不应是蛋白质名称的一部分,而应填入EC_number限定符中
类似于阿硝酸水合酶B
这句话可以作为注释,但作为一种蛋白质名称,硝酸阿糖水合酶B样蛋白质是首选
与功能未知的蛋白质有关
无信息的名称
细胞色素b样
首选细胞色素b样蛋白
ABC运输车相关
名称模糊,有许多ABC转运体和亚单位,更具体。“ABC转运蛋白相关蛋白”是可以接受的,但如果可能的话,一个更具体的名称会更好。
皮林,N端:皮林,C端
注意N端和C端相似性的统一名称
螺旋转螺旋图案
描述一个基序或结构域,但不是合适的蛋白质名称.
PP-停止
描述一个基序或结构域,但不是合适的蛋白质名称.
α/β水成褶皱
描述一个基序或结构域,但不是合适的蛋白质名称.
五肽重复
描述一个基序或结构域,但不是合适的蛋白质名称.
磷酸泛乙烯结合结构域
描述一个基序或结构域,但不是合适的蛋白质名称.
功能未知的蛋白质:保守
无信息的名称
假想的32.5kDa蛋白与植物烯和角鲨烯合成酶同源
仅假设蛋白质是合适的。其余评论应作为备注填写.
核糖体蛋白L3(大肠杆菌)
蛋白质名称不应包含对有机体名称的引用。核糖体蛋白L3本身就是一个合适的名称.
糖精脱氢酶或相关蛋白
“糖精脱氢酶”或“糖精脱水酶样蛋白”更合适
酪氨酸蛋白激酶(荚膜多糖生物合成)
酪氨酸蛋白激酶作为一种蛋白质名称很好,但荚膜多糖生物合成作为一种功能更合适.
RimM蛋白,16S rRNA加工所需
RimM作为蛋白质名称很好,但应在注释中添加描述性注释.
参与鞭毛生物合成
这是一个功能注释,而不是蛋白质名称.

笔记

请避免包含表示与数据库中其他条目的特定相似百分比的注释,因为您所指向的相应记录可能会发生更改,并使您当前的注释不准确、不正确和过时。描述、描述与其他蛋白质相似性的注释和功能注释必须放在适当的CDS限定符中,例如note或prot_desc,因为它们是产品的描述符。E.C.编号必须在EC_number限定符中字段化。

启动-停止CDS产物DNA聚合酶B亚单位EC编号5.99.1.3

可用于CDS功能的限定符包括:

启动-停止CDS产品prot _ desc(保护_ desc)功能EC编号(_N)笔记实验推理go_组件go_进程go_函数数据库参考例外transl_except(转换除外)

可以包含多个音符限定符,并将由表2asn或Genome Workbench连接到一个音符中,以分号作为分隔符。

双功能蛋白质:

如果一个蛋白质包含两个独立和不同的功能,或者如果它有多个名称,可以用多种方式进行注释,如下所述。表格视图:

启动-停止CDS产物腺苷酸转移酶/ADP-庚糖合成酶注释双功能

启动-停止CDS产品双功能腺苷酸转移酶/ADP-庚糖合成酶环水解酶

启动-停止CDS产品折叠D功能腺苷酸转移酶功能ADP-庚糖合成酶环水解酶注释双功能

部分编码区域

要注释部分编码区域,应使用“<”或功能表中的“>”将功能指定为5'或3'部分。编码区应从第一个核苷酸开始出现在序列或外显子中,您将指出第一个完整的密码子开始于该编码区。

序列中的部分基因应该在一致剪接位点开始或结束。

示例:

在下面的第一个例子中,“<”将该编码区指定为5'部分,“codon_start 3”告诉软件用CDS的第三核苷酸开始翻译。请注意,如果未指定codon_start,则软件假定codon_sstart为1。下面的第二个编码区域在3'端是部分的,因此“>”用于指示3'部分特征。第三个例子是互补链或负链上的3'部分编码区。

<1497 CDS产物转录因子注释类似于枯草芽孢杆菌醛缩酶密码启动3蛋白质_ id gnl |数据库名| KCS_0001transcript_id gnl | dbname | mrna。KCS_0001号机组600>1575 CDS产品类肌动蛋白protein_id gnl |数据库名| KCS_0002transcript_id gnl | dbname | mrna。KCS_0002公司436>1张CDS产品假想蛋白质蛋白质_ id gnl |数据库名| KCS_0056transcript_id gnl | dbname | mrna。KCS_0056号

这里有格式化部分CDS功能的更多示例.

mRNA特征

包括每个翻译的CDS的mRNA特征。需要注意的几点是:

  • 对mRNA及其对应的CDS使用相同的产品名称。
  • 如果没有UTR信息,则mRNA的位置将与其CDS的位置一致,但mRNA在其5'和3'端将是部分的。
  • 扩展基因特征以包括整个mRNA。
  • 如果mRNA是部分的,则使基因部分化。
示例:

第一个例子是一个完整的CDS,其5'和3'UTR是已知的。

>特征Cont5410400 12512基因位置标签CCC_0311610400 10462 mRNA10533   1057710651   1109811182   1164211716   12512产品假想蛋白质蛋白质_ id gnl |数据库名| CCC_03116transcript_id gnl | dbname | mrna。CCC_03116号10450 10462信用违约互换10533   1057710651   1109811182   1164211716   12233产品假想蛋白质蛋白_id gnl |数据库名称| CCC_03116transcript_id gnl | dbname | mrna。CCC_03116号

第二个例子是CDS,它在5'端是部分的,并且缺少任何3'UTR信息。

>特征Cont3<1>497基因位置标签CCC_111011<1497 CDS注释类似于枯草芽孢杆菌醛缩酶产品醛缩酶样蛋白密码_开始3蛋白质_ id gnl |数据库名| CCC_111111transcript_id gnl | dbname | mrna。CCC_111011号<1>497 mRNA产品醛缩酶样蛋白蛋白id gnl |数据库名称| CCC_111011transcript_id gnl | dbname | mrna。CCC_111011号

基因片段

有时,基因组会有相邻或邻近的基因,这些基因似乎只是蛋白质的一部分。在许多情况下,这表明序列和/或注释可能存在问题。一个相关的问题是CDS的概念翻译中存在内部终止密码子,看起来应该是真正的CDS。这些问题可能是由多种原因造成的,包括突变或测序工件。它们可以通过多种方式进行注释:

  1. 用/pseudo注释该基因,以表明该基因存在问题。注意,这个限定词并不意味着该基因是假基因。(如果已知该基因为假基因,请参见下文第2点)如果最初存在多个基因片段,则添加一个涵盖所有潜在编码区域的单个基因特征,并添加伪限定符。如果已知,可以添加注释限定符,指示该基因被破坏的原因,例如:

    1200基因基因Abc5位置标记KCS_0001基因desc碱性磷酸酶注意由于帧移位而无法工作
  2. 如果你确定被破坏或错误填充的基因是生物假基因,那么添加假基因限定符和适当的假基因型例如:

    1200基因Abc5基因位置标记KCS_0001基因desc碱性磷酸酶未加工假基因
  3. 如果该特征只是记录了与数据库中基因的相似性,并且可能没有翻译,那么应该将其注释为没有相应基因特征的错误特征。

    1200个错误特性注释类似于Abc5

转切基因

转译基因是注释基因特征跨度规则的例外。转座基因与包含内含子的基因相似,只是这两段基因位于染色体的不同区域。这些基因被转录为两个或多个单独的RNA产物,这些RNA产物被转译为单个mRNA或tRNA。要使用表格对此进行注释,请输入核苷酸跨度,以便互补(负链)跨度从高到低排列,正链则相反。

36700 36618基因86988   87064位置标记NEQ_t38异常交叉拼接36631 36618错误特性注意在处理转剪接tRNAs过程中出现的序列断裂36673   3663587030 87064 tRNA产品tRNA-Glu异常交叉拼接注意,这种转剪接的tRNA由混合链上的两半组成;它与另一个tRNA共用一个3'半平面文件视图:基因连接(补体(36618..36700),86988..87064)/locus_tag=“NEQ_t38”/跨接(_S)错误特征补码(36618..36631)/locus_tag=“NEQ_t38”/注=“处理转剪接tRNAs过程中的序列断裂”tRNA连接(补体(36635..36673),87030..87064)/locus_tag=“NEQ_t38”/product=“tRNA-Glu”/跨接(_S)/注=“这个转剪接的tRNA由两部分组成混合股;它与另一个tRNA共用3'半“

两个contigs上的分裂基因

新消息(2012年9月):有时在不完整的基因组中,一个基因的末端可能位于不同的连接上。当确定这两个片段是同一基因的一部分时,将它们注释为具有独特locus_tags的单独基因,以及具有不同蛋白id和转录id的单独CDS/mRNAs。此外,将这些特征与指代基因另一部分的注释链接在一起。然而,不要创建非常短的特征,例如,如果一端只是起始甲硫氨酸,或者在终止密码子之前只有几个氨基酸。

>功能续01.001115000>7500基因位置标签KCS_2223A5000 5500 mRNA6000    >7200产物烯醇化酶protein_id gnl |数据库名| KCS_2223Atranscript_id gnl | dbname | mrna。KCS_2223A公司5488 5500张CDS6000    >7200产物烯醇化酶protein_id gnl |数据库名| KCS_2223Atranscript_id gnl | dbname | mrna。KCS_2223A公司注释5'结束;3’端为基因KCS_2223B,位于contig Cont01.00224上
>功能Cont01.00224<1 1000基因位置_标签KCS_2223B<100 1000 mRNA产物烯醇化酶蛋白质_ id gnl |数据库名| KCS_2223Btranscript_id gnl | dbname | mrna。KCS_2223B公司<100 876 CDS产物烯醇化酶蛋白质_ id gnl |数据库名| KCS_2223Btranscript_id gnl | dbname | mrna。KCS_2223B公司注释3'结束;5'端为基因KCS_2223A,位于contig Cont01.00111上

选择性剪接基因

在许多情况下,基因可以选择性剪接,产生替代转录物。这些转录物可能在编码区不同并产生不同的产物,或者它们可能在非翻译的5'或3'UTR不同并产生相同的蛋白质。要注释选择性剪接基因,请为每个转录物包含一个mRNA和CDS,并且在所有特征中只包含一个基因。给相应的信使核糖核酸和CDS取相同的名字,并在每个信使核糖核酸和CDS上加上“交替拼接”的注释。如果有多个具有相同名称的CDS,则为每个mRNA和CDS添加注释以相互引用,例如,对于一对mRNA/CDS,“转录变体a”和“由转录变体a编码”。如果CDS有不同的翻译,那么它们应该有不同的产品名称。确保所有蛋白质都有唯一的蛋白质id。

示例1(不同产品):
>功能Cont01.0005510 5000基因位置标记CCC_0456210 500信使核糖核酸722     15552548    39014400    5000产物烯醇化酶亚型A注释交替拼接protein_id gnl |数据库名| CCC_04562Atranscript_id gnl | dbname | mrna。CCC_04562A公司102 500 CDS722     15552548    39014400    4566产物烯醇化酶亚型A注释交替拼接蛋白_id gnl |数据库名称| CCC_04562Atranscript_id gnl | dbname | mrna。CCC_04562A公司10 500 mRNA2548    39014400    5000产物烯醇化酶亚型B注释交替拼接蛋白质_ id gnl |数据库名| CCC_04562Btranscript_id gnl | dbname | mrna。CCC_04562B号102 500 CDS2548    39014400    4566产物烯醇化酶亚型B钞票交替拼接蛋白质_ id gnl |数据库名| CCC_04562Btranscript_id gnl | dbname | mrna。CCC_04562B号
示例2(同一产品):
>功能Cont01.00056100 1000基因位置标签CCC_03222100 333信使核糖核酸444     678800     1000产品假想蛋白质注释转录变体A;交替拼接蛋白质_ id gnl |数据库名| CCC_03222Atranscript_id gnl | dbname | mrna。CCC_03222A号456 678张CDS800     865产品假想蛋白质由转录变体A编码的注释;交替拼接蛋白质_ id gnl |数据库名| CCC_03222Atranscript_id gnl | dbname | mrna。CCC_03222A号100 360信使核糖核酸444     678800     1000产品假想蛋白质注释转录变体B;交替拼接蛋白质_ id gnl |数据库名| CCC_03222Btranscript_id gnl | dbname | mrna。CCC_03222B号456 678张CDS800     865产品假想蛋白质由转录变体B编码的注释;交替拼接蛋白质_ id gnl |数据库名| CCC_03222Btranscript_id gnl | dbname | mrna。CCC_03222B号

核糖体RNA、tRNA和其他RNA特征

RNA特征(rRNA、tRNA、ncRNA)需要一个具有locos_tag限定符的相应基因特征。如果tRNA的氨基酸未知,请使用tRNA-Xxx作为产物,如示例所示。许多提交者喜欢标记tRNA-Gly1等tRNAs。如果您希望这样做,请将“tRNA-Gly1”作为注释,而不是在/gene中。/gene的用法保留给实际的生物基因符号,如“trnG”。如果tRNA是假基因,请使用/pseudo限定符。

注释属于INSDC之一的ncRNAnRNA_类作为ncRNA功能,在所需的/ncRNA_class限定符中使用适当的值。RNA的区域应该标注为错误特征(如先导序列),或者如果它们与已知分子(如核糖开关)结合,则应标注为错误结合特征。如果RFAM标识符已知,则可以将其作为数据库参考.

一些rRNA、tRNA和ncRNA示例:
<1400基因位置标记KCS_00011<1400 rRNA产品16S核糖体RNA488 560基因位置_标签KCS_00012488 560 tRNA产品tRNA-Lys570 601基因位置标记KCS_00020570 601 tRNA产品tRNA-Phe700 780基因位置标记KCS_00013700 780 tRNA产品tRNA-Xxx900 923基因位置标记KCS_00014900 923 ncRNAncRNA_类miRNA产品mir-9c950 1000基因位置_标签KCS_00015950 1000 tmRNA产品tmRNA

如果绑定部分已知,则使用misc_binding功能对Riboswitch进行注释,例如:

1 100杂项绑定注意钴胺素核糖开关结合部腺苷钴胺

2017年新增:用regulatory_class“核糖开关”将核糖开关注释为监管特征:

1100监管调节类核糖开关注意钴胺素核糖开关结合部腺苷钴胺

如果绑定部分未知或序列是前导序列,请将其注释为mist_feature,例如:

1 100个错误特性注释yybP-ykoY元素

错误特征、错误结合和调控特征没有相关的基因特征。如果需要使用类似locus_tag的标识符标记这些功能,则将该值包含在注释中,并用分号和空格与其他信息分隔。

证据限定符

国际核苷酸序列数据库协作组织DDBJ、EMBL和GenBank采用了一组新的限定词来描述GenBank记录中特征注释的证据。这些是:

/experimental=“text”/inference=“TYPE:text”,其中“TYPE”来自选择列表,“text“是结构化文本。

这些限定符分别替换不再受支持的/exivent=experimental和/exivens=non-perimal。

查看有关的更多信息证据限定符.

数据库交叉引用

可以向要素添加各种数据库交互参考。这些在功能上显示为/db_xref。此限定符用作将序列记录链接到其他外部数据库的工具。查看完整列表数据库参考数据库。

1100张CDS产品RecAprotein_id gnl|center_name|Test_0001db_xref InterPro:IPR000111180 210错误特性注释yybP-ykoY元素数据库_参考RFAM:RF00080

基因本体论

GO(基因本体论)术语可以包括在基因组中,以便描述蛋白质功能。基因本体论(GO)术语可以用以下限定词表示

1100张CDS产品解旋酶go_process染色质组装或拆卸|0006333||IEAgo_process抗菌体液反应| 0019730 | 16163390 | IMPgo_组分核|0005634|14668392|IDAgo_组分染色质|0000785||IEAgo_function ATP依赖性解旋酶活性|0008026||ISSgo_function核酸结合|0003676||IEAgo_function ATP绑定|0005524||IEA

值字段由竖线“|”分隔为描述性字符串、GO标识符(保留前导零)以及可选的PubMed ID和一个或多个证据代码。证据代码是第四个标记,因此根据需要包括空白字段(例如,最后一个限定符没有PubMed ID,所以第三个字段是空白的)。

上次更新时间:2021-11-04T18:17:21Z