美国国旗

美国政府的官方网站

PGAP现在可用作独立软件包。您可以在自己的机器、本地集群或云上注释基因组!通过观看短视频!

NCBI原核基因组注释管道

这个NCBI原核基因组注释管道(PGAP)旨在注释细菌和古菌基因组(染色体和质粒)。

基因组注释是一个多层次的过程,包括预测蛋白质编码基因以及其他功能基因组单位,如结构RNA、tRNA、小RNA、假基因、控制区、直接和反向重复序列、插入序列、转座子和其他移动元件。

NCBI开发了一种自动原核生物基因组注释管道从头算基于同源性的基因预测算法。第一个版本的NCBI原核基因组管道于2001年开发,并定期升级以提高结构和功能注释质量(Li W、O'Neill KR等人2021,Haft DH等人2018,Tatusova T等人2016). 结构和功能注释的使用蛋白质家族模型是一个由基于隐马尔可夫模型和基于BLAST的蛋白质家族(HMM和BlastRules)以及保守域数据库体系结构(CDD)组成的证据层次集合。HMM、BlastRules和CDD用于为符合家族标准的原核RefSeq蛋白分配名称、基因符号、出版物和EC编号。HMM和BlastRules有助于结构注释。

相关文件:

GenBank(基因银行)

NCBI原核生物注释管道可用作独立软件包你可以自己运行以生成带注释的基因组,以便提交给GenBank。这也是一项针对GenBank提交者的服务,可以在提交时请求。该管道能够注释由多个连续序列组成的完整基因组和草稿WGS基因组。

WGS和非WGS基因组,包括无间隙完整细菌染色体,都可以通过提交门户提交。您将被要求选择提交的基因组是否被视为WGS。GenBank的不同之处在于:

非WGS:

  • 每条染色体都在一个序列中,没有额外的序列
  • 基因组中的每个序列都必须分配给染色体、质粒或细胞器
  • 质粒和细胞器仍然可以是多片的。

工作组:

  • 一条或多条染色体分为多条和/或一些序列未组装成染色体

在这两种情况下:

  • 序列中仍可能存在间隙;你将在提交文件中提供这些信息。
  • 质粒和细胞器仍然可以是多片的。
  • 内部序列必须按正确的顺序和方向排列。
  • 不允许以未知顺序连接的序列。

提交通过基因组提交门户.请参阅基因组提交说明页了解详细信息。

参考序列

除RefSeq原核参考基因组外,所有RefSeq细菌和古生物基因组均使用NCBI的原核基因组注释管道进行注释。有关此政策的其他信息,请访问:

有关RefSeq真核基因组的信息,请参阅:真核基因组注释

关于RefSeq原核基因组的问题:genomes@ncbi.nlm.nih.gov

工具书类

Li W、O'Neill KR、Haft DH、DiCuccio M、Chetvernin V、Badretdin A、Coulouris G、Chitsaz F、Derbyshire MK、Durkin AS、Gonzales NR、Gwadz M、Lanczycki CJ、Song JS、Thanki N、Wang J、Yamashita RA、Yang M、Zheng C、Marchler-Bauer A、Thibaud-Nissen F。RefSeq:通过蛋白质家族模型管理扩大原核基因组注释管道范围。《核酸研究》2021年1月8日;49(D1):D1020-D1028。doi:10.1093/nar/gkaa1105。PMID:33270901

Haft DH、DiCuccio M、Badretdin A、Brover V、Chetvernin V、O'Neill K、Li W、,Chitsaz F、Derbyshire MK、Gonzales NR、Gwadz M、Lu F、Marchler GH、Song JS、,Thanki N、Yamashita RA、Zheng C、Thibaud-Nissen F、Geer LY、Marchler-Bauer A、,普鲁特KD。参考序列:原核生物基因组注释和管理的更新。核酸研究2018年1月4日;46(D1):D851-D860。doi:10.1093/nar/gkx1068。公共医学PMID:29112715

Tatusova T、DiCuccio M、Badretdin A、Chetvernin V、Nawrocki EP、Zaslavsky L、,Lomsadze A、Pruitt KD、Borodovsky M、Ostell J.NCBI原核基因组注释管道。核酸研究2016年8月19日;44(14):6614-24. doi:10.1093/nar/gkw569。PMID:27342282

上次更新时间:2024-04-04T17:41:54Z