跳到内容

ncbi/pgap

文件夹和文件

姓名姓名
上次提交消息
上次提交日期

最新提交

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

存储库文件导航

PGAP公司

NCBI原核基因组注释管道

NCBI原核生物基因组注释管道旨在注释细菌和古细菌基因组(染色体和质粒)。

基因组注释是一个多层次的过程,包括预测蛋白质编码基因以及其他功能基因组单位,如结构RNA、tRNA、小RNA和假基因。

NCBI开发了一个自动原核生物基因组注释管道将从头算基因预测算法与基于同源性的算法相结合方法。第一个版本的NCBI原核基因组管道已经开发2001年,定期升级以改善结构和功能注释质量(Li W、O'Neill KR等人2021年). 最近改进包括利用策划的蛋白质剖面隐马尔可夫模型(HMM),以及用于蛋白质和酶委员会编号和基因本体术语注释。公告后注释基因集的完整性用检查M.

此处提供的工作流程还提供了确认或纠正生物体的选项在开始注释之前,使用平均核苷酸标识工具.

开始看这个网络研讨会!

还需要组装基因组吗?使用RAPT公司从简短的阅读开始制作带注释的基因组

说明

要运行PGAP管道,您需要Linux或一些兼容的容器技术CWL(Common工作流语言),以及大约30GB的补充数据。我们提供此处提供了在CWL参考实现下运行的说明,cwlt工具。安装、运行和解释的完整说明结果可以在我们的维基.

工具书类

美国国立生物技术信息中心

通过蛋白质家族模型管理扩展原核基因组注释管道。
Li W、O'Neill KR、Haft DH、DiCuccio M、Chetvernin V、Badretdin A、Coulouris G、Chitsaz F、Derbyshire MK、Durkin AS、Gonzales NR、Gwadz M、Lanczycki CJ、Song JS、Thanki N、Wang J、Yamashita RA、Yang M、Zheng C、Marchler-Bauer A、Thibaud-Nissen F.RefSeq:核酸研究。2021年1月8日;49(D1):D1020-D1028。

参考序列:原核生物基因组注释和管理的更新。
Haft DH、DiCuccio M、Badretdin A、Brover V、Chetvernin V、O'Neill K、Li W、Chitsaz F、Derbyshire MK、Gonzales NR、Gwadz M、Lu F、Marchler GH、Song JS、Thanki N、Yamashita RA、Zheng C、Thibaud-Nissen F、Geer LY、Marchler-Bauer A、Pruitt KD。
核酸研究2018年1月4日;46(D1):D851-D860。

NCBI原核基因组注释管道。
Tatusova T、DiCuccio M、Badretdin A、Chetvernin V、Nawrocki EP、Zaslavsky L、Lomsadze A、Pruitt KD、Borodovsky M、Ostell J。
核酸研究2016年8月19日;44(14):6614-24. Epub 2016年6月24日。

使用平均核苷酸身份来改进NCBI原核生物基因组中的分类分配。
Ciufo S、Kannan S、Sharma S、Badretdin A、Clark K、Turner S、Brover S、SchochCL、Kimchi A、DiCuccio M。
国际系统进化微生物学杂志。2018年7月;68(7):2386-2392.

基因标记S-2+

对无铅转录和非典型基因进行建模可以在原核生物中实现更准确的基因预测
Lomsadze A、Gemayel K、Tang S、Borodovsky M。
基因组研究。2018; 28(7):1079-1089.

检查M

CheckM:评估从分离物、单细胞和宏基因组中回收的微生物基因组的质量
Parks DH、Imelfort M、Skennerton CT、Hugenholtz P、Tyson GW。
基因组研究。2015; 25(7):1043-1055.

TIGRFAM公司

TIGRFAMs:用于蛋白质功能鉴定的蛋白质家族资源。
Haft DH、Loftus BJ、Richardson DL、Yang F、Eisen JA、Paulsen IT、White O。
《核酸研究》,2001年1月1日;29(1):41-3.

蛋白质家族的TIGRFAMs数据库。
Haft DH、Selengut JD、White O。
《核酸研究》,2003年1月1日;31(1):371-3.

TIGRFAM和基因组属性:原核基因组中分子功能和生物过程分配的工具。
Selengut JD、Haft DH、Davidsen T、Ganapathy A、Gwinn-Giglio M、Nelson WC、Richter AR、White O。
核酸研究,2007年1月;35(数据库问题):D260-4。Epub 2006年12月6日。

2013年的TIGRFAMs和基因组特性。
Haft DH、Selengut JD、Richter RA、Harkins D、Basu MK、Beck E。
《核酸研究》,2013年1月;41(数据库问题):D387-95。doi:10.1093/nar/gks1234。Epub 2012年11月28日。

许可条款

NCBI PGAP CWL

NCBI PGAP CWL和NCBI编写的其他代码是“美国美国版权条款下的“政府工作”行动。这是作者作为曼联官方职责的一部分州政府雇员,因此不受版权保护。这个软件可免费供公众使用。国家医学图书馆和美国政府没有放置任何对其使用或复制的限制。

尽管已经采取了所有合理的措施来确保准确性以及软件和数据、NLM和美国政府没有也不能保证业绩或结果可以通过使用此软件或数据获得。NLM和美国政府否认所有明示或暗示的保证,包括性能、适销性或适用性保证特殊目的。

请在基于本材料的任何工作或产品中引用NCBI。

第三方工具

Docker映像包含在各许可证持有人的许可条款。

基因标记S-2+

GeneMarkS-2+作为PGAP的一部分分发,使用权有限以及乔治亚理工大学研究公司的再分配。请参阅许可证全文.

检查M

GNU通用公共许可证v3.0

此强版权许可的权限取决于在同一许可下提供许可作品和修改的完整源代码,其中包括使用许可作品的较大作品。必须保留版权和许可声明。贡献者明确授予专利权。请参阅许可证全文.

TIGRFAM

原始TIGRFAM数据库是J.Craig的一个研究项目文特尔研究所(JCVI)。TIGRFAMs,简称The Institute for基因组研究的蛋白质家族数据库是主要关注原核的人工筛选蛋白质家族序列。它由隐马尔可夫模型(HMM)、序列比对,基因本体(GO)术语,酶委员会(EC)编号、基因符号、蛋白质家族名称、描述性文本、,TIGRFAM和其他数据库中相关模型的交叉引用,和指向文献的指针。该工作已在上述参考资料部分中列出的文章以及TIGRFAM数据库必须通过引用这四个属性来授予适当的属性文章。

截至2018年4月,权利已转让给国家中心生物技术信息(NCBI),国家医学图书馆,NIH,用于在Creative下发布数据Commons Attribution-ShareAlike 4.0许可证。请参阅(https://creativecommons.org/licenses/by-sa/4.0/)进行简要总结许可证和(https://creativecommons.org/licenses/by-sa/4.0/legalcode)查看全文。