美国国旗

美国政府的官方网站

NCBI原核基因组注释管道发布说明

返回到NCBI原核基因组注释管道

*版本6.8 2024年8月12日*

  • 为了提高管道的可扩展性和可维护性,NCBI PGAP现在使用Miniport公司用于蛋白质与基因组比对;PMID:36648328.

    • NCBI一直在努力将算法中切换的不利影响降到最低,并且不希望我们的注释调用质量出现任何中断。在广泛的分类群上进行了广泛的测试后,我们得出结论,PGAP 6.8完美地再现了PGAP 6.7产生的98.6%的蛋白质模型,其余的绝大多数差异仅限于起始位点选择的微小变化。平均而言,我们预计每个组件大约有40个型号会发生这种变化。
  • 蛋白质家族模型中CDD 3.21的更新

使用的第三方软件版本:

  • tRNA扫描-SE 2.0.12
  • hmmer第3.4版
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam第14.4版
  • 通用标记S2-v.1.14_1.25
  • 地狱1.1.5

*版本6.7 2024年3月*

  • 第三方软件更新
    • hmmer v.3.4版
    • 地狱1.1.5
  • Pfam版本36用于帮助进行结构和功能注释
  • 合并GeneOntology 2024-01-17变更以更新GO术语

使用的第三方软件版本:

  • tRNA扫描-SE 2.0.12
  • hmmer v.3.4版
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam第14.4版
  • 通用标记S2-v.1.14_1.25
  • 地狱1.1.5

*版本6.6 2023年8月*

  • FCS-GX确定为外来污染物的跨度上无基因或其他特征注释https://github.com/ncbi/fcs/wiki/fcs-GX

  • 通过改进结构注释期间的蛋白质比对处理降低假基因假阳性率

  • 为验证的小蛋白设计新的隐马尔可夫模型(HMM),以改进结构注释
  • 采用PFAM版本35,用于结构和功能注释
  • 添加了CheckM完整性截断以验证注释。只有满足以下条件时,带注释的程序集才会添加到RefSeq集合中:
    • 对于RefSeq中具有1000个以上组件的物种,完整性高于物种平均完整性-标准偏差的3倍
    • 对于RefSeq中具有10-1000个组件的物种,完整性高于90%或物种平均完整性的较小值-标准偏差的3倍
    • 如果物种中的组件少于10个,则不应用CheckM截止

使用的第三方软件版本:

  • tRNA扫描-SE 2.0.12
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam第14.4版
  • 通用标记S2-v.1.14_1.25
  • 地狱第1.1.1节

*版本6.5 2023年3月*

  • 将CDD属性添加到基因组和蛋白质

使用的第三方软件版本:

  • tRNA扫描-SE 2.0.12
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam第14.4版
  • 通用标记S2-v.1.14_1.25
  • 地狱v.1.1.1

*版本6.4 2022年12月*

  • 对可信蛋白质的比对进行更严格的筛选,从而改进长蛋白质的结构注释
  • 升级至tRNAscan-SE 2.0.12
  • 用于功能注释的数据更改:
    • 纳入GeneOntology 2022-11-03变更
    • 切换到CDD 3.20架构

使用的第三方软件版本:

  • tRNA扫描-SE 2.0.12
  • hmmer v.3.1b2
  • CRISPR版本1.02
  • 反Fam v.3.0
  • Rfam第14.4版
  • 通用标记S2-v.1.14_1.25
  • 地狱v.1.1.1

*版本6.3 2022年9月*

  • 对低质量比对进行更严格的筛选,从而更好地注释长蛋白质

使用的第三方软件版本:

  • tRNAScan SE 2.0.9版
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam第14.4版
  • 通用标记S2-v.1.14_1.25
  • 地狱v.1.1.1

*版本6.2 2022年7月*

  • 结构注释算法的更新:HMM比对中的信任增加,从而更好地选择起始点
  • 将公认的从头算假设模型的长度阈值从45降低到40 a
  • 将tRNAScan SE从2.0.7版更新到2.0.9版

使用的第三方软件版本:

  • tRNAScan-SE v.2.0.9
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam第14.4版
  • 通用标记S2-v.1.14_1.25
  • 地狱v.1.1.1

*版本6.1 2022年3月*

仅维护更新

使用的第三方软件版本:

  • tRNAScan-SE v.2.0.7
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam第14.4版
  • 通用标记S2-v.1.14_1.25
  • 地狱v.1.1.1

*版本6.0 2022年2月*

新功能:

  • 在注释中添加GO术语
  • 新增Rfam型号

使用的第三方软件版本:

  • tRNAScan-SE v.2.0.7
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam第14.4版
  • 基因标记S2-v.1.14_1.25
  • 地狱v.1.1.1

*版本5.3 2021年9月*

新功能:

  • 更新结构注释算法以允许将来的扩展性

使用的第三方软件版本:

  • tRNAScan-SE v.2.0.7
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam第14.4版
  • 基因标记S2-v.1.14_1.25
  • 地狱v.1.1.1

*版本5.2 2021年5月*

新功能:

  • 使用基因直系学绘制有限物种的基因符号
    • 将大肠杆菌、结核分枝杆菌、不动杆菌、枯草芽孢杆菌和空肠弯曲杆菌参考基因组中的基因符号映射到PGAP未提供基因符号的同一物种的基因组
    • 参数:参考基因组基因和目标基因的基因覆盖率均>0.9,相似度>0.8,PGAP产品名称不是假设蛋白质

使用的第三方软件版本:

  • tRNAScan-SE v.2.0.7
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam第14.4版
  • 通用标记S2-v.1.14_1.25
  • 地狱v.1.1.1

*版本5.1 2021年2月*

新功能:

  • 升级到第三方软件。tRNAScan-SE v.2.0.4至v.2.0.7,Rfam v.12.0至v.14.4,GeneMarkS2-v.1.10_1.17至v.1.14_1.25

使用的第三方软件版本:

  • tRNAScan-SE v.2.0.7
  • hmmer v.3.1b2
  • CRISPR版本1.02
  • 反Fam v.3.0
  • Rfam第14.4版
  • 通用标记S2-v.1.14_1.25
  • 地狱v.1.1.1

*版本5.0 2020年12月*

新功能:

  • 通过将非质粒候选ORF和最终模型的Blast搜索限制为分类顺序特定的蛋白质簇代表,提高了性能。质粒序列的模型将继续根据蛋白质簇代表的无限制数据库进行搜索。与以前的版本一样,所有非质粒和质粒候选ORF和最终模型都是根据BlastRules的整个集合进行搜索的。这种变化没有观察到注释输出的敏感性或特异性损失。

使用的第三方软件版本:

  • tRNAScan-SE v.2.0.4
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam v.12.0版
  • 基因标记S-2-1.10
  • 地狱v.1.1.1

*版本4.13 2020年9月*

新功能:

  • 通过针对细菌和古菌的Rfam SSU和LSU模型的infinal cmsearch鉴定16S和23S rRNA。这取代了基于BLAST的对核糖体RNA的手动管理NCBI数据库的搜索。
  • 使用跨原点CDS改进了循环序列的注释。
  • 修复了运行时性能回归。
  • 更改计划以纠正次要问题并提高性能。

使用的第三方软件版本:

  • tRNAScan-SE v.2.0.4
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam v.12.0版
  • 基因标记S-2-1.10
  • 地狱v.1.1.1
  • TIGRfam 15.0(用于命名)

*版本4.12 2020年7月*

新功能:

  • 升级至sc24。
  • 删除从注释证据中撤回的PMID。将更新WP加入,以反映证据的变化。
  • 更改计划以纠正次要问题并提高性能。

使用的第三方软件版本:

  • tRNAScan-SE v.2.0.4
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam v.12.0版
  • 基因标记S-2-1.10
  • 地狱v.1.1.1
  • TIGRfam 15.0(用于命名)

*4.11版2020年1月*

新功能:

  • 从PGAP结构分析中删除即将退役的参考基因组。
  • 在属水平的结构注释中使用参考蛋白。在结构注释中,与其他蛋白质比对相比,在属水平上可用的参考基因组上的蛋白质比对(如果有的话)具有更高的权重。与之前的PGAP软件相比,这是一个变化,在该软件中,与注释生物体相同分支的参考基因组上的蛋白质比对被赋予了更高的权重。

使用的第三方软件版本:

  • tRNAScan-SE v.2.0.4
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • AntiFam 3.0版
  • Rfam v.12.0版
  • 基因标记S-2-1.10
  • 地狱v.1.1.1
  • TIGRfam 15.0(用于命名)

*4.10版本2019年10月*

新功能:

  • 由于GeneMark注释的权重增加,提高了小蛋白基因调用的准确性

使用的第三方软件版本:

  • tRNAScan-SE v.2.0.4
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam v.12.0版
  • 基因标记S-2-1.10
  • 地狱v.1.1.1
  • TIGRfam 15.0(用于命名)

*版本4.9 2019年7月*

新功能:

  • 更新的tRNAscan
  • 增加17个Rfam型号
  • 增加了核糖开关和错误绑定功能与CDS的允许重叠

使用的第三方软件版本:

  • tRNAScan-SE v.2.0.4
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam v.12.0版
  • 基因标记S-2-1.10
  • 地狱v.1.1.1
  • TIGRfam 15.0(用于命名)

*版本4.8 2019年3月*

新功能:

  • 证据属性和结构化注释被添加到RefSeq蛋白记录中

使用的第三方软件版本:

  • tRNAScan-SE v.1.21
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam v.12.0版
  • 基因标记S-2-1.10
  • 地狱第1.1.1节
  • TIGRfam 15.0(用于命名)

*版本4.7 2018年11月*

新功能:

  • GeneMarkS2+目前用于从头算基因预测
  • 基因间蛋白质的命名集已经改进

使用的第三方软件版本:

  • tRNASca-SE v.1.21
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam v.12.0版
  • 基因标记S-2-1.10
  • 地狱v.1.1.1
  • TIGRfam 15.0(用于命名)

*版本4.6 2018年7月*

新功能:

  • 添加SPARCLE架构用于蛋白质命名
  • 添加家族、亚家族和结构域级策划HMM用于蛋白质命名

使用的第三方软件版本:

  • tRNASca-SE v.1.21
  • hmmer v.3.1b2
  • CRISPR版本1.02
  • 反Fam v.3.0
  • Rfam v.12.0版
  • 基因标记S-4.25
  • 地狱v.1.1.1
  • TIGRfam 15.0(用于命名)

*版本4.5 2018年3月*

新功能:

  • 使用Pfam Hmm的收集阈值

使用的第三方软件版本:

  • tRNASca-SE v.1.21
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam v.12.0版
  • 基因标记S-4.25
  • 地狱v.1.1.1
  • TIGRfam 15.0(用于命名)

*版本4.4 2017年12月*

新功能:

  • 在PGAP中打开BLAST规则
  • 修复伪码中的split-seq-loc
  • 复制所有短参考蛋白
  • 使用所有等价HMM在PGAP中命名
  • 修复CDS跨越间隙
  • 使用AMR HMM进行命名
  • 使用爆破规则进行结构注释

使用的第三方软件版本:

  • tRNASca-SE v.1.21
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam v.12.0版
  • 基因标记S-4.25
  • 地狱v.1.1.1
  • TIGRfam 15.0(用于命名)

*版本4.3 2017年10月*

新功能:

  • 功能注释爆破规则的实现
  • 转座酶程序化移码的实现

使用的第三方软件版本:

  • tRNASca SE版本1.21
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam v.12.0版
  • 地狱v.1.1.1
  • TIGRfam 15.0(用于命名)

*版本4.2 2017年5月*

新功能:

  • PGAP 4.2是一个点发行版,与PGAP 4.1相比变化最小
  • 支持BLAST规则注释的基础工作已经实现。Blast Rules是一个系统,它根据Blast搜索输出中的参数,定义精确的标准(覆盖率,%标识),以表示查询蛋白逐个蛋白质匹配目标。Blast规则可以用极其严格的匹配标准创建,并用于区分非常密切相关的蛋白质。
  • 证据搜索中蛋白质匹配的性能得到了改进
  • 转座酶的程序性移码标记已经建立

修复的错误:

  • 修复了RefSeq重新标记执行过程中出现的问题

使用的第三方软件版本:

  • tRNASca-SE v.1.21
  • hmmer第3.1b2版
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam v.12.0版
  • 地狱v.1.1.1
  • TIGRfam 15.0(用于命名)

*版本4.1 2017年2月*

新功能:

  • ORF+HMM方法的改进:
    • 仅根据HMM证据,选择合适的框架,调整生成蛋白质的能力
    • 提供证据的ORF扩展的调整截止值
  • 增加了我们对参考基因组中蛋白质证据的依赖性。在对现有参考基因组注释进行广泛审查后,基于低质量注释产品的证据集中删除了一小部分。
  • 增加了基于与可信硒蛋白家族同源性的硒蛋白预测(感谢PMID的Yan Zhang博士:26800233)
  • 广泛清理我们证据集中的特定蛋白质家族,包括对我们如何处理转座酶的大幅度修改。在我们的综述中,PGAP产生的大量片段蛋白质是由于转座酶证据不明确所致;我们的数据清理侧重于保存高质量的完整证据,以支持更好的质量预测。

修复的错误:

  • 显著清除命名集蛋白质。我们预计在未来几个月内,pgap-4.1将继续改进
  • 消除了许多短的部分转座酶片段

使用的第三方软件版本:

  • tRNASca-SE v.1.21
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam v.12.0版
  • 地狱v.1.1.1
  • TIGRfam 15.0(用于命名)

*版本4.0 2016年11月*

新功能:

  • 引入新的基因查找算法,该算法依赖于在任何HMM(包括域特定Pfam HMM)支持下识别ORF
  • 消除对核心蛋白证据的依赖
  • 基于Rfam预测引入具有扩展属性的新核糖开关标记
  • 扩展和更新抗菌药物耐药性鉴定HMM
  • 改进了接受PRK证据HMM的截止值

修复的错误:

  • 显著清除命名集蛋白质。
    • 消除了许多短的部分转座酶片段
    • 消除了几个相互冲突的错误帧翻译
  • 调整基因选择算法,以保留基因组上的重复证据。以前,最佳布局算法会倾向于任何蛋白质的单一最佳布局;从PGAP-4.0开始,允许多次放置,改进了已知冗余和重复蛋白质的注释。

使用的第三方软件版本:

  • tRNASca-SE v.1.21
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam v.12.0版
  • 地狱v.1.1.1
  • TIGRfam 15.0(用于命名)

*版本3.3 2016年5月*

新功能:

  • 软件升级到最新的NCBI C++工具包生产代码;这不会影响注释结果

修复的错误:

  • 修复了少量流程错误;这不会影响注释结果

使用的第三方软件版本:

  • tRNASca-SE v.1.21
  • hmmer第3.1b2版
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam v.12.0版
  • 地狱v.1.1.1
  • TIGRfam 15.0(用于命名)

*版本3.2 2016年4月*

该软件更新于4月底发布,供RefSeq生产使用,并于5月初发布,供GenBank生产使用。

新功能:

  • 命名变化:我们现在使用可信和精心策划的等效HMM进行命名,优先于蛋白质簇
  • 在初始蛋白质搜索中添加精选蛋白质序列列表

修复的错误:

  • 修复了ANI报告和分类检查中的错误
  • 修复了处理GenBank提交的Seq-id时的错误,尤其影响现有记录的更新
  • 更新了部分对齐的过滤,改进了对部分要素的调用
  • 删除了起始密码子以外的transl_的不适当用法;而是报告部分功能。
  • 如果可能,将间隙或连续端附近的部分特征延伸到边界。

使用的第三方软件版本:

  • tRNASca SE版本1.21
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam v.12.0版
  • 地狱v.1.1.1
  • TIGRfam 15.0(用于命名)

版本3.1 2016年1月

新功能:

  • 用于33种型号的RFAM型号扩展列表:
    • 5S_rRNA
    • 6秒
    • 6S-风味
    • Archaea_SRP公司
    • 细菌_大_SRP
    • 细菌_小_SRP
    • 科巴拉明
    • FMN(飞行管理号码)
    • 甘氨酸
    • 锤头_II
    • MOCO_RNA_移动
    • 第一季度前
    • 嘌呤
    • RNaseP_存档
    • RNaseP_bact_a
    • RNaseP_bact_b
    • 注册退休人员
    • RtT公司
    • SAH_核糖开关
    • 山姆
    • SAM-IV公司
    • SAM_V格式
    • SAM_阿尔法
    • 火力发电厂
    • α_信使核糖核酸
    • βtmRNA
    • c-di-GMP-I型
    • c-di-GMP-II型
    • 氰基_tmRNA
    • Q1-II前
    • sX9系列
    • snoPyro_CD
    • 三甲基核糖核酸
  • 为注释输出添加了分类检查:
    • 增加了装配到类型应变组件的检查(k-mer检查和ANI检查)
    • 增加了对等效WP蛋白质分类群的已识别蛋白质的检查
    • 增加了对识别的16S rRNA的检查,以参考16S rRNA数据集
    • 增加了对原核分支标记的通用标记的检查

使用的第三方软件:

  • tRNASca-SE v.1.21
  • hmmer v.3.1b2
  • CRISPR第1.02版
  • 反Fam v.3.0
  • Rfam v.12.0版
  • 地狱v.1.1.1

版本3.0 2015年7月

变化:

  • 修复了蛋白质比对处理中的大量错误,从而根据证据更好地预测编码基因

  • 去除了许多部分蛋白质,用假CDS取代了这些蛋白质。这种变化主要影响在contigs中部产生的部分蛋白质。

  • 基于对现有蛋白质簇中功能元素的审查,对功能蛋白证据进行了重大清理

使用的第三方软件版本:

  • tRNASca-SE v.1.21

  • hmmer第3.1b2版

  • CRISPR第1.02版

  • 反Fam v.3.0

  • Rfam v.11.0版

版本2.10

版本2.92014年11月

增加了几个新功能,包括:ORF查找器用作长时间未标记区域的最后手段;跨源CDS注释为两个部分CDS功能

版本2.82014年10月

添加了几个新功能,包括:

新的命名快照,更正了以前的大多数名称问题;对站点检测进行了许多改进,生成了更一致的模型;现在,部分被填充到1-2个核苷酸内的间隙边界;带有内部部分片段的蛋白质现在转化为假基因(以前这些都被完全去掉)软件错误修复

2.7版2014年8月

添加了几个新功能,包括:

新的蛋白质命名快照,包含许多新的簇和改进;蛋白质起始位点选择的显著改进。新算法通过代表数对证据赋予更大的权重,并对起始点产生更好的一致意见;包含来自注释良好的参考基因组的所有簇;修改特征接受标准,以允许尽可能接受基于核心和参考簇的蛋白质。净效应显著改善了非常短的蛋白质如前导肽的注释。

版本2.62014年6月

增加了一些改进,包括:证据选择算法评估所有蛋白质证据,以选择最大化证据对应性的起始位点;在缺少起点或长的未对齐尾部的情况下,新算法倾向于部分模型,而不是与现有证据不一致的完整模型;GeneMArkS+现在仅用于纯从头计算预测

版本2.52014年5月

IMproved蛋白质名称选择:总是使用模糊名称代替种子蛋白质名称

修复了几个软件错误

版本2.42014年2月

生产中安装的新蛋白质簇

修复了几个错误,包括:在重新标记时无条件保留现有的locus-tag前缀;如果已知,则通过BioSample ID指定locus-tag前缀;当提供WGS基因组时,注释支架不连续

版本2.32013年11月

为GenBank组件注释contigs而非脚手架。

增加了几个新功能,包括:新的证据选择算法,旨在为高质量蛋白质提供更高的保真度

版本2.22013年10月

增加了新功能,包括:增加了对ncRNA功能的支持;引入tw-pass注释,支持更好的帧移检测。

修复了软件稳定性问题

2.1版2013年7月至9月

允许仅质粒提交的注释。修复DBLink描述符的位置。在间隙边界处修剪特征。

2013年5月2.0版

2.0版使用蛋白质同源性和GeneMarkS+预测程序。

特征注释:基因;CDS;rRNA;tRNA;CRISPR区重复序列

此版本不包括:小非编码RNA(ncRNA)

上次更新时间:2024-08-13T13:53:50Z