NCBI原核基因组注释管道发布说明
-
为了提高管道的可扩展性和可维护性,NCBI PGAP现在使用 Miniport公司 用于蛋白质与基因组比对; PMID:36648328 . NCBI一直在努力将算法中切换的不利影响降到最低,并且不希望我们的注释调用质量出现任何中断。 在广泛的分类群上进行了广泛的测试后,我们得出结论,PGAP 6.8完美地再现了PGAP 6.7产生的98.6%的蛋白质模型,其余的绝大多数差异仅限于起始位点选择的微小变化。 平均而言,我们预计每个组件大约有40个型号会发生这种变化。
-
蛋白质家族模型中CDD 3.21的更新
tRNA扫描-SE 2.0.12 hmmer第3.4版 CRISPR第1.02版 反Fam v.3.0 Rfam第14.4版 通用标记S2-v.1.14_1.25 地狱1.1.5
第三方软件更新 hmmer v.3.4版 地狱1.1.5
Pfam版本36用于帮助进行结构和功能注释 合并GeneOntology 2024-01-17变更以更新GO术语
tRNA扫描-SE 2.0.12 hmmer v.3.4版 CRISPR第1.02版 反Fam v.3.0 Rfam第14.4版 通用标记S2-v.1.14_1.25 地狱1.1.5
-
FCS-GX确定为外来污染物的跨度上无基因或其他特征注释 https://github.com/ncbi/fcs/wiki/fcs-GX -
通过改进结构注释期间的蛋白质比对处理降低假基因假阳性率 为验证的小蛋白设计新的隐马尔可夫模型(HMM),以改进结构注释 采用PFAM版本35,用于结构和功能注释 添加了CheckM完整性截断以验证注释。 只有满足以下条件时,带注释的程序集才会添加到RefSeq集合中: 对于RefSeq中具有1000个以上组件的物种,完整性高于物种平均完整性-标准偏差的3倍 对于RefSeq中具有10-1000个组件的物种,完整性高于90%或物种平均完整性的较小值-标准偏差的3倍 如果物种中的组件少于10个,则不应用CheckM截止
tRNA扫描-SE 2.0.12 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam第14.4版 通用标记S2-v.1.14_1.25 地狱第1.1.1节
将CDD属性添加到基因组和蛋白质
tRNA扫描-SE 2.0.12 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam第14.4版 通用标记S2-v.1.14_1.25 地狱v.1.1.1
对可信蛋白质的比对进行更严格的筛选,从而改进长蛋白质的结构注释 升级至tRNAscan-SE 2.0.12 用于功能注释的数据更改: 纳入GeneOntology 2022-11-03变更 切换到CDD 3.20架构
tRNA扫描-SE 2.0.12 hmmer v.3.1b2 CRISPR版本1.02 反Fam v.3.0 Rfam第14.4版 通用标记S2-v.1.14_1.25 地狱v.1.1.1
对低质量比对进行更严格的筛选,从而更好地注释长蛋白质
tRNAScan SE 2.0.9版 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam第14.4版 通用标记S2-v.1.14_1.25 地狱v.1.1.1
结构注释算法的更新:HMM比对中的信任增加,从而更好地选择起始点 将公认的从头算假设模型的长度阈值从45降低到40 a 将tRNAScan SE从2.0.7版更新到2.0.9版
tRNAScan-SE v.2.0.9 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam第14.4版 通用标记S2-v.1.14_1.25 地狱v.1.1.1
tRNAScan-SE v.2.0.7 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam第14.4版 通用标记S2-v.1.14_1.25 地狱v.1.1.1
在注释中添加GO术语 新增Rfam型号
tRNAScan-SE v.2.0.7 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam第14.4版 基因标记S2-v.1.14_1.25 地狱v.1.1.1
更新结构注释算法以允许将来的扩展性
tRNAScan-SE v.2.0.7 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam第14.4版 基因标记S2-v.1.14_1.25 地狱v.1.1.1
使用基因直系学绘制有限物种的基因符号 将大肠杆菌、结核分枝杆菌、不动杆菌、枯草芽孢杆菌和空肠弯曲杆菌参考基因组中的基因符号映射到PGAP未提供基因符号的同一物种的基因组 参数:参考基因组基因和目标基因的基因覆盖率均>0.9,相似度>0.8,PGAP产品名称不是假设蛋白质
tRNAScan-SE v.2.0.7 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam第14.4版 通用标记S2-v.1.14_1.25 地狱v.1.1.1
升级到第三方软件。 tRNAScan-SE v.2.0.4至v.2.0.7,Rfam v.12.0至v.14.4,GeneMarkS2-v.1.10_1.17至v.1.14_1.25
tRNAScan-SE v.2.0.7 hmmer v.3.1b2 CRISPR版本1.02 反Fam v.3.0 Rfam第14.4版 通用标记S2-v.1.14_1.25 地狱v.1.1.1
通过将非质粒候选ORF和最终模型的Blast搜索限制为分类顺序特定的蛋白质簇代表,提高了性能。 质粒序列的模型将继续根据蛋白质簇代表的无限制数据库进行搜索。 与以前的版本一样,所有非质粒和质粒候选ORF和最终模型都是根据BlastRules的整个集合进行搜索的。 这种变化没有观察到注释输出的敏感性或特异性损失。
tRNAScan-SE v.2.0.4 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam v.12.0版 基因标记S-2-1.10 地狱v.1.1.1
通过针对细菌和古菌的Rfam SSU和LSU模型的infinal cmsearch鉴定16S和23S rRNA。 这取代了基于BLAST的对核糖体RNA的手动管理NCBI数据库的搜索。 使用跨原点CDS改进了循环序列的注释。 修复了运行时性能回归。 更改计划以纠正次要问题并提高性能。
tRNAScan-SE v.2.0.4 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam v.12.0版 基因标记S-2-1.10 地狱v.1.1.1 TIGRfam 15.0(用于命名)
升级至sc24。 删除从注释证据中撤回的PMID。 将更新WP加入,以反映证据的变化。 更改计划以纠正次要问题并提高性能。
tRNAScan-SE v.2.0.4 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam v.12.0版 基因标记S-2-1.10 地狱v.1.1.1 TIGRfam 15.0(用于命名)
从PGAP结构分析中删除即将退役的参考基因组。 在属水平的结构注释中使用参考蛋白。 在结构注释中,与其他蛋白质比对相比,在属水平上可用的参考基因组上的蛋白质比对(如果有的话)具有更高的权重。 与之前的PGAP软件相比,这是一个变化,在该软件中,与注释生物体相同分支的参考基因组上的蛋白质比对被赋予了更高的权重。
tRNAScan-SE v.2.0.4 hmmer v.3.1b2 CRISPR第1.02版 AntiFam 3.0版 Rfam v.12.0版 基因标记S-2-1.10 地狱v.1.1.1 TIGRfam 15.0(用于命名)
由于GeneMark注释的权重增加,提高了小蛋白基因调用的准确性
tRNAScan-SE v.2.0.4 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam v.12.0版 基因标记S-2-1.10 地狱v.1.1.1 TIGRfam 15.0(用于命名)
更新的tRNAscan 增加17个Rfam型号 增加了核糖开关和错误绑定功能与CDS的允许重叠
tRNAScan-SE v.2.0.4 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam v.12.0版 基因标记S-2-1.10 地狱v.1.1.1 TIGRfam 15.0(用于命名)
证据属性和结构化注释被添加到RefSeq蛋白记录中
tRNAScan-SE v.1.21 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam v.12.0版 基因标记S-2-1.10 地狱第1.1.1节 TIGRfam 15.0(用于命名)
GeneMarkS2+目前用于从头算基因预测 基因间蛋白质的命名集已经改进
tRNASca-SE v.1.21 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam v.12.0版 基因标记S-2-1.10 地狱v.1.1.1 TIGRfam 15.0(用于命名)
添加SPARCLE架构用于蛋白质命名 添加家族、亚家族和结构域级策划HMM用于蛋白质命名
tRNASca-SE v.1.21 hmmer v.3.1b2 CRISPR版本1.02 反Fam v.3.0 Rfam v.12.0版 基因标记S-4.25 地狱v.1.1.1 TIGRfam 15.0(用于命名)
使用Pfam Hmm的收集阈值
tRNASca-SE v.1.21 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam v.12.0版 基因标记S-4.25 地狱v.1.1.1 TIGRfam 15.0(用于命名)
在PGAP中打开BLAST规则 修复伪码中的split-seq-loc 复制所有短参考蛋白 使用所有等价HMM在PGAP中命名 修复CDS跨越间隙 使用AMR HMM进行命名 使用爆破规则进行结构注释
tRNASca-SE v.1.21 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam v.12.0版 基因标记S-4.25 地狱v.1.1.1 TIGRfam 15.0(用于命名)
功能注释爆破规则的实现 转座酶程序化移码的实现
tRNASca SE版本1.21 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam v.12.0版 地狱v.1.1.1 TIGRfam 15.0(用于命名)
PGAP 4.2是一个点发行版,与PGAP 4.1相比变化最小 支持BLAST规则注释的基础工作已经实现。 Blast Rules是一个系统,它根据Blast搜索输出中的参数,定义精确的标准(覆盖率,%标识),以表示查询蛋白逐个蛋白质匹配目标。 Blast规则可以用极其严格的匹配标准创建,并用于区分非常密切相关的蛋白质。 证据搜索中蛋白质匹配的性能得到了改进 转座酶的程序性移码标记已经建立
修复了RefSeq重新标记执行过程中出现的问题
tRNASca-SE v.1.21 hmmer第3.1b2版 CRISPR第1.02版 反Fam v.3.0 Rfam v.12.0版 地狱v.1.1.1 TIGRfam 15.0(用于命名)
ORF+HMM方法的改进: 仅根据HMM证据,选择合适的框架,调整生成蛋白质的能力 提供证据的ORF扩展的调整截止值
增加了我们对参考基因组中蛋白质证据的依赖性。 在对现有参考基因组注释进行广泛审查后,基于低质量注释产品的证据集中删除了一小部分。 增加了基于与可信硒蛋白家族同源性的硒蛋白预测(感谢PMID的Yan Zhang博士: 26800233 ) 广泛清理我们证据集中的特定蛋白质家族,包括对我们如何处理转座酶的大幅度修改。 在我们的综述中,PGAP产生的大量片段蛋白质是由于转座酶证据不明确所致; 我们的数据清理侧重于保存高质量的完整证据,以支持更好的质量预测。
显著清除命名集蛋白质。 我们预计在未来几个月内,pgap-4.1将继续改进 消除了许多短的部分转座酶片段
tRNASca-SE v.1.21 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam v.12.0版 地狱v.1.1.1 TIGRfam 15.0(用于命名)
引入新的基因查找算法,该算法依赖于在任何HMM(包括域特定Pfam HMM)支持下识别ORF 消除对核心蛋白证据的依赖 基于Rfam预测引入具有扩展属性的新核糖开关标记 扩展和更新抗菌药物耐药性鉴定HMM 改进了接受PRK证据HMM的截止值
显著清除命名集蛋白质。 消除了许多短的部分转座酶片段 消除了几个相互冲突的错误帧翻译
调整基因选择算法,以保留基因组上的重复证据。 以前,最佳布局算法会倾向于任何蛋白质的单一最佳布局; 从PGAP-4.0开始,允许多次放置,改进了已知冗余和重复蛋白质的注释。
tRNASca-SE v.1.21 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam v.12.0版 地狱v.1.1.1 TIGRfam 15.0(用于命名)
软件升级到最新的NCBI C++工具包生产代码; 这不会影响注释结果
修复了少量流程错误; 这不会影响注释结果
tRNASca-SE v.1.21 hmmer第3.1b2版 CRISPR第1.02版 反Fam v.3.0 Rfam v.12.0版 地狱v.1.1.1 TIGRfam 15.0(用于命名)
命名变化:我们现在使用可信和精心策划的等效HMM进行命名,优先于蛋白质簇 在初始蛋白质搜索中添加精选蛋白质序列列表
修复了ANI报告和分类检查中的错误 修复了处理GenBank提交的Seq-id时的错误,尤其影响现有记录的更新 更新了部分对齐的过滤,改进了对部分要素的调用 删除了起始密码子以外的transl_的不适当用法; 而是报告部分功能。 如果可能,将间隙或连续端附近的部分特征延伸到边界。
tRNASca SE版本1.21 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam v.12.0版 地狱v.1.1.1 TIGRfam 15.0(用于命名)
用于33种型号的RFAM型号扩展列表: 5S_rRNA 6秒 6S-风味 Archaea_SRP公司 细菌_大_SRP 细菌_小_SRP 科巴拉明 FMN(飞行管理号码) 甘氨酸 锤头_II MOCO_RNA_移动 第一季度前 嘌呤 RNaseP_存档 RNaseP_bact_a RNaseP_bact_b 注册退休人员 RtT公司 SAH_核糖开关 山姆 SAM-IV公司 SAM_V格式 SAM_阿尔法 火力发电厂 α_信使核糖核酸 βtmRNA c-di-GMP-I型 c-di-GMP-II型 氰基_tmRNA Q1-II前 sX9系列 snoPyro_CD 三甲基核糖核酸
为注释输出添加了分类检查: 增加了装配到类型应变组件的检查(k-mer检查和ANI检查) 增加了对等效WP蛋白质分类群的已识别蛋白质的检查 增加了对识别的16S rRNA的检查,以参考16S rRNA数据集 增加了对原核分支标记的通用标记的检查
tRNASca-SE v.1.21 hmmer v.3.1b2 CRISPR第1.02版 反Fam v.3.0 Rfam v.12.0版 地狱v.1.1.1
-
修复了蛋白质比对处理中的大量错误,从而根据证据更好地预测编码基因 -
去除了许多部分蛋白质,用假CDS取代了这些蛋白质。 这种变化主要影响在contigs中部产生的部分蛋白质。 -
基于对现有蛋白质簇中功能元素的审查,对功能蛋白证据进行了重大清理
-
tRNASca-SE v.1.21 -
hmmer第3.1b2版 -
CRISPR第1.02版 -
反Fam v.3.0 -
Rfam v.11.0版
2013年5月2.0版