################################################################################NCBI基因组FTP上的ANI_report_prokernes.txt文件自述文件站点:https://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/ANI_report_pro核桃.txt上次更新时间:2023年4月25日################################################################################简介------------ANI_report_prokernes.txt提供平均核苷酸身份(ANI)数据可用于评估利息。还包括GenBank用作基础的ANI状态关于公共基因组集合分类身份的决定。使用的具体方法如下:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6978484/此文件包含所有最新古生物和细菌基因组的ANI数据GenBank中的集合,以及配对的RefSeq基因组集合它们存在。ANI_report_prokanes.txt替换了原型文件ANI_erport_bacteria.txt。ANI_report_bacteria.txt不再更新,将在2020年5月31日。更新频率----------------只要GenBank中出现新程序集,就会更新此文件。ANI值每当新的类型应变组件释放,或发现现有类型应变组件不值得信任的类型。有时,在重大改进或修复了ANI进程的错误。ANI_report_prokernes.txt每夜更新一次,以获取任何更改。目录--------该文件是一个以制表符分隔的文本文件,包含24列,如下所述。标题行以“#”开头。“na”用于指示不可用或不适用的值。第1列:加入genbank查询程序集的GenBank访问。第2列:参考附件查询程序集的RefSeq登录。第3列:滑行查询程序集的分类标识符。第4列:物种数量查询程序集种类的分类标识符。将不同于如果集合处于亚种级别或来自更老的集合,则滑行(第3列)具有自己分类标识符的菌株。第5列:有机体名称查询程序集的分类名称(匹配taxid,第3列)。第6列:物种名称查询程序集的种类名称(与第4列中的种类最大值相匹配)。威尔如果集合位于亚种,则与有机体名称(第5列)不同级别或来自具有自己分类标识符的旧菌株。第7列:组件名称提供给查询程序集的标识符(例如:ASM12345v1)第8列:组件类型类别类型或已验证程序集的类别(如果查询程序集派生自类型应变或经验证的组件。“na”,如果查询程序集不是从类型应变或经验证的组件中导出。这些类别包括:类型-基因组组装中的序列来自类型材料neotype-基因组组装中的序列来自neotype&材料pathovar-基因组组装中的序列来自pathovar材料reftype-基因组集合被指定为物种的代表类型材料从未可用且不太可能随时可用syntype-基因组组装中的序列来自同义词类型材料suspected-type-该类型是上面列出的类型之一,但因为它确实是与同一物种的其他类型应变组件不匹配,或由于其他原因无法进行审查,它不用于滑行即使它用于生成ANI数据,也会发生变化。reftype-基因组集合被指定为物种的代表类型材料从未可用,也不太可能随时可用克莱德里夫-基因组组装被指定为另一个代表对于具有高物种内基因组多样性的物种第9列:不包括from-refseq查询程序集从NCBI引用序列中排除的原因(RefSeq)项目,包括任何程序集异常。请参见:https://www.ncbi.nlm.nih.gov/assembly/help/anomnotrefseq/如果查询程序集被认为足够可靠,可以包含在RefSeq中,则此字段是“na”。这些原因中的许多(但不是全部)也构成了一个集合像类型一样不可信。作为类型不可信的任何类型-序列程序集将在assembly-type-category列中显示“na”。多个值之间用“;”分隔。第10列:申报类型组件与查询最匹配的已申报物种的类型序列集合组件或“无类型”,如果声明的没有类型应变组件物种。如果查询程序集来自类型序列,则最佳匹配报告了该物种的其他类型应变组件,或“相同”为当该物种只有一个类型-应变组件时报告。第11列:声明型组织名称声明的类型组件的分类名称。要么是相同的物种作为查询程序集,或此物种下的亚种或菌株。第12列:申报类型类别申报类型组件的类型类别,如第8列所列。“无类型”如果声明的没有类型序列程序集或验证程序集如果查询程序集是类型序列程序集或已验证,则为“na”组件。第13列:申报类型-ANI查询程序集到类型序列的平均核苷酸身份(ANI)查询程序集的声明种类的程序集,表示为百分比。如果申报物种没有类型-应变组件,则为“na”。如果查询覆盖范围(第14列)或主题覆盖率(第15列)小于10%。第14列:申报类型qcoverage声明类型程序集对查询程序集的覆盖率,表示为百分比。(查询覆盖范围)。第15列:申报类型覆盖查询程序集对声明类型组件的覆盖,表示为百分比。(主题覆盖范围,其中主题是已声明的类型程序集)。第16列:最佳匹配型组件ANI确定的最佳匹配类型或经验证的组件,或如果没有与查询程序集匹配的类型-序列程序集,则为“non-found”。第17列:最佳匹配-最大最佳匹配类型组件物种的分类标识符(列16). 第18列:最佳匹配特定名称最佳匹配类型组件的品种名称(第16列)。第19列:最佳匹配类型最佳匹配类型组件的类型类别。列8中列出的值。第20栏:最佳匹配型ANI查询程序集与最佳匹配的平均核苷酸标识(ANI)类型-应变组件,以百分比表示。第21列:最佳匹配类型-qcoverage最佳匹配类型程序集对查询程序集的覆盖率,表示为百分比。(查询覆盖范围)。第22列:最佳匹配类型覆盖率查询程序集对最佳匹配类型程序集的覆盖率,表示为百分比。(主题覆盖,其中主题是最佳匹配类型组件)。第23列:最佳匹配状态最佳匹配的状态。指示为查询程序集声明的物种的值正常:物种匹配-查询程序集与声明物种的类型-序列程序集相匹配。亚种比赛-查询程序集为声明的物种和两者是同一亚种。同义词匹配-查询程序集匹配来自指定种类的类型程序集作为查询程序集种类的同义词。与……密切相关的物种ANI无法区分的程序集被指定为同义词。FTP文件中提供了同义词列表,原核生物_ANI_indistentifishable_groups.txt。衍生物种匹配-查询程序集与申报物种。属匹配-查询程序集具有非正式的物种名称(通常为“sp.”格式),并且最匹配的类型-序列组件共享同一个属。批准-不匹配-查询程序集与来自其他物种高于ANI阈值,但不匹配被手动审查申报物种被接受。指示为查询程序集声明的物种的值不正确:不匹配-查询程序集与来自其他物种,高于ANI阈值,即使是申报物种可用。GenBank将在高电压时解决不匹配问题覆盖率值提供了对不匹配结果的高置信度,即查询覆盖率和学科覆盖率均在80%以上。表示ANI数据的值是非决定性的:低于阈值的比赛-查询程序集与声明物种的类型序列程序集匹配,但ANI低于物种ANI阈值。低于门槛的比赛-查询程序集与来自其他物种,但ANI低于物种ANI阈值。低覆盖率-查询程序集与上面最匹配的类型序列程序集不匹配10%的查询覆盖率和/或10%的主题平均值。第24栏:评论程序集是类型序列,不期望匹配-该组件是该物种唯一的类型-应变组件,因此它是预计它可能与任何其他类型的序列组件不匹配。装配是类型序列,不匹配在属内,并且是预期的-该组件是该物种唯一的类型-应变组件,因此它是预计其最佳匹配可能是从另一个类型-序列组件属于同一属的物种,但ANI低于98%。组件是类型序列,在其种类上无法匹配其他类型序列-类型应变组件应与所有其他类型应变组件匹配关于物种。第25列:分类-分类-状态最匹配的状态(第23列)和注释(第24列)被转换为三种分类检查状态如下。好 啊-ANI结果与申报物种一致最好的比赛状态是种赛,亚种赛,派生特定匹配、同义词匹配、genus-match、approved-mismatch或注释指示程序集是类型序列,没有匹配项应为,或者程序集是类型序列,则不匹配在属,应为。没有结论-ANI结果不确定最好的比赛状态是低覆盖率、低于阈值的比赛,低于阈值的mismatch、na或注释表示程序集是在其物种上与其他类型应变不匹配的类型应变。失败-ANI结果与申报物种不一致最好的匹配状态是不匹配,注释是na。________________________________________________________________________________国家生物技术信息中心(NCBI)国家医学图书馆美国国立卫生研究院洛克维尔派克8600号贝塞斯达,马里兰州20894,美国电话:(301)496-2475传真:(301)480-9241电子邮件:info@ncbi.nlm.nih.gov________________________________________________________________________________