美国国旗

美国政府的官方网站

全基因组枪式投稿

什么是全基因组鸟枪(WGS)?

全基因组霰弹枪(WGS)项目是原核生物或真核生物的不完整基因组或不完整染色体的基因组组装,通常通过全基因组霰弹枪策略进行测序。WGS项目可以添加注释,但不需要添加注释。NCBI有一个原核基因组注释管道基因组文件提交给GenBank时可能会要求。此管道生成一个可供提交的带注释文件,该文件被发回提交者进行审查,提交者可以在数据发布之前对其进行编辑。

公共WGS项目位于WGS项目清单 .

每个WGS项目都分配了一个稳定的4个字母的WGS加入前缀,该前缀不会随着项目的更新而改变。除了WGS加入前缀外,重叠群标识符还具有与特定WGS项目更新相对应的版本号。最后,集合中的每个个体重叠群都被分配了一个唯一的登录号,前缀是WGS登录前缀和版本号。例如,如果一个WGS项目的指定登录号是XXXX00000000,那么该项目的第一个组装版本将是XXXX010000000,该版本的第一个contig将是XXXX10000001。(此ID的最后六位数字标识每个contig)。当有更多的测序和基因组重组时,连续序列作为WGS项目的02版本提交。新旧contigs之间不存在联系或关系,新contigs的新加入号以XXXX02000001开头。释放02 contigs时,01 contigs被抑制。

注意:2019年1月,GenBank开始为WGS项目、其第一个版本和第一个序列分配具有稳定的6个字母的WGS加入前缀和至少9位数字的加入,例如XXXXXX 000000000、XXXXXX 010000000和XXXXXX 010000001。

此外,每个基因组都是生物项目它描述了研究工作,并且来自生物样品它提供了DNA来源的详细信息。此外,每个公共基因组都被加载到装配数据库,在该数据库中为其分配了一个程序集登录。当基因组更新时,Assembly的加入量增加到下一个版本,但BioProject和BioSample的加入量保持不变。

注意:2014年1月,菌株水平taxids的创建结束,生物样本的注册成为基因组的一项要求。

自2011年秋季以来,来自所有WGS项目的核苷酸数据进入BLAST WGS数据库。大多数WGS项目的蛋白质进入BLAST nr数据库。来自环境项目的蛋白质存在于BLAST nr或env_nr数据库中,这取决于该序列是否已被确定为特定生物体(nr),或者该生物体是否尚不清楚(env_nr)。

请参阅元基因组提交指南有关如何提交宏基因组项目的各种元素的信息。

关于更复杂组件(例如具有PAR或替代基因座的组件)的要求的信息,请参阅组件提交第页。

一些示例

下表显示了几个WGS项目示例:

  1. 未标记的连续梁和脚手架
  2. 带有未标注脚手架的标注轮廓
  3. 带有标注脚手架的未标注轮廓。

表中包含了每个WGS项目的加入编号,并将链接到实时记录以供查看。对于加入AZCS00000000,请注意contigs上的注释显示在相应的脚手架上。但是,在脚手架或染色体CON记录上提交的注释不会显示在基础组件上,如ABXC00000000中所示。要能够查看大型记录上的注释,请使用GenBank(完整)显示设置和/或自定义选项来“显示序列”。

带注释的轮廓 带注释的脚手架 无批注
ACZS00000000元 ABXC00000000 AAGU00000000美元
WGS续 WGS续 WGS重叠
脚手架CON 脚手架CON 脚手架CON

核苷酸序列必须符合以下标准:

  • 提交的序列必须根据提交者实验确定的数据进行组合。
  • 对载体污染进行筛查,并删除任何载体/链接器序列。这包括去除NextGen测序引物。
  • 如果序列不是多成分支架的一部分,则其长度应大于200 bp
  • 序列间隙可以存在,并使用assembly_gap特征进行注释;然而,序列不能随机串联以提交。请参阅有缺口的基因组提交有关添加assembly_gap功能的更多信息,请参见第页。
  • 序列不能以N开头或结尾

没有注释或带有PGAP注释的WGS基因组需要至少两周的处理时间。带有注释的基因组至少需要一个月的处理时间。请提交您的基因组组装,并留有足够的准备时间。

要求:

  • 每个基因组必须属于一个生物项目。作为同一研究工作的一部分进行测序的基因组可以属于单个生物项目。可以在WGS提交过程中为未注释(或PGAP注释)基因组注册新的生物项目;然而,提交带有注释的基因组需要预先注册的.
  • 在中注册每个基因组的源信息生物样品数据库。如果同一个样本用于两个不同的基因组组装,那么对两者使用相同的生物样本。可以在WGS提交过程中为未注释(或PGAP注释)基因组注册新的生物样本;然而,提交带有注释的基因组需要预先注册的以获取locustag前缀。
  • 原始读取应提交给SRA公司
  • 基因组组装数据结构化评论。这可以在基因组提交期间在提交网页上提供。或者,可以使用结构化注释模板然后包含在提交的基因组文件中。其他信息见WGS提交指南
  • 如果提供了注释,则产品名称应跟随国际蛋白质命名指南.
  • 注释必须具有生物有效性(且无错误)。

如何提交给WGS

WGS和非WGS原核和真核基因组的提交详细信息可在WGS提交指南.

请参阅元基因组提交指南有关如何提交宏基因组项目的各种元素的信息。

没有注释的WGS项目需要至少两周的处理时间。带有注释的项目需要至少一个月的处理时间。请提交具有足够提前期的项目。

如果你有一个大的带注释的基因组,我们建议你给我们发送一个测试文件,以便在承诺生成整个项目之前查看是否存在问题。

如何更新现有WGS提交

请参见更新基因组资源

不应提交给WGS

  • 提交者未直接对序列进行排序的程序集。
  • 多个有机体的单一组合。
  • 完整的细胞器和病毒基因组。它们应作为常规GenBank记录提交。请参见GenBank提交有关如何提交这些类型if序列的更多信息。如果细胞器属于已提交的WGS基因组,则在提交期间在评论框中包括WGS登录以及BioProject和BioSample标识符(分别为PRJNAxxxxx和SAMNxxxxxx)。

上次更新时间:2020-01-14T17:35:32Z