宏基因组提交指南

说明

微生物是地球生物多样性的主要组成部分。然而,由于这些生物所处的各种环境和条件,许多这些不能通过标准技术培养。文化独立的方法是必不可少的了解这些未培养微生物的遗传多样性,种群结构和生态作用。

宏基因组学是一个微生物群落的独立于基因组的基因组分析。它提供了一个社区范围内的代谢功能评估,绕过了对个别物种的隔离和实验室培养的需要。宏基因组数据的分析提供了一种识别新生物的方法,并且从环境样品中存在的不可培养物种分离完整基因组。

宏基因组工程可以包括从生态或有机体来源收集到的原始序列读数(提交到跟踪存档或序列读取存档)、组装的重叠群和/或来自原始序列数据的支架,包括来自分类学定义的生物体的部分基因组(提交为WGS项目),并且在某些情况下,支持序列如16S ribosomal RNAs或FoMIMS(提交给常规GenBank)。

本指南介绍如何向NCBI提交宏基因组计划,包括向跟踪存档、序列读取存档和GenBank提交序列的信息,以及注册生物项目和生物样本。

如果您不理解这里提出的任何指令或您有问题,请通过电子邮件与我们联系。GENOMESS@ NCBI.NLM.NIH.GOV在创建提交之前。

目录

  1. 生物工程与生物制品注册
  2. 向跟踪存档或序列读取存档(SRA)提交序列
  3. 向WGS提交组装宏基因组群
  4. 其他类型的宏基因组序列数据(如Fisher、16S rRNA)
  5. 接下来会发生什么

生物工程与生物制品注册

宏基因组生物工程功能链接在一起的生物数据与一个单一的倡议,包括所有的序列和描述性环境元数据。生物样品包含详细的生物源材料作为环境项目的一部分被隔离的属性。一个单一的生物项目可以链接到多个生物样本,也可以被包括在单独的生物项目倡议中。生物项目和生物样本ID包括在提交给NCBI的序列数据中,随后生成Entz链接。

生物序列和生物样本ID可以在序列数据提交给SRA或WGS内部时自动注册和分配。NCBI提交门户. 此外,可以创建个体生物项目和生物样品用于提交GenBank的宏基因组/环境16S核糖体RNA或靶基因/基因组区域。生物项目也可以建立大规模的举措,包括从序列数据到多个项目的链接。一般来说,使用相同的Big项目和BiopSube对来自该样本的所有数据,例如提交给SRA的原始读数和提交给WGS的组装宏基因组序列。

在顺序提交之前创建个体生物项目和生物样品

  • 注册你的生物项目作为一个环境生物项目之前准备您的序列提交给GenBank。如果该项目仅涉及单个基因(例如,16S核糖体RNA)的测序,则应将其描述为靶位点/位点生物工程。请包括有关项目的信息,包括隔离源的详细描述和项目的范围。指定的BiopProject ID应该包含在关于宏基因组计划的任何对应关系中,以及在任何相关的序列提交中。有关生物项目提交和组织的问题应发送到GeNePrj@ NCBI.NLM.NIH.GOV。
  • 生物样品包括来自序列数据的物理样品的描述性信息。请提供尽可能多的关于样品的元数据和信息,以便为实验数据提供背景。生物量登记可以使用Web窗体或批处理使用电子表格模板完成。这个生物量包装和属性连同提交模板可以在提交之前进行审查和下载。使用“宏基因组或环境样品”或“基因组、宏基因组或标记序列(符合MISS)- MIMS的生物软件包。使用有机体名称“XXXX宏基因组”(例如土壤宏基因组)登记宏基因组生物量,并从该列表中选择最合适的名称。宏基因组有机体名称在分类数据库中。请使用指定的生物量ID在有关宏基因组工程的任何信件中,以及在从样品中得到的任何顺序提交中。有关生物样品提交的问题应发送到BooSimuleApple @ NCBI.NLM.NIH.GOV.

向跟踪存档或序列读取存档(SRA)提交序列

未装配的序列数据应提交给跟踪存档序列读取存档(SRA)。

传统的凝胶毛细管读数(包括DNA序列色谱图、碱基调用和从ABI 3730等测序仪器获得的质量估计)应提交给跟踪存档。使用下一代定序器(例如,454,Illumina,ABI Stand,HeliOS)获得的序列读数应存放在序列读取存档中。当你提交你的数据时,你将被分配一个生物项目和BioSample ID.,如果你已经注册了一个生物项目和/或生物资源,包括这些ID与你的SRA提交。

联系SRAW-NCBI.NLM.NIH.GOV对于提交到跟踪存档和NCBI序列读取存档的问题。

向WGS提交组装宏基因组群

已经从原始读取组装的重叠群可以提交为WGS项目. WGS接受两个已被确定为特定有机体的草案组件和来自未被赋予生物体名称的宏基因组来源的组装序列。短于200 bp的序列不应包含,除非它们是多组分支架的一部分。

请看WGS有关如何生成WGS提交的说明页。此外,回顾一下原核真核生物注释准则,如果您决定包含注释。请注意,注释不需要基因组或宏基因组提交。

〔1〕WGS提交需要生物项目和生物量ID。你可以单独注册BioStudio和BioStor,或者你可以在提交序列数据时创建它们。基因组(WGS)提交门户. 但是,如果您已经注册了一个BioPosio和BioSosibe提交相应的原始读取到SRA,那么,一般来说,当您将组装的数据提交给WGS时,您将使用那些。

如果你还没有创建一个生物项目,提前注册宏基因组学,或者在WGS提交过程中创建一个宏基因组学。生物工程ID将包括所有的数据,这是宏基因组学研究的一部分。一定要包括一个简短的描述,区分每个生物项目和类似的研究。

如果你还没有创建一个生物样本,请注册宏基因组生物样本,或者在WGS提交过程中使用有机体名称“XXXX宏基因组”(例如,土壤宏基因组)创建一个。从这个列表中选择最合适的名称宏基因组有机体名称在分类数据库中。使用“宏基因组或环境样品”或“基因组、宏基因组或标记序列(符合MISS)- MIMS的生物软件包。

如果你想指示特定序列的有机体识别,那么就发电子邮件。GENOMESS@ NCBI.NLM.NIH.GOV这样NCBI的工作人员可以帮助你提交申请书。提供以下信息:

  • 简要说明你是如何识别这些序列的。
  • 描述一组序列是否代表推测的基因组组合。
  • 拟议的生物体名称列表。如果你有代表单一生物体的程序集,你需要为每个有机体提供一个唯一的标识符(例如,酸杆菌SPOSP8或嗜酸细菌A11)。
  • 一旦生物体名称被批准,你将被联系到如何注册你的生物样本的指令。

请注意,如果每个生物体只有几个短的重叠群,如果生物体仅基于爆炸相似性,或者如果没有生物体信息,则组装的重叠群应该使用宏基因组生物学名称(例如,海洋宏基因组)作为单个WGS提交。生物体源信息应作为源注释添加。

如果你的数据是复杂的,或者如果你不确定使用什么生物名称,请发送一个消息给GENOMESS@ NCBI.NLM.NIH.GOV在注册之前,我们将帮助您确定建立数据的最佳方式。



虽然您可以在WGS提交门户中单独创建生物样本,但在BIOSBOLD注册向导中,可以使用批处理选项中的选项卡分隔的表来注册多个生物样本,BIOBITION ID可以包含在批处理模板中。如果您有关于生物提交的问题,请联系BasePosielApvelncBi.nLM.NIH.GoV。

如果您选择单独注册BioStudio和BiopAMPLE,则在创建WGS提交时,在WGS提交门户中提供注册的生物项目和BioSosiid ID。不要创建重复的生物项目和生物样品。



(2)将FASTA文件或.qn文件上传到GenBank中基因组(WGS)提交门户描述在WGS提交用法说明

(3)WGS提交不需要注释。如果您选择提供自己的注释,则必须提交注释的.qn文件,如原核或真核注释指南中所描述的。如果您没有提供注释,请提交FASTA文件。

〔4〕超重叠或汇编信息可以以两种格式之一提交:

  • 分割格式- WGS项目的片段是重叠群(重叠读取没有间隙)。可选的自动增益控制可以提交文件来指示WGS序列是如何组装成支架或染色体的。
  • GWAP格式- WGS项目的片段是包含N个代表间隙的运行的支架。对于GAP格式,不需要AGP文件。您可以提供FASTA文件并回答提交门户中的间隙问题,或者可以在.qn文件中包含SealYyGAP特性,如缺失基因组提交用法说明不允许简单连接和由Ns连接的无序序列。

其他类型的宏基因组序列数据(例如,FoSMIs,16S rRNA)

宏基因组工程可以包括其他类型的序列数据,例如组装的16S核糖体RNA、FISMID序列和/或转录组数据。这些序列的有机体名称将是“未培养的XXX”(例如,未培养的细菌),用于核糖体RNA和FISMID序列,而转录组可以适当使用“XXX宏基因组”名称。如果生物项目和生物样品已经注册了序列数据,请在提交的信函中包括ID。

这些类型的数据应提交给GenBank如下:

  • 来自未培养或培养的细菌/古细菌/真核生物的16S核糖体RNA可以使用GenBank组件提交门户的
  • FoMID端序列和GSS数据可以提交给GSS分部GenBank的。这些序列不能注释。请联系BATCH-SUB-NCBI.NLM.NIH.GOV关于这类提交的任何问题。
  • Fosmids、BACs、从原始阅读和/或注释序列组装的其他基因组片段应提交给基因银行使用序列提交工具序列或TBL2ASN。准备好的意见书应发电子邮件给GB-SUB-NCBI.NLM.NIH.GOV或者通过SunnMcCaseRoad上传。
  • Metagenomic转录本可以提交给GenBank,如TSA提交指南.

请联系GB-Admin @ NcBi.nLM.NIH.GOV关于这些类型的提交以及有关格式的说明,您有任何疑问。

接下来会发生什么

一旦我们收到您的宏基因组提交,我们的工作人员将进行初步审查,并会通过电子邮件与您联系,如果有任何问题。一旦数据通过初始审查,我们将指定登录号与您的宏基因组计划相关的序列记录。然后提交将被放置在处理队列中,它将由我们的索引人员手动审查。我们将联系你,如果我们发现任何额外的问题或错误,因为我们准备您的数据将被释放到公共数据库。一旦我们将登录号指定为与宏基因组计划相关的序列记录并与您联系,我们将准备将其发布到公共数据库。

您可以选择让您的宏基因组计划和序列提交(S)立即释放或保密,直到某个日期或出版物的工作,无论是第一次。如果你希望你的宏基因组计划被保存到出版,我们要求你提供我们预期的出版日期,并及时通知我们即将出版的出版物和相关的引用细节。这将允许我们协调您的宏基因组工程和序列提交(S)的发布与论文的外观。请提供至少两周的任何即将出版的通知。

最后更新:2018-0611T18:28:52Z