美国国旗

美国政府的官方网站

元基因组提交指南

介绍

微生物构成了地球生物多样性的大部分。然而,由于这些生物体所处的环境和条件不同,其中许多不能用标准技术进行培养。培养依赖性方法对于理解这些未培养微生物的遗传多样性、种群结构和生态作用至关重要。

宏基因组学是对微生物群落进行的独立于培养的基因组分析。它提供了一个社区范围的代谢功能评估,并绕过了对单个物种进行分离和实验室培养的需要。宏基因组数据分析提供了一种识别新生物并从环境样本中存在的不可培养物种中分离出完整基因组的方法。

元基因组项目可能包括从生态或有机体来源收集的原始序列读取(提交至序列读取档案)、从原始序列数据获得的组装连接和/或支架,包括来自分类定义有机体的部分基因组(作为WGS项目提交),在某些情况下,支持序列,如16S核糖体RNA或fosmids(提交给常规GenBank)。

本指南解释了如何向NCBI提交宏基因组项目,包括向序列读取档案(SRA)和GenBank提交序列以及注册生物项目和生物样本的信息。

如果您不理解此处的任何说明或有疑问,请通过电子邮件联系我们genomes@ncbi.nlm.nih.gov在创建提交之前。

目录

  1. MAG快速指南
  2. 生物项目和生物样品注册
  3. 将序列提交到序列读取档案(SRA)
  4. 向WGS提交组装的宏基因组对照
  5. 其他类型的宏基因组序列数据(例如,fosmids、16S rRNA)
  6. 接下来会发生什么

原核或真核MAG(宏基因组组装基因组)快速指南

本常见问题解答提供了向GenBank提交原核或真核MAG的指导:https://www.ncbi.nlm.nih.gov/genbank/wgsfaq/#metagen

(本常见问题解答中的信息将取代下面可能存在的任何冲突信息)

生物项目和生物样本注册

元基因组生物项目将与单个倡议相关的生物数据链接在一起的功能,包括所有序列和描述性环境元数据。生物样本包含详细说明作为环境项目一部分隔离的生物源材料的属性。单个生物项目可以链接到多个生物样品,也可以包含在单独的生物项目倡议中。BioProject和BioSample ID包含在提交给NCBI的序列数据中,随后生成Entrez链接。

在向SRA或WGS提交序列数据期间,可以自动注册和分配BioProject和BioSample IDNCBI提交门户此外,可以为提交给GenBank的宏基因组/环境16S核糖体RNA或靶基因/基因组区域创建单个生物项目和生物样本。BioProjects还可以为大规模计划建立,包括从序列数据到多个项目的链接。通常,对该样本的所有数据使用相同的BioProject和BioSample,例如提交给SRA的原始读取数据和提交给WGS的组装宏基因组序列。

在序列提交之前创建单个生物项目和生物样本

  • 注册您的生物项目在准备序列提交给GenBank之前,作为环境生物项目。如果该项目仅涉及单个基因(例如16S核糖体RNA)的测序,则应将其描述为靶向基因座/基因座生物项目。请包括有关项目的信息,包括隔离源的详细描述和项目范围。指定的生物项目ID应包含在与宏基因组项目相关的任何信函中以及任何相关序列提交中。有关提交和组织生物项目的问题应发送至genomeprj@ncbi.nlm.nih.gov。
  • 生物样本包括有关序列数据来源的物理样本的描述性信息。请提供尽可能多的有关样本的元数据和信息,以便为实验数据提供上下文。生物样品注册可以使用web表单完成,也可以使用电子表格模板成批完成。这个BioSample包和属性连同提交模板一起,可以在提交之前进行审查和下载。使用“元基因组或环境样本”或“基因组、元基因组或标记序列(符合MIxS)-MIMS”生物样本包。使用生物体名称“xxxx metagenome”(例如,土壤metagenume)注册metagenomic生物样本,并从以下列表中选择最合适的名称宏基因组生物名称在分类数据库中。请在与宏基因组项目相关的任何通信中以及从样本中获得的任何序列提交中使用指定的生物样本ID。有关提交生物样品的问题应发送至biosamplehelp@ncbi.nlm.nih.gov.

将序列提交到序列读取档案(SRA)

未组装的序列数据应提交给NCBI序列读取存档(SRA)。

使用下一代测序仪(如454、Illumina、ABI solid、Helicos)获得的序列读取应保存在序列读取档案中。当您提交数据时,将为您分配一个BioProject和BioSample ID。如果您已经注册了BioProject和/或BioSample,请将这些ID包含在您提交的SRA中。

联系人sra@ncbi.nlm.nih.gov有关提交NCBI序列读取档案的问题。

向WGS提交组装的宏基因组对照

根据原始读取组装的Contig可以作为WGS项目.WGS接受已确定为特定生物体的组装草图和未指定生物体名称的宏基因组来源的组装序列。不应包括短于200bp的序列,除非它们是多成分支架的一部分。

请参阅无人机有关如何生成WGS提交的说明的页面。此外,请查看原核的真核生物的注释准则(如果您决定包含注释)。请注意,基因组或宏基因组提交不需要注释。

[1] WGS提交文件需要生物项目和生物样本ID。您可以分别注册BioProject和BioSample,也可以在使用基因组(WGS)提交门户但是,如果您已经注册了一个BioProject和BioSample,以便向SRA提交相应的原始读数,那么通常情况下,您会在向WGS提交汇编数据时使用这些数据。

如果您尚未创建生物项目,请提前注册宏基因组研究或在WGS提交期间创建一个。生物项目ID将包含在元基因组研究的所有数据中。确保包括一个简短的描述,将每个生物项目与类似研究区分开来。

如果您尚未创建生物样本,请注册宏基因组生物样本或在WGS提交期间使用生物名称“xxxx宏基因组”(例如,土壤宏基因组)创建一个。从以下列表中选择最合适的名称宏基因组生物名称在分类数据库中。使用“元基因组或环境样本”或“基因组、元基因组或标记序列(符合MIxS)-MIMS”生物样本包。

如果您从环境或混合样本中分离出DNA,然后组装序列以创建单个有机体组合,请参阅以下网站上提交宏基因组组装基因组(MAG)的说明:https://www.ncbi.nlm.nih.gov/genbank/wgsfaq/#metagen

请注意,如果每个生物体只有几个短的连接,如果仅基于BLAST相似性将生物体装箱,或者如果没有生物体信息,则应使用宏基因组生物体名称(例如,海洋宏基因组)将组装的连接作为单个WGS提交。生物箱信息应作为源注释添加。

如果您的数据很复杂,或者您不确定要使用什么生物名称,请发送消息至genomes@ncbi.nlm.nih.gov我们将帮助您在开始注册之前确定设置数据的最佳方法。



虽然您可以在WGS提交门户中单独创建Biosamples,但使用BioSample注册向导中批选项中的制表符分隔表注册多个BioSample可能会更容易。BioProject ID可以包含在批模板中。如果您对提交的生物样品有疑问,请联系biosamplehelp@ncbi.nlm.nih.gov。

如果您选择分别注册BioProject和BioSamples,请在创建WGS提交时在WGS提交门户中提供已注册的BioProject ID和BioSample ID。不要创建重复的BioProjects和BioSamples。



[2] 将fasta文件或.sqn文件上载到中的GenBank基因组(WGS)提交门户中描述的WGS提交说明。

[3] WGS提交文件不需要注释。如果您选择提供自己的注释,则必须按照原核生物或真核生物注释指南中的描述提交带注释的.sqn文件。如果您不提供注释,请提交fasta文件。

[4] 可采用以下两种格式之一提交超连续或装配信息:

  • 分割格式-WGS项目的各个部分是连续的(重叠读取,没有间隙)。可选的AGP公司可以提交文件来指示WGS序列是如何组装在一起形成支架或染色体的。
  • 空白格式-WGS项目的各个部分是包含代表空白的N行的脚手架。间隙格式不需要AGP文件。您可以提供fasta文件并在提交门户中回答差距问题,也可以在.sqn文件中包含assembly_gap功能,如基因组提交有缺口说明。不允许使用Ns连接的无序序列。

其他类型的宏基因组序列数据(例如,fosmids、16S rRNA)

元基因组项目可以包括其他类型的序列数据,例如组装的16S核糖体RNA、磷序列和/或转录组数据。对于核糖体RNA和磷酰胺序列,这些序列的生物体名称将是“未培养的xxx”(例如,未培养的细菌),而转录组可能会根据情况使用“xxx元基因组”名称。如果BioProjects和BioSamples已注册序列数据,请在提交信函中包含ID。

这些类型的数据应提交给GenBank,如下所示:

  • 可以使用GenBank组件提交门户网站。
  • Fosmids、BAC、从原始读取和/或注释序列中组装的其他基因组片段应提交给GenBank(基因银行)使用序列提交工具table2asn。准备好的提交材料应通过电子邮件发送至gb-sub@ncbi.nlm.nih.gov或通过SequinMacroSend上传。
  • 元基因组转录组可以提交给GenBank,如TSA提交指南.

请联系gb-admin@ncbi.nlm.nih.gov关于这些类型的提交以及关于其格式的说明,您有任何疑问。

接下来会发生什么

一旦我们收到您提交的宏基因组,我们的一名员工将进行初步审查,如果有任何问题,将通过电子邮件与您联系。一旦数据通过初步审查,我们将为与您的宏基因组项目相关的序列记录分配加入号。然后,提交内容将被置于处理队列中,我们的索引人员将在那里对其进行手动审查。在准备将您的数据发布到公共数据库时,如果我们发现任何其他问题或错误,我们将与您联系。一旦我们为与您的宏基因组项目相关的序列记录分配了登录号并与您联系了任何问题,我们将为发布到公共数据库做好准备。

您可以选择立即发布您的宏基因组项目和序列提交,也可以选择在工作的特定日期或出版之前保密,以先到者为准。如果您希望元基因组项目在出版之前一直进行,我们要求您向我们提供预期的出版日期,并及时通知我们即将出版的出版物和相关引文详细信息。这将使我们能够协调您的宏基因组项目的发布和序列提交与论文的外观。请至少提前两周通知即将出版的任何出版物。

上次更新时间:2022-08-16T17:48:03Z