美国国旗

美国政府的官方网站

组件提交指南

集合是用于表示生物体基因组的基因组序列的集合。以下是提交基因组组装的一些说明。

目录

程序集类型

基因组组合可以用几种方式描述。我们定义了两个基本类别,在每个类别中可以定义特定的程序集类型。

  • 简单:没有构建高阶分子指令的程序集。
    • 完整复制子:所有分子都由一个无间隙序列表示。通常是细菌,但在其他分类群中也可以看到。
    • 仅WGS连接:只制作了读取重叠轮廓的组件,没有制作脚手架。有关以下内容的概述,请参阅本页WGS项目
  • 复杂:由一些组分序列(如WGS连接序列或HTG序列)和更高阶结构(如支架和/或染色体)组成的组件。
    • 仅单倍体:一组未定位的支架,或一组染色体+未定位和未定位支架,代表生物体的一致单倍体序列。除了哺乳动物基因组中的伪常染色体区域(PAR)外,任何基因座都可能不会故意被表示多次。基因组组合可能是单倍体,因为测序的遗传物质是单倍型的,或者是因为测序的遗传物质是二倍体或多倍体,但组装过程将序列折叠成基因组的复合单倍体表示(除非使用复杂的组装算法,否则任何替代序列通常都会放在未缩放或未放置的箱子中)。这是当前排序和组装技术中最常见的情况。
    • 单倍体+Alts:染色体组合、未定标和未定位序列以及代表生物体基因组的替代位点的集合。任何位点都可以表示0、1或>1次,但整个染色体只表示0或1次。这种装配的一个例子是智人GRCh37装配。
    • 二倍体/多倍体:一种基因组组合,其中染色体组合可用于个体的两组/所有染色体。预计二倍体/多倍体基因组组合代表一个个体的完整基因组,因此不期望为这种组合定义替代位点,尽管可能是未缩放或未定位序列的一部分。

数据文件定义

以下是您提交所需的文件类型及其格式

元数据文件:项目信息、标识符、DNA来源、测序技术和组装信息。

请参阅格式。。。

一个新的web表单正在开发中。有关提交者和出版物的信息随此处制作的模板文件一起提供/WebSub/template.cgi。我们需要的程序集元数据是:

  • 项目ID
  • 程序集名称:应简短且适合显示。
  • 程序集描述:要显示的有关程序集的简短文本
  • 用于生成读取的排序技术。
  • 序列覆盖率
  • 使用的装配程序和版本
  • 基本质量描述:简要描述装配程序如何确定基本质量。此外,“良好”基数的最小值也是有用的。
  • 链接质量:如果提交AGP文件,链接质量是如何确定的。例如,如果链接基于配对,那么确定链接所需的最小配对数是多少。
  • 已排序材料的信息:
    • 生物体名称
    • 品种
    • 任何其他可能有用的样本特定信息。

Contig Fasta文件:部件中WGS轮廓的序列文件。虽然Ns可用于表示序列模糊性,但不应表示空白。每个文件不应超过10000个序列。根据分子类型(例如染色体)或序列状态(例如未定位或未定位)对序列进行分组通常很方便。

请参阅格式。。。

FASTA格式的序列以单行描述开始,后跟序列数据行。描述行与序列数据的区别在于,它以大于(“>”)的符号开头,后跟第一列中的contig名称(SeqId)。建议所有文本行的长度都小于80个字符。FASTA中的示例序列:>续0001AAAACCTTCCCGTTGGCCTCACCGTCTCACGTCTACTAACGAGCCCCCTCCTAGGACCGCAAGAAAT公司GCTGGGGTCACCCCTCGGCGCCTCCTCCTGCTGGCCACACGTGTAAGGAGAGAGAGGAGCACTCACAGGACCTCCGTGGCTGCCACACATTCACCCAAATGCTCTCTGGGAAAGCCCCCTCCACCACTGTGCTCGTGAGTTTGCCAAAAGGAGATGCAGGAGCTCGATCCCTTGCTGCTAAAATATCCCACCGTGGAAAAGCAGGCTCGGCCTCAAAATTGGAATCGGATCTGTGCTTGCCAGCCACGCTGTGCTCCAGGCCTCCGGTTTGCATTGGAATAGAGAGTGTGCCGGGTAAGATGGCAAGACACACATCTCTCTCCTCCTACAGAC公司ttgtagaaggggctttctgcccgcccccacccagggagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagagaCCTGGCCAAGAATGGCCCTCTGCGTCGTGTGTGGCCTTGCCCAGCACGCTGGGGGGNCACTTTTGCCCTGCCTGACAGGAGGAGGATGCCCCTAGTGAGGGGGAGAGAGAGGGAGGGTGAC公司CACCTTGGACAAGAGGGCAGGAAGGCCCTNCCNTCACCTGTCCACTAGCCGACACTTAGAGGTA公司通常,文件将以.fsa扩展名结尾(例如,chr1.fsa、chr2.fsa、unknown.fsa)。

基本质量文件:类似于FASTA的文件,但在等效的FASTA文件中用数字表示每个基的质量。

请参阅格式。。。

基本质量分数文件看起来与FASTA文件非常相似:>续000151 63 70 82 82 82 90 90 90 90 86 8686 86 86 86 90 90 90 90 90 86 86 78...质量文件中的defline与fasta文件中的defline匹配很重要。使用与fasta文件相同的basename,但对基本质量分数文件使用扩展名.qvl。例如,如果您的fasta文件名为“myantigs.fsa”,那么您的质量文件应该是myantigs.qvl。

AGP文件:描述如何使用组件序列组装高级对象(支架和/或染色体)的文件。成分是提交给GenBank/EMBL/DDBJ的单一序列。这些通常是BAC/磷酰胺克隆或WGS连接,但可能包括PCR产物或其他基因组序列。

请参阅格式。。。

AGP可以被认为是构建假分子的指令。在基因组组装的背景下,这通常是一个支架序列或染色体序列。AGP格式的完整描述如下:AGP规范。可以在前面的链接中找到更广泛的AGP文件示例,但这里是真核生物的示例:#有机体:泛辉绿岩#税号:9598#组件名称:EG2#装配日期:2006年9月6日#基因组中心:NCBI#描述:示例AGP指定来自BAC克隆序列连接的37号染色体的组装#备注:#这是一个虚构染色体的AGP。chr37 1 8000000 1 N 8000000 short_arm编号chr37 8000001 8050000 2 N 50000异染色质编号chr37 8050001 9050000 3 N 1000000着丝粒编号chr37 9050001 9119019 4传真AC147148.2 82352 151370-chr37 9119020 9306028 5 F AC147343.2 1 187009+chr37 9306029 9468766 6传真AC146245.2 1 162738+chr37 9468767 9674992 7华氏度AC146175.1 21960 228185-chr37 9674993 9773308 8传真AC145782.1 1 98316+chr37 9773309 9840873 9传真AC147670.4 1 67565+chr37 9840874 9973728 10传真AC151848.4 1 132855+....原核生物的例子:#有机体:结核分枝杆菌C#税号:348776#组件名称:MycParC_1.0#装配日期:2006年9月6日#基因组中心:NCBI#描述:AGP示例,说明提交的wgs-comigs细菌支架的组装#备注:#这是一个虚构组件的AGP。脚手架1 1145353 1 W轮廓1 11453533+脚手架2 1 490249 1 W Contig2 1 490249+脚手架2 490250 490749 2 N 500碎片是脚手架2 490750 586060 3 W轮廓3 1 95311+脚手架3 1 41479 1 W轮廓4 1 41478+脚手架4 1 2266 1 W轮廓5 1 2266+脚手架4 2267 2326 2 N 60碎片是脚手架4 2327 5525 3 W轮廓6 1 3199+脚手架5 1 1788 1 W轮廓7 1 1788+脚手架6 1 202169 1 W轮廓8 1 202169+脚手架7 1 8835 1 W轮廓9 1 8835+脚手架8 1 20646 1 W轮廓10 1 20646+

PAR定义文件:描述哺乳动物伪常染色体区域位置的文件。

请参阅格式。。。

如果已知Psuedo-autoomal区域(PAR),则可以定义该区域以便于注释。该文件称为PAR-regions。这是一个以制表符分隔的文件,其定义如下:公司名称:染色体名称(通常为X或Y)零件名称:PAR区域的名称(例如PAR#1、PARq)开始时间:PAR起始于染色体停止:PAR终止于染色体下面是一个示例文件:#Chr PAR-名称开始结束X PAR#1 60001 2699520号X PAR#2 154931044 155260560Y PAR#1 10001 2649520Y PAR#2 59034050 59363566

备用轨迹放置文件:描述交替位点支架的染色体上下文的文件。

请参阅格式。。。

对于某些部件,高度分歧的区域可以作为部件中的单独路径捕获。通常,其中一个被并入染色体,另一个可以放入染色体上下文中。该文件定义了备用基因座支架的染色体上下文。这是一个以制表符分隔的文件。alt_asm_name(可选名称):包含备用脚手架的装配单元的名称。prim_asm_name:放置备用脚手架的装配单元的名称。在大多数情况下,预计为“初级装配”。alt_scaf名称:正在放置的备用脚手架的名称父类型(_T):放置备用支架的对象类型,染色体或脚手架家长姓名:放置备用支架的对象的名称(可以是染色体或支架)ori公司:对齐方向,“+”、“-”、“b”(混合)alt_scaf开始:开始在备用脚手架上放置(在1个基准坐标中)alt_scaf停止:在备用脚手架上放置结束(在1个基准坐标中)家长开始时间:父序列上放置的开始(在1个基准坐标中)家长停止(_S):父序列上的放置结束(在1个基准坐标中)备选开始邮件:替代脚手架开始时未参与浇筑的底座数量alt_stop_tail地址:未参与放置的备用脚手架末端的底座数量预计与组件相关的每个备用轨迹支架将作为数据完整性检查列在该文件中。任何没有放置的替代脚手架都会在第4列至第12列中显示“na”。任何具有染色体分配但没有放置的替代支架,都会在第5列中显示染色体名称,在第6到12列中显示“na”。

备用轨迹对齐文件:将备用基因座支架与染色体序列对齐。

参见格式

当前接受的格式:

基因组区域定义文件:如果一个集合具有放置在染色体上下文中的备用基因座支架,通常可以方便地定义基因组区域,因为许多人将通过与染色体对齐来访问备用基因座。此文件和“基因组区域的替代位点分配”是可选的。如果您没有提供基因组区域定义文件,我们将根据提供的位置创建基因组区域。这是一个以制表符分隔的文件。

见格式

地区名称:区域的名称。这应该不超过64个字符,并且在程序集中是唯一的。

染色体:定义区域的染色体。这可以是名称(例如chr1)或序列标识符(例如登录版本),但所有记录必须是相同的类型。

开始时间:区域的第一个坐标,以1-基坐标表示。

停止:区域的最后一个坐标,以1-基坐标表示。

基因组区域的替代位点分配:一个确定的基因组区域可以包含多个交替位点支架。该文件将每个替代基因座支架与特定的基因组区域相关联。此文件是可选的-如果您没有提供区域分配文件,我们将根据提供的位置为区域分配备用轨迹支架。这是一个以制表符分隔的文件。

参见格式

地区名称:这应该在基因组区域定义文件中有相应的条目。

alt-locus脚手架名称:这应该与fasta、agp等中使用的脚手架名称相对应。

注释文件:带批注的文件。(原核生物注释指南) (真核生物注释指南)

示例

提交单倍体组件:仅提交WGS contigs

  1. 如果您没有项目ID,请在此处获取:/基因组/mpfsubmission.cgi
  2. 填写提交模板表单。稍后将使用。
  3. 生成您的contig fasta文件用于WGS连接。如果没有染色体映射信息,您只需随机分割,每个文件不超过10000个序列。记住,这些序列中唯一的N是歧义,而不是空白。此外,从WGS连接中删除所有端子N。

    1. 注:如果已知contig来自特定来源(例如质粒或细胞器),则将该信息包含在.fsa文件的defline中。如果质粒名称未知,则使用“unnamed”。>细胞器>contig_seqid100[质粒=未命名]>contig_seqid200[质粒=pBB1]
  4. 生成您的基层质量评分文件s.虽然此信息不是严格要求的,但强烈建议使用。

  5. 添加有关已测序DNA的相关信息(称为“源限定符”)。相关信息为:

    1. 菌株/品种/隔离物/品种:这是种内限定词。应该有类型和ID。
    2. 组织类型
    3. 发育阶段

    使用名为tbl2asn(待定). (下载)下面是一个示例:tbl2asn-p'path_to_files'-t template_file(来自步骤2)-M n-j“[生物体=属物种][品种=111][性别=雄性]”-Z离散。不要忘记检查.val文件中的验证错误和离散不一致的文件。6.如果您有注释,请准备相关的注释文件.7.提交!将.sqn文件(从tbl2asn进程生成)和任何注释文件上载到基因组宏发送.8.提交后,发送电子邮件至genomes@ncbi.nlm.nih.gov。电子邮件应包含项目ID、GenomesMacroSend的GDSub编号以及元数据文件用于组件。

提交单倍体组装:提交WGS连接和假分子(染色体和/或支架)

  1. 如果您没有项目ID,请在此处获取:/基因组/mpfsubmission.cgi
  2. 填写提交模板表单。稍后将使用。
  3. 生成您的contig fasta文件用于WGS连接。如果没有染色体映射信息,您只需随机分割,每个文件不超过10000个序列。请记住,这些序列中唯一的N是模糊性,而不是间隙。此外,从WGS连接中删除所有端子N。

    1. 注:如果已知contig来自特定来源(例如质粒或细胞器),则将该信息包含在.fsa文件的defline中。如果质粒名称未知,则使用“unnamed”。>contig_seqid1[细胞器=线粒体]>contig_seqid100[质粒=未命名]>contig_seqid200[质粒=pBB1]
  4. 生成您的基本质量分数文件。虽然此信息不是严格要求的,但强烈建议使用此信息。

  5. 生成您的AGP公司文件。记住要将所有被认为是基因组组装的一部分且大于200bp的wgs-comigs作为组分包含在AGP文件中。因此,一些脚手架可能是单一的(只有一个组件)。如果AGP文件中未包含某些wgs-coigs,请在AGP文件内包含注释行,以说明未包含它们的原因,例如:#AGP文件中没有x个wgs-coig,因为它们是重复的,不被视为此程序集的一部分。
  6. 添加有关已测序DNA的相关信息(称为“源限定符”)。相关信息为:

    1. 菌株/品种/隔离物/品种:这是种内限定词。应该有类型和ID。
    2. 组织类型
    3. 发育阶段

    使用名为tbl2asn(待定). (下载)以下是一个示例:tbl2asn-p'path_to_files'-t template_file(来自步骤2)-M n-j“[生物体=属物种][品种=111][性别=雄性]”-Z离散。不要忘记检查.val文件中的验证错误和离散不一致的文件。7.生成PAR定义文件如果PAR区域是已知的和可应用的,如果不跳过这个。8.如果您有注释,请准备相关的注释文件.9.提交!将.sqn文件(从tbl2asn进程生成)和任何注释文件上载到基因组宏发送.10.提交后,发送电子邮件至genomes@ncbi.nlm.nih.gov。电子邮件应包含项目ID、GenomesMacroSend的GDSub编号以及元数据文件用于组件。

提交单倍体组装:基于GenBank材料的假分子(染色体和/或支架)

  1. 如果您没有项目ID,请在此处获取:/基因组/mpfsubmission.cgi
  2. 填写提交模板表单。稍后将使用。
  3. 生成您的AGP公司使用GenBank访问作为组件标识符的文件。
  4. 生成PAR定义文件如果PAR区域已知,则跳过此步骤。
  5. 如果您有注释,请准备相关的注释文件.
  6. 提交!将.sqn文件(从tbl2asn进程生成)、AGP文件和注释文件(如果可用)上载到基因组宏发送.
  7. 提交后,发送电子邮件至genomes@ncbi.nlm.nih.gov。电子邮件应包含项目ID、GenomesMacroSend的GDSub编号以及元数据文件用于装配。

提交单倍体+alts组装:WGS连接+假分子(染色体和/或支架)

  1. 如果您没有项目ID,请在此处获取:/基因组/mpfsubmission.cgi
  2. 填写提交模板表单。稍后将使用。
  3. 生成您的contig fasta文件用于WGS连接。如果没有染色体映射信息,您只需随机分割,每个文件不超过10000个序列。记住,这些序列中唯一的N是歧义,而不是空白。此外,从WGS连接中删除所有端子N。

    1. 注:如果已知contig来自特定来源(例如质粒或细胞器),则将该信息包含在.fsa文件的defline中。如果质粒名称未知,则使用“unnamed”。>细胞器>contig_seqid100[质粒=未命名]>contig_seqid200[质粒=pBB1]
  4. 生成您的基本质量分数文件。虽然此信息不是严格要求的,但强烈建议使用此信息。

  5. 添加有关已测序DNA的相关信息(称为“源限定符”)。相关信息为:

    1. 菌株/品种/隔离物/品种:这是种内限定词。应该有类型和ID。
    2. 组织类型
    3. 发育阶段

    使用名为tbl2asn(待定). (下载)下面是一个示例:tbl2asn-p'path_to_files'-t template_file(来自步骤2)-M n-j“[生物体=属物种][品种=111][性别=雄性]”-Z离散。不要忘记检查.val文件中的验证错误和离散不一致的文件。6.生成PAR定义文件如果PAR区域已知且适用,则跳过此步骤。7.生成备用轨迹放置文件.8.生成备用轨迹对齐文件(可选)。9.生成基因组区域定义文件(可选)。10.生成基因组区域文件的交替位点分配(可选)11.如果您有注释,请准备相关的注释文件.12.提交!将.sqn文件(从tbl2asn过程生成)、AGP文件和alt_assembly_placements.txt文件(以及PAR定义、区域定义、备用基因座到基因组区域文件和注释文件(如果存在))上传到基因组宏发送.13.提交后,发送电子邮件至genomes@ncbi.nlm.nih.gov。电子邮件应包含项目ID、GenomesMacroSend的GDSub编号以及元数据文件用于组件。

提交单倍体+alts组合:基于GenBank材料的假分子(染色体和/或支架)

  1. 如果您没有项目ID,请在此处获取:/基因组/mpfsubmission.cgi
  2. 填写提交模板表单。稍后将使用。
  3. 生成您的AGP公司文件。
  4. 生成PAR定义文件如果PAR区域已知且适用,则跳过此步骤。
  5. 生成备用轨迹放置文件.
  6. 生成备用轨迹对齐文件(可选)。
  7. 生成基因组区域定义文件(可选)。
  8. 生成基因组区域文件的交替位点分配(可选)
  9. 如果您有注释,请准备相关的注释文件.
  10. 提交!将.sqn文件(从tbl2asn过程生成)、AGP文件和alt_assembly_placements.txt文件(以及PAR定义、区域定义、备用基因座到基因组区域文件和注释文件(如果存在))上传到基因组宏发送.
  11. 提交后,发送电子邮件至genomes@ncbi.nlm.nih.gov。电子邮件应包含项目ID、GenomesMacroSend的GDSub编号以及元数据文件用于组件。

提交一个完整的复制子

提交完整回复图标的说明可以在这里找到:genomesubmit.html。

上次更新时间:2022-02-09T21:50:06Z