表2asn是什么?
table2asn是一个命令行程序,它创建序列记录以提交给GenBank。
通常,table2asn将识别与输入序列文件具有相同基本名称的文件,并输出具有相同基本名称和.sqn后缀的ASN.1(抽象语法符号1)文本文件。根据使用的参数,可以生成各种可选的输出文件。例如:验证文件(.val后缀)和.val文件的摘要(.stats后缀)、差异报告(.dr后缀)或GenBank平面文件(.gbf后缀)。
表2asn是用非常相似的操作替换旧的now-obsolete工具tbl2asn。与tbl2asn相比,表2asn中有几个不同的参数值(如下所述)和几个附加函数。
表2asn可匿名使用文件传输协议。复制平台的版本,解压缩文件,将其重命名为“table2asn”,并根据平台的需要设置权限。本页简要介绍了表2asn的常见用法,但更多详细信息请参阅表格2asn_readme.txt文件。
- 模板文件包含文本ASN.1 Submit-block对象(后缀.sbt)。[必需]
- 核苷酸序列数据在里面美国金融服务贸易协会格式(后缀.fsa)。[必需]
- 5列功能表(后缀.tbl)。[只有在此格式中包含注释时才需要]
- 蛋白质序列(后缀.pep)。[可选;这些很少需要。]
- 质量得分(后缀.qvl.)[可选]
- 源表(后缀.src.)[可选]
生成.sqn文件以提交
- 使用table2asn生成ASN.sqn文件的最低要求是一个.sbt文件和一个或多个.fsa文件。
- 这些文件放在源目录中,并使用一系列命令行参数来生成.sqn文件。
- table2asn将为目录中的每个.fsa文件以及可能存在的任何相应的可选文件生成一个.sqn。其他文件必须具有与其对应的.fsa相同的文件名前缀。(例如helicase.fsa和helicase.tbl)。
命令行参数
要获取table2asn可以使用的命令行参数的摘要,请运行:table2ansn-help
请注意,与旧的tbl2asn相比,表2asn中一些函数的参数值发生了更改。您可以通过键入“table2asn-help”查看所有参数,但此表显示了可能影响最大的参数:
table2asn命令行参数与tbl2asn的变化
表2asn |
tbl2asn(待定) |
功能 |
-印度 |
-第页 |
输入文件的路径 |
-输出目录 |
-第页 |
生成的.sqn文件的路径(如果不使用-outdir参数,.sqn文件将保存在源目录中)。当-outdir与-Mn或-Vv或-Z一起使用时,输出目录的名称是生成的.stats和.dr文件的基本名称。 |
-第页 |
-R(右) |
启用远程数据检索 |
-Z轴 |
-Z文件 |
差异报告 |
-帮助 |
- |
打印用法和参数 |
以下是常用table2asn参数的部分列表:
-印度 |
目录的路径。如果文件位于当前目录-indir。应该使用。注意:此参数是对tbl2asn(had been-p)的更改 |
-输出目录 |
结果.sqn文件的路径(如果未使用-outdir参数,.sqn将保存在源目录中)。当-outdir与-Mn或-Vv或-Z一起使用时,输出目录的名称是生成的.stats和.dr文件的基本名称。注意:此参数是对tbl2asn(had been-r)的更改 |
-t吨 |
指定模板文件(.sbt)。如果.sbt文件位于其他目录中,则必须指定完整路径。 |
-我 |
从包含多个.fsa文件的目录中指定的.fsa文档创建单个提交。 |
-哦 |
可以与-i一起使用以覆盖输出.sqn文件的默认名称。当-o与-M n或-V V或-Z一起使用时,-o设置的输出文件的基名将用作所有输出文件的基名。 |
-一个 |
指定文件类型。a:任何格式,包括单个FASTA或ASN.1(默认) 示例命令行:-a s |
-j个 |
允许添加源限定符这对于输入fasta文件中的每个序列都是一样的。示例:-j“[有机体=酿酒酵母][菌株=S288C]”。 |
-V(V) |
验证(结合以下任意字母):
v:验证数据记录。输出将保存到后缀为.val的文件中。还会创建一个后缀为.stats的摘要文件,其中包含在所有.val文件中发现的错误的数量、严重性和类型。
b:生成带有.gbf后缀的GenBank平面文件。
示例命令行:-V vb
|
-c(c) |
清理(组合以下任意字母):f:在差异报告的特定类别中修复产品名称。更改的产品名称的输出将保存到后缀为.fixedproducts的文件中。 x:将特征的部分末端延伸一个或两个核苷酸,以邻接间隙或序列末端。 示例命令行:-c fx |
-年 |
在每次提交中添加注释。例如:-y“已注释大于2kb的轮廓,约占总基因组的87%”。 |
-Y(Y) |
类似于-y,但在每个提交的文件中添加了一个注释。 |
-(f) |
使用指定的5列功能表文件作为注释输入,因此其基本名称不必与.fsa文件的基本名称匹配。 |
-Z轴 |
运行序列差异报告,该报告查找一组相关记录中的细微不一致,并输出后缀为.dr的文件。建议仅用于注释基因组和转录组提交。请参阅差异报告页面获取有关其输出的信息。注意:此参数由tbl2asn更改而来,因为它不再需要(或接受)输出文件名。 |
-欧洲 |
为差异报告测试断言真核生物谱系。 |
-M(M) |
主基因组标记:n:正常。用于提交原核或真核基因组。替换-a s-V V-c f;当包含-Z时,调用基因组特异性差异测试和致命调用。请参阅基因组提交指南 t:TSA。组合TSA提交的标志(替换-a s-V V-c f;调用TSA特定的验证)请参阅TSA提交指南 示例命令行:-M n |
-帮助 |
提供命令行参数的完整列表。 |
命令行示例
- 单一非基因组提交:一个特定的.fsa文件,.fsa中只有一个序列,源信息位于.fsa的定义行中:
- 表2asn-t模板.sbt-i x.fsa-V V
- 批量非基因组提交:包含.fsa文件和每个文件的多个序列的目录,源信息位于.fsa文档的定义行中:
- 表2asn-t模板.sbt-indir path_to_files-a s-V V
- 基因组提交:包含单个基因组的多个.fsa文件的目录,每个文件包含一个或多个序列,源信息位于.fsa文档的定义行中:
- 表2asn-t模板.sbt-indir path_to_files-M n-Z
- 最常见缺口情况的基因组提交(=运行10个或更多Ns表示一个间隙,不存在大小完全未知的间隙,跨间隙链接的证据是“成对的末端”),源信息在.fsa文件的定义行中:
- 表2asn-t模板-indir path_to_files-M n-Z-gaps-min 10-l成对输入
在向GenBank提交.sqn文件之前,
- 查看.stats文件以获取验证器问题的摘要,并更正任何错误级别或拒绝级别的错误。有关错误的详细信息,请参见.val文件。关于缺失谱系的分类学相关错误通常可以忽略。但是,如果有注释并且遗传代码不是标准代码,则在.fsa定义行中包含正确的代码,如.fsa定义行,或在命令行中使用“-j”以避免错误。有关更多信息,请参阅验证或差异报告错误解释和基因组验证错误解释.
- 对于基因组和TSA提交的文件,请审查差异报告结果在.dr文件中,尤其是检查致命试验.
创建模板文件(.sbt)
- 转到创建提交模板第页
- 填写方框
- 单击“创建模板”
- 将文件另存为template.sbt
核苷酸序列和FASTA定义格式(.fsa)
- 一般来说,核苷酸序列没有大小限制。
- 技术长度限制为2147483647bp(=2^31)
- FASTA文件中的每个序列都必须有一个以“>”开头的定义行(defline)。
- 最低要求FASTA定义是:
- SeqID(序列标识符),它是“>”和第一个空格之间的文本。SeqID限制为:
- 必须少于50个字符
- 只能包括字母、数字、连字符(-)、下划线(_)、句点(.)、冒号(:)、星号(*)和数字符号(#)。
- 生物体和相关信息(除非生物体信息在命令行或在中.src文件)
- 可选定义信息如下源修改器列表包括:
生物学
- 拉紧
[应变=S288C]
- 隔离
[隔离=CWS1]
- 染色体
[染色体=XVI]
- 质粒
[质粒名称=pBR322]
其他要素
- 拓扑
[拓扑=圆形]
- 位置
[位置=线粒体]
- 分子
【moltype=mRNA】
(默认为DNA)
- 技术
[技术=wgs]
- 遗传密码
[g代码=4]
这里是源修改器列表。有关遗传密码值.
FASTA示例
>Sc_16[有机体=酿酒酵母]tataggcaatcgagtatattttttctca状态atgaacatgaaatatattataggaatgaataaattgtgacctctcctgctatttagttattactgatttatgtaggggaataggtgcctttcttatatgtttaatttttttttct附件ttttttcttagaaattattaaagtaagattatggaataaccattggctttttttttacagttttttttggtttttcatttttt ggaaaa标签ggggtattttatatcatcatacttcaacagatttttctgaa目录ttcctattgttttcaagtgcatagccccttttgtaagcagtgttgcttttttagagaatatcctatgaaacatcatataaaatgcaatttaatggtattttaattgttttataggtttcttttgtctaaagtctttatgacttttg标签agggatatgattatataattaggtttagcaggtt标签
FASTA批次示例
>Sc_16_1[有机体=酿酒酵母]tataggcaatcgagtatattttttctca状态atgaacatgaaatatattataggaatgaataaattgtgacctctcctgctatttagttattactgatttatgtaggggaataggtgcctttcttatatgtttaatttttttttct附件ttttttcttagaaattattaaagtaagattatgaa目录ttcctattgttttcaagtgcatagccccttttgtaagcagtgttgcttttttagagaatatcctatgaaa>Sc_16_2[生物体=酿酒酵母]卡特塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔塔ttataggtttcttttgtctaaagtctttatgacttttg标签agggatatgattatataattaggtttagcaggtt标签gaataaccattggctttttttttacagttttttttggtttttcatttttt ggaaaa标签ggggtattttatatcatcatacttcaacagatttttctg
要素表格式(.tbl)
table2asn从一个名为功能表. The要素表指定每个要素的位置和类型。表2asn将处理特征间隔并将CDS转换为蛋白质。表的第一行应包含以下内容信息:
>功能SeqID
SeqID必须与相应的.fsa文件中的核苷酸序列SeqID匹配。
特征表示例
>功能Sc_1669 543基因基因sde3p69 543份CDS产品SDE3P蛋白质_id WS1030
请注意,GenBank原核或真核基因组可以使用GenBank特定格式的GFF3文件作为注释输入,如用GFF3或GTF文件注释基因组。通常,可以包含在5列功能表(.tbl)文件可以包含在GFF3文件中相应功能行的第9列中。
蛋白质序列格式(.pep)
- 该文件通常不需要,因为GenBank通常提供核苷酸序列的概念翻译,该翻译将由表2asn自动生成。
- 该文件将用提供的蛋白质序列替换CDS特征的自动翻译产物,因此仅在不寻常的情况下需要。
- 它是蛋白质序列的FASTA文件,其中SeqID必须与.tbl文件中的protein_id匹配
FASTA示例
>WS1030[基因=sde3p][蛋白质=sde3p]MYKIVTSPAILVTDFMYVGGIGAAFLNAVLIFSFNFFL公司VKLFKVKINGITIAFFTVFGFSFFGKNILNILPFYLG公司GILYSIYTSTDFSHIVPIAFSSALAPFVSSVAFYGEI公司系统不合格LGFTAG公司
质量分数表格式(.qvl)
源表格式(.src)
对于序列集,尤其是具有不同源的序列集制表符分隔源修饰符表可以创建扩展名为.src的文件。第一个文件中的列必须是序列的SeqID。第一排提供要添加的源限定符的名称,以分隔选项卡。任何其他行都列出了的SeqID和源限定符相应的.fsa文件中的每个序列。
SeqID生物菌株分离物Sc_16玉米A69Y JH90.6-2x12