重要声明:tbl2asn不再提供下载。我们鼓励您查看我们的更新版本表2asn
什么是tbl2asn?
Tbl2asn是一个命令行程序,可自动创建序列记录以提交给GenBank。它使用许多与Genome Workbench相同的功能,但通常由数据文件驱动。Tbl2asn生成.sqn文件以提交给GenBank。提交之前不需要额外的手动编辑。
Tbl2asn通过匿名方式提供文件传输协议。复制适合您平台的正确版本,然后解压缩该文件,将其重命名为“tbl2asn”,并根据平台的需要设置权限。
GenBank提交文件中提供了更多详细信息手册
必修的
- 模板文件包含文本ASN.1 Submit-block对象(后缀.sbt)。
- 核苷酸序列数据在里面美国金融服务贸易协会格式(后缀.fsa)。
- 功能表(后缀.tbl)。[仅当包含注释时才需要]
可选
- 质量得分(后缀.qvl.)
- 蛋白质序列(后缀.pep)。(这些很少需要。)
- 源表(后缀.src.)
生成.sqn文件以提交
- 使用tbl2asn生成ASN.sqn文件的最低要求是一个.sbt文件和一个或多个.fsa文件。
- 这些文件放在源目录中,并使用一系列命令行参数来生成.sqn文件。
- Tbl2asn将为目录中的每个.fsa文件以及可能存在的任何相应可选文件生成.sqn。其他文件必须具有与其对应的.fsa相同的文件名前缀。(例如helicase.fsa和helicase.tbl)。
命令行参数
键入“tbl2asn(待定)-
“将给出命令行参数的完整列表。以下是常用参数的部分列表:
tbl2asn命令行参数
-第页 |
目录的路径。如果文件位于当前目录中,则应使用-p。 |
-第页 |
生成的.sqn文件的路径(如果不使用-r参数,.sqn文件将保存在源目录中)。 |
-t吨 |
指定模板文件(.sbt)。如果.sbt文件位于其他目录中,则必须指定完整路径。 |
-我 |
从包含多个.fsa文件的目录中指定的.fsa文档创建单个提交。 |
-一个 |
指定文件类型。s:FASTA套装(批量、s1 Pop、s2 Phy、s3 Mut、s4 Eco) d:FASTA德尔塔,具有隐式间隙的di FASTA德尔塔 示例命令行:-a s |
-j个 |
允许添加源限定符每次提交都是一样的。示例:-j“[有机体=酿酒酵母][菌株=S288C]”。 |
-五 |
验证(结合以下任意字母):
还会创建一个名为errorlog.val的摘要文件,其中包含在所有.val文件中发现的错误的数量、严重性和类型。
v:验证数据记录。输出将保存到后缀为.val的文件中。
b:生成带有.gbf后缀的GenBank平面文件。
示例命令行:-V vb
|
-k个 |
CDS标志(组合以下任意字母):c:如果未提供.tbl文件,则指示tbl2asn注释最长开放读取帧(ORF)。除非FASTA定义中包含产品名称[product=xyz],否则产品名称将为“未知”。 示例命令行:-k c |
-c(c) |
清理(组合以下任意字母):f:在差异报告的特定类别中修复产品名称。更改的产品名称的输出将保存到后缀为.fixedproducts的文件中。 x:将特征的部分末端延伸一个或两个核苷酸,以邻接间隙或序列末端。 示例命令行:-c fx |
-年 |
在每个提交的文件中添加一条注释。例如:-y“已注释大于2kb的轮廓,约占总基因组的87%”。 |
-Y(Y) |
类似于-y,但在文件中的每个提交中都添加了一个注释。 |
-Z轴 |
运行差异报告。必须提供输出文件名。仅推荐用于注释基因组提交、完整或WGS。请参阅差异报告页面获取有关其输出的信息。 |
-M(M) |
主基因组标记(结合以下任意字母):n:正常。组合基因组提交的标志(替换-a s-V V-c f;当包含-Z discp时调用致命调用)。 b:大。将基因组提交标记与>20000个连续标记组合(如“n”,但使用-Z离散的“大”版本)。 p:超级用户。组合基因组提交的标志(如“n”,但调用加电用户致命的-Z离散调用)。 t:TSA。组合TSA提交的标志(替换-a s-V V-c f;调用特定于TSA的验证) 示例命令行:-M n |
命令行示例
- 单一非基因组提交:一个特定的.fsa文件,并且.fsa中只有一个序列:
tbl2asn-t模板.sbt-i x.fsa-V V
- 批量非基因组提交:包含.fsa文件的目录,每个文件有多个序列:
tbl2asn-t模板.sbt-p路径_文件-a s-V V
- 基因组提交:包含单个基因组的多个.fsa文件以及每个文件的一个或多个序列的目录:
tbl2asn-t模板.sbt-p路径_文件-M n-Z离散
- 最常见缺口情况的基因组提交(=运行10次或更多Ns代表一个间隙,不存在完全间隙未知的大小,而跨越缝隙的联系证据是“成对末端”):
tbl2asn-t模板-p路径_to_files-M n-Z离散-a r10k-l成对输入
在向GenBank提交.sqn文件之前,查看.val文件并更正任何错误级别的错误。分类相关错误关于缺失的血统通常可以忽略不计。然而,如果有是注释,遗传密码不是标准密码,那么在.fsa定义行中包含正确的代码,如.fsa定义行,或使用-j个
在命令行中,以避免错误。
创建模板文件(.sbt)
- 转到创建提交模板第页
- 填写方框
- 单击“创建模板”
- 将文件另存为
模板.sbt
核苷酸序列和FASTA定义格式(.fsa)
- 一般来说,核苷酸序列没有大小限制。
- FASTA文件应包含以“>”开头的单个定义行。
- 最低要求FASTA定义是:
- SeqID(序列标识符),它是“>”和第一个空格之间的文本。SeqID限制为:
- 必须少于50个字符
- 只能包括字母、数字、连字符(-)、下划线(_)、句点(.)、冒号(:)、星号(*)和数字符号(#)。
- 生物体和相关信息(除非生物体信息在命令行或在中.src文件)
- 可选定义信息如下源修改器列表包括:
这里是源修改器列表。请参阅分类页面以了解遗传密码值.
生物学
- 拉紧
[应变=S288C]
- 隔离
[隔离=CWS1]
- 染色体
[染色体=XVI]
其他要素
- 拓扑
[拓扑=圆形]
- 位置
[位置=线粒体]
- 分子
【moltype=mRNA】
(默认为DNA)
- 技术
[技术=wgs]
- 蛋白质名称
[蛋白质=解旋酶]
(如果使用-c)
- 遗传密码
[g代码=4]
FASTA示例
>Sc_16[有机体=酿酒酵母]国家统计局atgaacatgaaatatattataggaatgaataaattgtgacctctcctgctatttagttattactgatttatgtaggggaataggtgcctttcttatatgtttaatttttttttct附件ttttttcttagaaattattaaagtaagattatggaataaccattggctttttttttacagttttttttggtttttcatttttt ggaaaa标签ggggtattttatatcatcatacttcaacagatttttctgaa目录ttcctattgttttcaagtgcatagccccttttgtaagcagtgttgcttttttagagaatatcctatgaaacatcatataaaatgcaatttaatggtattttaattgttttataggtttcttttgtctaaagtctttatgacttttg标签agggatatgattatataattaggtttagcaggtt标签
要素表格式(.tbl)
tbl2asn从一个名为功能表. The要素表指定每个要素的位置和类型。tbl2asn公司将处理特征间隔并将任何CDS转换为蛋白质。表的第一行应包含以下内容信息:
>功能SeqID table_name
SeqID必须与相应的.fsa文件中的核苷酸序列SeqID匹配。
特征表示例
>功能Sc_16表169 543基因基因sde3p69 543份CDS产品SDE3P蛋白质_id WS1030
质量分数表格式(.qvl)
- 该文件通常不需要,因为GenBank通常提供核苷酸序列的概念翻译,该翻译将由tbl2asn自动生成。
- 该文件将用提供的蛋白质序列替换CDS特征的自动翻译产物,因此只有在不寻常的情况下才需要。
- 它是蛋白质序列的FASTA文件,其中SeqID必须与.tbl文件中的protein_id匹配
FASTA示例
>WS1030[基因=sde3p][蛋白质=sde3p]MYKIVTSPAILVTDFMYVGGIGAAFLNAVLIFSFNFFL公司VKLFKVKINGITIAFFTVFGFSFFGKNILNILPFYLG公司GILYSIYTSTDFSHIVPIAFSSALAPFVSSVAFYGEI公司SYETSYINAILIGILIGFIVLSKSLYDFHEGYDLYN公司LGFTAG公司
源表格式(.src)
对于序列集,尤其是具有不同源的序列集制表符分隔源修改器表可以创建扩展名为.src的文件。第一个文件中的列必须是序列的SeqID。第一排提供要添加的源限定符的名称,以分隔选项卡。任何其他行都列出了的SeqID和源限定符相应的.fsa文件中的每个序列。
SeqID生物菌株分离物Sc_16玉米A69Y JH90.6-2x12
Tbl2asn更新通知
要接收关于tbl2asn更新的电子邮件通知,以及更新中包含的内容的描述,请遵循以下内容方向.