重要声明：tbl2asn不再提供下载。我们鼓励您查看我们的更新版本表2asn

什么是tbl2asn？

Tbl2asn是一个命令行程序，可自动创建序列记录以提交给GenBank。它使用许多与Genome Workbench相同的功能，但通常由数据文件驱动。Tbl2asn生成.sqn文件以提交给GenBank。提交之前不需要额外的手动编辑。

Tbl2asn通过匿名方式提供文件传输协议。复制适合您平台的正确版本，然后解压缩该文件，将其重命名为“tbl2asn”，并根据平台的需要设置权限。

GenBank提交文件中提供了更多详细信息手册

6种类型的输入数据文件

必修的

模板文件包含文本ASN.1 Submit-block对象（后缀.sbt）。
核苷酸序列数据在里面美国金融服务贸易协会格式（后缀.fsa）。
功能表（后缀.tbl）。[仅当包含注释时才需要]

可选

质量得分（后缀.qvl.）
蛋白质序列（后缀.pep）。（这些很少需要。）
源表（后缀.src.）

生成.sqn文件以提交

使用tbl2asn生成ASN.sqn文件的最低要求是一个.sbt文件和一个或多个.fsa文件。
这些文件放在源目录中，并使用一系列命令行参数来生成.sqn文件。
Tbl2asn将为目录中的每个.fsa文件以及可能存在的任何相应可选文件生成.sqn。其他文件必须具有与其对应的.fsa相同的文件名前缀。（例如helicase.fsa和helicase.tbl）。

命令行参数

键入“tbl2asn（待定）-“将给出命令行参数的完整列表。以下是常用参数的部分列表：

tbl2asn命令行参数

-第页目录的路径。如果文件位于当前目录中，则应使用-p。

-第页生成的.sqn文件的路径（如果不使用-r参数，.sqn文件将保存在源目录中）。

-t吨指定模板文件（.sbt）。如果.sbt文件位于其他目录中，则必须指定完整路径。

-我从包含多个.fsa文件的目录中指定的.fsa文档创建单个提交。

-一个指定文件类型。
r10k:10+Ns为间隙，100Ns为已知长度
r10u:10+Ns为间隙，100Ns为未知长度
s：FASTA套装（批量、s1 Pop、s2 Phy、s3 Mut、s4 Eco）
l:FASTA+间隙校准
z:FASTA与间隙线
e：PHRAP/ACE
d:FASTA德尔塔，具有隐式间隙的di FASTA德尔塔
a：任何（默认）
示例命令行：-a s

-j个允许添加源限定符每次提交都是一样的。示例：-j“[有机体=酿酒酵母][菌株=S288C]”。

-五
验证（结合以下任意字母）：
还会创建一个名为errorlog.val的摘要文件，其中包含在所有.val文件中发现的错误的数量、严重性和类型。
v：验证数据记录。输出将保存到后缀为.val的文件中。

b：生成带有.gbf后缀的GenBank平面文件。

r：验证时不进行国家检查

示例命令行：-V vb

-k个 CDS标志（组合以下任意字母）：
c：如果未提供.tbl文件，则指示tbl2asn注释最长开放读取帧（ORF）。除非FASTA定义中包含产品名称[product=xyz]，否则产品名称将为“未知”。
m：允许在ORF搜索中使用备用启动密码。
r：允许Runon ORF
示例命令行：-k c

-c（c）清理（组合以下任意字母）：
f：在差异报告的特定类别中修复产品名称。更改的产品名称的输出将保存到后缀为.fixedproducts的文件中。
x：将特征的部分末端延伸一个或两个核苷酸，以邻接间隙或序列末端。
D：正确的收款日期（假设第一天）
d：正确的收款日期（假设是月初）
示例命令行：-c fx

-年在每个提交的文件中添加一条注释。例如：-y“已注释大于2kb的轮廓，约占总基因组的87%”。

-Y（Y）类似于-y，但在文件中的每个提交中都添加了一个注释。

-Z轴运行差异报告。必须提供输出文件名。仅推荐用于注释基因组提交、完整或WGS。请参阅差异报告页面获取有关其输出的信息。

-M（M）主基因组标记（结合以下任意字母）：
n：正常。组合基因组提交的标志（替换-a s-V V-c f；当包含-Z discp时调用致命调用）。
b：大。将基因组提交标记与>20000个连续标记组合（如“n”，但使用-Z离散的“大”版本）。
p：超级用户。组合基因组提交的标志（如“n”，但调用加电用户致命的-Z离散调用）。
t:TSA。组合TSA提交的标志（替换-a s-V V-c f；调用特定于TSA的验证）
示例命令行：-M n

tbl2asn命令行参数
-第页	目录的路径。如果文件位于当前目录中，则应使用-p。
-第页	生成的.sqn文件的路径（如果不使用-r参数，.sqn文件将保存在源目录中）。
-t吨	指定模板文件（.sbt）。如果.sbt文件位于其他目录中，则必须指定完整路径。
-我	从包含多个.fsa文件的目录中指定的.fsa文档创建单个提交。
-一个	指定文件类型。 r10k:10+Ns为间隙，100Ns为已知长度 r10u:10+Ns为间隙，100Ns为未知长度 s：FASTA套装（批量、s1 Pop、s2 Phy、s3 Mut、s4 Eco） l:FASTA+间隙校准 z:FASTA与间隙线 e：PHRAP/ACE d:FASTA德尔塔，具有隐式间隙的di FASTA德尔塔 a：任何（默认）示例命令行：-a s
-j个	允许添加源限定符每次提交都是一样的。示例：-j“[有机体=酿酒酵母][菌株=S288C]”。
-五	验证（结合以下任意字母）：还会创建一个名为errorlog.val的摘要文件，其中包含在所有.val文件中发现的错误的数量、严重性和类型。 v：验证数据记录。输出将保存到后缀为.val的文件中。 b：生成带有.gbf后缀的GenBank平面文件。 r：验证时不进行国家检查示例命令行：-V vb
-k个	CDS标志（组合以下任意字母）： c：如果未提供.tbl文件，则指示tbl2asn注释最长开放读取帧（ORF）。除非FASTA定义中包含产品名称[product=xyz]，否则产品名称将为“未知”。 m：允许在ORF搜索中使用备用启动密码。 r：允许Runon ORF 示例命令行：-k c
-c（c）	清理（组合以下任意字母）： f：在差异报告的特定类别中修复产品名称。更改的产品名称的输出将保存到后缀为.fixedproducts的文件中。 x：将特征的部分末端延伸一个或两个核苷酸，以邻接间隙或序列末端。 D：正确的收款日期（假设第一天） d：正确的收款日期（假设是月初）示例命令行：-c fx
-年	在每个提交的文件中添加一条注释。例如：-y“已注释大于2kb的轮廓，约占总基因组的87%”。
-Y（Y）	类似于-y，但在文件中的每个提交中都添加了一个注释。
-Z轴	运行差异报告。必须提供输出文件名。仅推荐用于注释基因组提交、完整或WGS。请参阅差异报告页面获取有关其输出的信息。
-M（M）	主基因组标记（结合以下任意字母）： n：正常。组合基因组提交的标志（替换-a s-V V-c f；当包含-Z discp时调用致命调用）。 b：大。将基因组提交标记与>20000个连续标记组合（如“n”，但使用-Z离散的“大”版本）。 p：超级用户。组合基因组提交的标志（如“n”，但调用加电用户致命的-Z离散调用）。 t:TSA。组合TSA提交的标志（替换-a s-V V-c f；调用特定于TSA的验证）示例命令行：-M n

命令行示例

单一非基因组提交：一个特定的.fsa文件，并且.fsa中只有一个序列：
- tbl2asn-t模板.sbt-i x.fsa-V V
批量非基因组提交：包含.fsa文件的目录，每个文件有多个序列：
- tbl2asn-t模板.sbt-p路径_文件-a s-V V
基因组提交：包含单个基因组的多个.fsa文件以及每个文件的一个或多个序列的目录：
- tbl2asn-t模板.sbt-p路径_文件-M n-Z离散
最常见缺口情况的基因组提交（=运行10次或更多Ns代表一个间隙，不存在完全间隙未知的大小，而跨越缝隙的联系证据是“成对末端”）：
- tbl2asn-t模板-p路径_to_files-M n-Z离散-a r10k-l成对输入

在向GenBank提交.sqn文件之前，查看.val文件并更正任何错误级别的错误。分类相关错误关于缺失的血统通常可以忽略不计。然而，如果有是注释，遗传密码不是标准密码，那么在.fsa定义行中包含正确的代码，如.fsa定义行，或使用-j个在命令行中，以避免错误。

创建模板文件（.sbt）

转到创建提交模板第页
填写方框
单击“创建模板”
将文件另存为模板.sbt

核苷酸序列和FASTA定义格式（.fsa）

一般来说，核苷酸序列没有大小限制。
FASTA文件应包含以“>”开头的单个定义行。
最低要求FASTA定义是：
- SeqID（序列标识符），它是“>”和第一个空格之间的文本。SeqID限制为：
  - 必须少于50个字符
  - 只能包括字母、数字、连字符（-）、下划线（_）、句点（.）、冒号（：）、星号（*）和数字符号（#）。
- 生物体和相关信息（除非生物体信息在命令行或在中.src文件)
- 可选定义信息如下源修改器列表包括：

这里是源修改器列表。请参阅分类页面以了解遗传密码值.

生物学

拉紧[应变=S288C]
隔离[隔离=CWS1]
染色体[染色体=XVI]

其他要素

拓扑[拓扑=圆形]
位置[位置=线粒体]
分子【moltype=mRNA】（默认为DNA）
技术[技术=wgs]
蛋白质名称[蛋白质=解旋酶]（如果使用-c）
遗传密码[g代码=4]

FASTA示例

>Sc_16[有机体=酿酒酵母]国家统计局atgaacatgaaatatattataggaatgaataaattgtgacctctcctgctatttagttattactgatttatgtaggggaataggtgcctttcttatatgtttaatttttttttct附件ttttttcttagaaattattaaagtaagattatggaataaccattggctttttttttacagttttttttggtttttcatttttt ggaaaa标签ggggtattttatatcatcatacttcaacagatttttctgaa目录ttcctattgttttcaagtgcatagccccttttgtaagcagtgttgcttttttagagaatatcctatgaaacatcatataaaatgcaatttaatggtattttaattgttttataggtttcttttgtctaaagtctttatgacttttg标签agggatatgattatataattaggtttagcaggtt标签

要素表格式（.tbl）

tbl2asn从一个名为功能表. The要素表指定每个要素的位置和类型。tbl2asn公司将处理特征间隔并将任何CDS转换为蛋白质。表的第一行应包含以下内容信息：

>功能SeqID table_name

SeqID必须与相应的.fsa文件中的核苷酸序列SeqID匹配。

特征表示例

>功能Sc_16表169 543基因基因sde3p69 543份CDS产品SDE3P蛋白质_id WS1030

质量分数表格式（.qvl）

提供Phrap/CONED质量分数。
具有.fsa文件中相应SeqID的defline。
生成Seq-graph数据，该数据将包含在最终.sqn文件中的.fsa文件的核苷酸序列中。
```
>场景_1651 63 70 82 82 82 90 90 90 90 86 8686 86 86 86 90 90 90 90 90 86 86 78...
```

蛋白质序列格式（.pep）

该文件通常不需要，因为GenBank通常提供核苷酸序列的概念翻译，该翻译将由tbl2asn自动生成。
该文件将用提供的蛋白质序列替换CDS特征的自动翻译产物，因此只有在不寻常的情况下才需要。
它是蛋白质序列的FASTA文件，其中SeqID必须与.tbl文件中的protein_id匹配