什么是TBL2ASN?

TBL2ASN是一个命令行程序,可以自动生成提交给GenBank的序列记录。它使用许多与SIPIN相同的功能,但通常由数据文件驱动。TBL2ASN生成.qn文件以提交给GenBank。提交前不需要额外的手动编辑。

匿名的TBL2ASN可用文件传输协议. 为平台复制正确的版本,然后解压缩文件,将其重命名为“TBL2ASN”,并根据平台的需要设置权限。

在GenBank提交中提供了其他详细信息。手册

6种类型的输入数据文件

必修的

  1. 模板文件包含文本ASN . 1提交块对象(后缀.SBT)。
  2. 核苷酸序列数据进入FASTA格式(后缀.fsA)。
  3. 特征表(后缀TBL)。[仅包含注释的要求]

可选的

  1. 质量分数(后缀,qvl)
  2. 蛋白质序列(后缀,PEP)。(这些是很少需要的)。
  3. 源表(后缀.Src)

生成提交的.qn文件

  • 使用TBL2ASN生成序列文件的最低要求是一个.SBT文件和一个或多个FSA文件。
  • 文件放置在源目录中,一系列命令行参数用于生成.qn文件。
  • TBL2ASN将为目录中的每个.fSA文件生成.qn,加上可能存在的任何对应的可选文件。其他文件必须具有与它们对应的.FSA相同的文件名称前缀。(例如螺旋体、FSA和解旋酶TBL)。

命令行参数

“打字”TBL2ASN--“将给出命令行参数的完整列表。以下是常用参数的部分列表:

命令行参数
-P 指向目录的路径。如果文件在当前目录中,则应该使用P。
-R 生成的.qn文件的路径(如果不使用-r参数,则.qn文件将保存在源目录中)。
-T 指定模板文件(.SBT)。如果.SBT文件位于不同的目录中,则必须指定完整路径。
I 在多个FSA文件的目录中,从指定的.fSA文件创建单个提交。
A 指定文件类型。
    R10K:10 +ns的运行是间隙,100 ns是已知的长度
    R10U:10±ns为间隙,100 ns为未知长度。
    S:FASTA组(S批次,S1 POP,S2 PHY,S3 MUT,S4 ECO)
    LFASA+GAP对齐
    Z:带间隙线的FASTA
    Eff:PrAP/ACE
    D:FASTA三角洲,DI FASTA三角洲与隐性缺口
    任何(默认)
示例命令行:-A
-J 允许添加源限定符这对每个提交都是一样的。例:-J“[生物体=酿酒酵母] [菌株=S28 8C] ]。
-V

验证(合并以下任何字母):

还创建了一个名为ErrLog.Var的摘要文件,其中包含了所有.Var文件中发现的错误的数量、严重性和类型。
    V:验证数据记录。输出保存到.vAL后缀的文件中。
    用.GBF后缀生成GenBank平面文件。
    没有国家检查的有效性

示例命令行:-V VB

-K CDS标志(合并以下字母中的任何一个):
    C:如果没有提供TBL文件,请指示TBL2ASN注释最长的开放读码框(ORF)。除非在FASTA定义中包含产品名称,否则产品名称将是“未知的”。
    允许在ORF搜索中使用可选的起始密码子。
    允许Runon ORFs
示例命令行:-k
-C 清除(合并下列字母中的任何一个):
    F:将产品名称固定在差异报告的特定类别中。将更改后的产品名称的输出保存到具有.FixEdEd后缀的文件中。
    X:用一个或两个核苷酸将特征的部分末端延伸到邻接间隙或序列末端。
    正确收集日期(假设第一天)
    正确收集日期(月初)
示例命令行:-C FX
-Y 向每个提交添加注释。例子:-Y“大于87% kb的重叠群已被注释,占总基因组的大约0.5”。
-Y 像-Y,但是从文件中向每个提交添加注释。
-Z 运行差异报告。必须提供输出文件名。建议只用于注释基因组提交,完整或WGS。差异报告页面有关其输出的信息。
-m 主基因组标志(合并下列字母中的任何一个):
    正常。组合标记用于基因组提交(替换-S V V -C F;当包含Z Z差异时调用致命调用)。
    B:太大了。将基因组提交的标志与>20000个重叠群(类似于‘n’)结合起来,但使用“大”版本-Z差异。
    电力用户。组合标志用于基因组提交(如“n”,但调用电源用户致命调用-Z离散)。
    TSA:TSA。组合TSA提交的标志(替换-S V V -C F;调用TSA特定验证)
样本命令行:-M n

示例命令行

  • 单一非基因组提交一个特定的.fSA文件,在fSA文件中只有1个序列:
    • TBL2ASN-T模板,SBT-ⅠX.FSA-V V
  • 批量非基因组提交包含.fSA文件和每个文件的多个序列的目录:
    • TBL2ASN-T模板.SBT-P PATIOT-TAY文件-A V V
  • 基因组提交一个包含单个基因组的多个FSA文件的目录,以及每个文件的一个或多个序列:
    • TBL2ASN-T模板.SBT-P PATIOT-TAX文件-M N-Z差异
  • 最常见空隙情况下的基因组提交(= 10个或更多的NS的运行代表一个间隙,并且没有完全未知大小的间隙,并且跨越间隙的连接的证据是“配对末端”):
    • TBL2ASN-T模板-P PATIOTTHORM文件-M N-Z差异-R10K-L成对端

在将.qn文件提交给GenBank之前,查看.Valf文件并纠正任何错误级别错误。分类学上有关缺失谱系的错误通常可以忽略不计。但是,如果存在注释,而遗传代码不是标准代码,那么在FSA定义行中包含正确的代码,如FSA定义线,或与-J在命令行中,避免错误。

创建模板文件(.SBT)

核苷酸序列和FASTA偏转格式(FSA)

  • 对核苷酸序列无大小限制。
  • FASTA文件应该由以“>”开头的单个定义行组成。
  • 最低要求FASTA斜纹布是:
    • SeqID(序列标识符),它是“>”和第一个空间之间的文本。SEQID的限制是:
      • 必须是< 50个字符
      • 只能包括字母、数字、连字符(-)、下划线(x)、周期()、冒号(:)、星号(*)和数字符号(*)。
    • 生物体和相关信息(除非生物体信息包含在-J中)命令行或在SRC文件
    • 可选的斜线信息在此源修饰符列表包括:

这里是源修饰符列表. 查看分类页。遗传密码值.

生物学的

  • 拉紧[株= S28 8C]
  • 隔离[隔离=CWS1]
  • 染色体[染色体=XVI ]

其他元素

  • 拓扑[拓扑=圆形]
  • 位置[位置=线粒体]
  • 分子[分子型= mRNA ](DNA是默认的)
  • 技法[技术= WGS]
  • 蛋白质名称[蛋白质=解旋酶](如果使用-C)
  • 遗传密码[GCOD= 4 ]

这里是源修饰符列表. 查看分类页。遗传密码值.

FAST实例

>Sc_16 [organism=Saccharomyces cerevisiae]
tataggcgaatcgagtatattattttttctcaacatatgtat
atgaacatgagaatatatttataggaatgtataaaattgtga
cctctcctgctattttagttactgattttatgtatgtagggg
gaataggggctgcctttcttaatgcagttttaattttttctt
ttaattttttcttagtaaaattatttaaagtaaagattaatg
gaataaccattgcgcttttttttacagtttttggtttttcat
tttttggaaaaaatattttaaatattttacctttttatttag
ggggtattttatatagtatctatacttcaacagatttttctg
aacatatagttcctattgctttttcaagtgcattagcccctt
ttgtaagcagtgttgctttttatggagaaatatcctatgaaa
catcatatataaatgcaattttaattggtattttaattggtt
ttatagtggttcctttgtctaaaagtctttatgactttcatg
agggatatgatttatataatttaggttttacagcaggtt

特征表格式(.tbl)

TBL2ASN从一个称为“A”的五列选项卡分隔表中读取特性特征表. 特征表指定每个特征的位置和类型。TBL2ASN将处理特征区间,将任意的CDS转化为蛋白质。表的第一行应包含下列信息:

>特征SEQID表名

SEQID必须匹配相应的.FSA文件中的核苷酸序列SEQID。

实例特征表

> SC1616表1、69、543基因、SDE3P、69、543 CDS产物SDE3P蛋白ID WS1030

质量分数表格式(qvl)

  • 提供短语/质量分数。
  • 具有与.fSA文件对应的SEQID的斜线。
  • 生成SEQ图形数据,这些数据将包含在..qn文件中的.fSA文件的核苷酸序列中。
  • 质量分数出现在.qn文件下面的序列中,并且在顺序文件中查看.qn文件时以质量格式选项显示。
    > SC16 16、51、63、70、82、82、82、90、90、90、90、86、86、86、…

蛋白质序列格式(PEP)

  • 该文件通常不需要,因为GenBank通常提出的概念翻译的核苷酸序列,这将自动生成的TBL2ASN。
  • 该文件将取代所提供的蛋白质序列的CDS特征的自动翻译的产品,因此仅在异常情况下才需要。
  • 它是蛋白质序列的FASTA文件,其中SEQID必须与TBL文件中的蛋白质ID匹配。

FAST实例

> WS1030[基因= SDE3P] [ MyKiVistaVFVGGIGIGFAAFLFNFLIFSF FNFFL

源表格式(.Src)

对于序列集合,特别是那些具有不同来源的序列,一个限定了源修改表可以创建具有.Src扩展名的文件。文件中的第一个列必须是序列的SEQID。第一行枚举添加的源限定符的名称,用标签分隔。任何其他行都列出相应的.fSA文件中的每个序列的SEQID和源限定符。

SeqID生物分离株Sc1616玉米A69Y JH90.62X12

TBL2ASN更新通知

要接收关于TBL2ASN更新的电子邮件通知,以及对更新中包含的内容的描述如下说明书.

最后更新:2017~11-13T22:53:44