GenBank版本236.0(2020年2月20日)现已在NCBI上提供文件传输协议现场。此次发布有7.72万亿个基数和18.4亿个记录。
该版本有216214215条传统记录,包含399376854872个碱基对的序列数据。还有1206720688条WGS记录,其中包含6968991265752个序列数据碱基对,386644871条批量定向TSA记录,其中包括340994289065个序列数据的碱基对;34037371条批量导向TLS记录,中包含13669678196个序列数据基对。
在GenBank版本235.0和236.0截止日期之间的70天内,GenBank的“传统”部分增加了10959596863个碱基对和881195个序列记录。在同一期间,共更新了62552条记录。平均每天添加和/或更新13482条“传统”记录。
在版本235.0和236.0之间,GenBank的WGS组件增加了691440065062个碱基对和79696818个序列记录。GenBank的TSA成分增加了15561272936个碱基对和19451027个序列记录。GenBank的TLS成分增加了2389081582个碱基对和5810191个序列记录。GenBank的VRT组分减少,因为Coregonus sp.‘balchen’基因组的40个染色体记录被抑制,序列数据为2.1Gbp。该生物体已经由潜在的序列连接体加上从这些连接体构建的染色体连接体/支架记录来表示。40个被抑制的记录与这些支架是冗余的,并且它们的抑制导致VRT分区文件更少。
在此版本中,序列数据文件的总数增加了48个。划分如下:
- BCT:17个新文件,现在总共418个
- CON:4个新文件,现在总共216个
- ENV:1个新文件,现在总共59个
- MAM:10个新文件,现在总共49个
- PAT:2个新文件,现在总共204个
- 印尼国家电力公司:18个新文件,现在总计204个
- VRL:1个新文件,现在总共36个
- VRT:5个文件减少,现在总共161个
出于下载目的,未压缩的GenBank 236.0版平面文件大约需要1117GB,包括序列文件和*.txt文件。
有关GenBank 236.0版的更多信息,请访问发行说明,以及上的GenBank和ASN.1(ncbi-asn1)目录中的README文件文件传输协议.