RefSeq版本216

RefSeq版本216

RefSeq版本216现在可用联机,来自文件传输协议并通过NCBI的新资源,数据集集合.

此完整版本包含截至2023年1月9日可用的基因组、转录和蛋白质数据,并包含342395932条记录,包括249868639个蛋白质、49869497个RNA和128299个生物体的序列。该版本作为完整的数据集在多个目录中提供,也按逻辑分组进行划分。

ASN.1文件大小的增加

如前所述,未压缩ASN.1文件的大小限制从每个ASN.1的500Mb增加到了2Gb。非ASN.1文件的大小也将增加。此更改将减少版本中的文件总数。

质粒序列

修改了质粒仓中包含的序列集,以添加WGS序列中的质粒。

保留域注释

交付保护域数据库(CDD)功能对RefSeq蛋白进行了改进,导致具有保守结构域注释的蛋白质数量大幅增加。查看我们的上一个帖子了解更多关于客户尽职调查的信息。

真核基因组注释的新命名法

10.1版NCBI真核基因组注释管道于2022年12月14日发布。从本版本开始,注释将以程序集加入和注释开始的日期命名。例如,截至2022年12月,程序集GCF_016801865.2的注释名称为GCF_06801865.2-RS_2022_12。

新的真核生物基因组注释

此次发布包括NCBI的真核生物基因组注释管道为33个物种生成的新注释,包括:

原核生物门名称更新

作为宣布2022年11月,NCBI分类学将于2023年1月开始更新原核生物的门名称。长期使用的非正式门名称(如厚壁菌属、变形杆菌属)将更改为新的正式名称(如杆菌属、假单胞菌属)。此更新影响门级别的40多个NCBI出租车ID。完成首次展示需要几周时间。请注意,下一个RefSeq版本(2023年3月)中的平面文件可能包含门名称的部分更新。

留下回复