RefSeq 200版已公开

RefSeq 200版可访问联机,通过文件传输协议以及通过NCBI的Entrez编程实用程序、E-utilities。

此完整版本包含截至2020年5月4日可用的基因组、转录和蛋白质数据,包含237381664条记录,包括171643729个蛋白质、31244247个RNA和100605个生物体的序列。该版本作为完整的数据集在多个目录中提供,也按逻辑分组进行划分。

其他公告:

RefSeq中的生物体数量超过100000个!
当前RefSeq版本包含100605个不同物种或分类单元,自99版以来净增763个物种。尽管当前版本号为200(请参阅下文),但此里程碑与第100次发布一致。注意,原核生物(细菌和古菌)的物种数量有所减少,因为清理工作主要清除了未分类的细菌和元基因组组装基因组(MAGs)中的组装体。

FTP版本号已跳至200
作为之前宣布的,NCBI的参考序列(RefSeq)FTP版本号在此版本中增加到200,并跳过了编号100-199。上一个版本是2020年3月发布的99版。此更改是为了避免与我们注释的真核基因组的独立编号的RefSeq注释版本的发布编号重叠,当前的范围为100-109,例如小家鼠注释版本108。

NCBI蛋白家族
一个新版本PGAP(原核基因组注释管道)使用的NCBI蛋白家族图谱现已可用。您可以针对您喜爱的原核蛋白质搜索这个隐马尔可夫模型(HMM)集合,以使用hmmer识别其功能。

原核生物参考和代表性基因组组合的重新计算
我们有更新了集合细菌和古生菌的参考和代表组合,以更好地反映RefSeq中原核生物的分类广度。我们根据几个标准为每个物种选择了一个参考或代表性集合,包括连续性、完整性以及集合是否来自类型材料。

未来更改:鼠标引用程序集更新
GRC预计将于2020年发布鼠标GRCm38.p6参考组件的完整组件更新。我们预计今年夏天将RefSeq FTP 201版或202版的鼠标RefSeq注释更新到新的GRCm39程序集。

 

关于“RefSeq 200版已公开

留下回复